《Python数据分析》课程电子教案（PPT课件）第5章 Pandas数据载入与预处理

团购合买资源类别：文库，文档格式：PPTX，文档页数：52，文件大小：1.07MB

Python数据分析第5章Pandas数据载入与预处理

Python数据分析第 5 章 Pandas数据载入与预处理

第5章Pandas数据载入与预处理对于数据分析而言，数据大部分来源于外部数据，如常用的CSV文件Excel文件和数据库文件等。Pandas库将外部数据转换为DataFrame数据格式，处理完成后再存储到相应的外部文件中。NumPy常用的导入格式：importpandasaspd

第 5 章 Pandas数据载入与预处理 • 对于数据分析而言，数据大部分来源于外部数据，如常用的CSV文件、 Excel文件和数据库文件等。Pandas库将外部数据转换为DataFrame数据格式，处理完成后再存储到相应的外部文件中。 • NumPy常用的导入格式：import pandas as pd

5.1数据载入*5.1.1读/写文本文件1.文本文件读取文本文件是一种由若行字符构成的计算机文件，它是一种典型的顺序文件

1.文本文件读取文本文件是一种由若干行字符构成的计算机文件，它是一种典型的顺序文件。 ❖ 5.1.1 读/写文本文件 5.1 数据载入

5.1数据载入1.文本文件读取txt文件：是Windows操作系统上附带的一种文本格式，文件以.tt为后缀。CSV文件：是Comma-SeparatedValues的缩写，用半角逗号（，，）作为字段值的分隔符

1.文本文件读取 txt文件：是Windows操作系统上附带的一种文本格式，文件以.txt为后缀。 CSV文件：是Comma-Separated Values的缩写，用半角逗号（’,’）作为字段值的分隔符。 5.1 数据载入

5.1数据载入1.文本文件读取Pandas中使用readtable来读取文本文件：pandas.read_table(filepath_or_buffer, sep="lt'header="infer',names=None,index col=None,dtype=None,engine=None, nrows=None)Pandas中使用readcsv函数来读取cSV文件：pandas.read_csv(filepath_or_buffer, sep=',header="infer',names=None,index col=None,dtype=None,engine=None,nrows=None)

1.文本文件读取 Pandas中使用read_table来读取文本文件： pandas.read_table(filepath_or_buffer, sep=’\t’, header=’infer’, names=None, index_col=None, dtype=None, engine=None, nrows=None) Pandas中使用read_csv函数来读取CSV文件： pandas.read_csv(filepath_or_buffer, sep=’，’, header=’infer’, names=None, index_col=None, dtype=None, engine=None, nrows=None) 5.1 数据载入

5.1数据载入表5-1readtable和readcsv常用参数及其说明说明参数名称filepath接收string，代表文件路径，无默认接收string，代表分隔符。readcsv默认为"”，read_table默认为制表符sep“”，如果分隔符指定错误，在读取数据的时候，每一行数据将连成一片接收int或sequence，表示将某行数据作为列名，默认为infer，表示自header动识别接收array，表示列名，默认为Nonenames接收int、sequence或False，表示索引列的位置，取值为sequence则代index_col表多重索引，默认为None接收dict，代表写入的数据类型（列名为key，数据格式为values），默dtype认为Noneengine接收c或者python，代表数据解析引擎，默认为c接收int，表示读取前n行，默认为Nonenrows

5.1 数据载入参数名称说明 filepath 接收string，代表文件路径，无默认 sep 接收string，代表分隔符。read_csv默认为“,”，read_table默认为制表符 “\t”，如果分隔符指定错误，在读取数据的时候，每一行数据将连成一片 header 接收int或sequence，表示将某行数据作为列名，默认为infer，表示自动识别 names 接收array，表示列名，默认为None index_col 接收int、sequence或False，表示索引列的位置，取值为sequence则代表多重索引，默认为None dtype 接收dict，代表写入的数据类型（列名为key，数据格式为values），默认为None engine 接收c或者python，代表数据解析引擎，默认为c nrows 接收int，表示读取前n行，默认为None 表5-1 read_table和read_csv常用参数及其说明

5.1数据载入【例5-1】使用readcsv函数读取CsV文件。In[1]:edfl=pd.readcsv（“文件路径文件名'）+#读取CSV文件到DataFrame中df2=pd.readtable（“文件路径文件名，sep=‘）#使用readtable，并指定分隔符df3=pd.read_csv（“文件路径文件名"，names=["a,"b',---]）#文件不包含表头行，允许自动分配默认列名，也可以指定列名

5.1 数据载入

5.1数据载入2.文本文件的存储文本文件的存储和读取类似，结构化数据可以通过pandas中的to csv函数实现以CSV文件格式存储文件。DataFrame.to_csv(path_or_buf = None, sep =',, na_rep,columns=None,header=True, index=True, index label=None,mode='w, encoding=None)

2. 文本文件的存储文本文件的存储和读取类似，结构化数据可以通过pandas中的to_csv函数实现以CSV文件格式存储文件。 DataFrame.to_csv(path_or_buf = None, sep = ’,’, na_rep, columns=None, header=True, index=True, index_label=None, mode=’w’, encoding=None) 5.1 数据载入

5.1数据载入·5.1.2读/写Excel文件1.Excel文件的读取Pandas提供了readexcel函数读取“xls”和“xlsx"两种excel文件其格式为：pandas.read_excel(io, sheetname, header=O, index_col=None,names=None, dtype)readexcel函数和readtable函数的部分参数相同

• 5.1.2 读/写Excel文件 1. Excel文件的读取 Pandas提供了read_excel函数读取“xls”和“xlsx”两种excel文件，其格式为： pandas.read_excel(io, sheetname, header=0, index_col=None, names=None, dtype) read_excel函数和read_table函数的部分参数相同 5.1 数据载入

5.1数据载入表5-2Pandas读写Excel文件说明参数名称io接收string，表示文件路径，无默认sheetname接收string、int，代表excel表内数据的分表位置，默认为o接收int或sequence，表示将某行数据作为列名，默认为infer，表示自header动识别接收int、sequence或者False，表示索引列的位置，取值为sequencenames则代表多重索引，默认为None接收int、sequence或者False，表示索引列的位置，取值为sequenceindex col则代表多重索引，默认为None接收dict，代表写入的数据类型（列名为key，数据格式为values），dtype默认为None

表5-2 Pandas读写Excel文件参数名称说明 io 接收string，表示文件路径，无默认 sheetname 接收string、int，代表excel表内数据的分表位置，默认为0 header 接收int或sequence，表示将某行数据作为列名，默认为infer，表示自动识别 names 接收int、sequence或者False，表示索引列的位置，取值为sequence 则代表多重索引，默认为None index_col 接收int、sequence或者False，表示索引列的位置，取值为sequence 则代表多重索引，默认为None dtype 接收dict，代表写入的数据类型（列名为key，数据格式为values），默认为None 5.1 数据载入

点击下载完整版文档（PPTX格式）

共52页，可试读18页，点击继续阅读 ↓↓

点击下载（PPTX格式）

浏览记录