
Python数据分析第5章Pandas数据载入与预处理
Python数据分析 第 5 章 Pandas数据载入与预处理

第5章Pandas数据载入与预处理对于数据分析而言,数据大部分来源于外部数据,如常用的CSV文件Excel文件和数据库文件等。Pandas库将外部数据转换为DataFrame数据格式,处理完成后再存储到相应的外部文件中。NumPy常用的导入格式:importpandasaspd
第 5 章 Pandas数据载入与预处理 • 对于数据分析而言,数据大部分来源于外部数据,如常用的CSV文件、 Excel文件和数据库文件等。Pandas库将外部数据转换为DataFrame数据 格式,处理完成后再存储到相应的外部文件中。 • NumPy常用的导入格式:import pandas as pd

5.1数据载入*5.1.1读/写文本文件1.文本文件读取文本文件是一种由若行字符构成的计算机文件,它是一种典型的顺序文件
1.文本文件读取 文本文件是一种由若干行字符构成的计算机文件,它是一 种典型的顺序文件。 ❖ 5.1.1 读/写文本文件 5.1 数据载入

5.1数据载入1.文本文件读取txt文件:是Windows操作系统上附带的一种文本格式,文件以.tt为后缀。CSV文件:是Comma-SeparatedValues的缩写,用半角逗号(,,)作为字段值的分隔符
1.文本文件读取 txt文件:是Windows操作系统上附带的一种文本格式,文件 以.txt为后缀。 CSV文件:是Comma-Separated Values的缩写,用半角逗 号(’,’)作为字段值的分隔符。 5.1 数据载入

5.1数据载入1.文本文件读取Pandas中使用readtable来读取文本文件:pandas.read_table(filepath_or_buffer, sep="lt'header="infer',names=None,index col=None,dtype=None,engine=None, nrows=None)Pandas中使用readcsv函数来读取cSV文件:pandas.read_csv(filepath_or_buffer, sep=',header="infer',names=None,index col=None,dtype=None,engine=None,nrows=None)
1.文本文件读取 Pandas中使用read_table来读取文本文件: pandas.read_table(filepath_or_buffer, sep=’\t’, header=’infer’, names=None, index_col=None, dtype=None, engine=None, nrows=None) Pandas中使用read_csv函数来读取CSV文件: pandas.read_csv(filepath_or_buffer, sep=’,’, header=’infer’, names=None, index_col=None, dtype=None, engine=None, nrows=None) 5.1 数据载入

5.1数据载入表5-1readtable和readcsv常用参数及其说明说明参数名称filepath接收string,代表文件路径,无默认接收string,代表分隔符。readcsv默认为"”,read_table默认为制表符sep“”,如果分隔符指定错误,在读取数据的时候,每一行数据将连成一片接收int或sequence,表示将某行数据作为列名,默认为infer,表示自header动识别接收array,表示列名,默认为Nonenames接收int、sequence或False,表示索引列的位置,取值为sequence则代index_col表多重索引,默认为None接收dict,代表写入的数据类型(列名为key,数据格式为values),默dtype认为Noneengine接收c或者python,代表数据解析引擎,默认为c接收int,表示读取前n行,默认为Nonenrows
5.1 数据载入 参数名称 说明 filepath 接收string,代表文件路径,无默认 sep 接收string,代表分隔符。read_csv默认为“,”,read_table默认为制表符 “\t”,如果分隔符指定错误,在读取数据的时候,每一行数据将连成一片 header 接收int或sequence,表示将某行数据作为列名,默认为infer,表示自 动识别 names 接收array,表示列名,默认为None index_col 接收int、sequence或False,表示索引列的位置,取值为sequence则代 表多重索引,默认为None dtype 接收dict,代表写入的数据类型(列名为key,数据格式为values),默 认为None engine 接收c或者python,代表数据解析引擎,默认为c nrows 接收int,表示读取前n行,默认为None 表5-1 read_table和read_csv常用参数及其说明

5.1数据载入【例5-1】使用readcsv函数读取CsV文件。In[1]:edfl=pd.readcsv(“文件路径文件名')+#读取CSV文件到DataFrame中df2=pd.readtable(“文件路径文件名,sep=‘)#使用readtable,并指定分隔符df3=pd.read_csv(“文件路径文件名",names=["a,"b',---])#文件不包含表头行,允许自动分配默认列名,也可以指定列名
5.1 数据载入

5.1数据载入2.文本文件的存储文本文件的存储和读取类似,结构化数据可以通过pandas中的to csv函数实现以CSV文件格式存储文件。DataFrame.to_csv(path_or_buf = None, sep =',, na_rep,columns=None,header=True, index=True, index label=None,mode='w, encoding=None)
2. 文本文件的存储 文本文件的存储和读取类似,结构化数据可以通过pandas中 的to_csv函数实现以CSV文件格式存储文件。 DataFrame.to_csv(path_or_buf = None, sep = ’,’, na_rep, columns=None, header=True, index=True, index_label=None, mode=’w’, encoding=None) 5.1 数据载入

5.1数据载入·5.1.2读/写Excel文件1.Excel文件的读取Pandas提供了readexcel函数读取“xls”和“xlsx"两种excel文件其格式为:pandas.read_excel(io, sheetname, header=O, index_col=None,names=None, dtype)readexcel函数和readtable函数的部分参数相同
• 5.1.2 读/写Excel文件 1. Excel文件的读取 Pandas提供了read_excel函数读取“xls”和“xlsx”两种excel文件, 其格式为: pandas.read_excel(io, sheetname, header=0, index_col=None, names=None, dtype) read_excel函数和read_table函数的部分参数相同 5.1 数据载入

5.1数据载入表5-2Pandas读写Excel文件说明参数名称io接收string,表示文件路径,无默认sheetname接收string、int,代表excel表内数据的分表位置,默认为o接收int或sequence,表示将某行数据作为列名,默认为infer,表示自header动识别接收int、sequence或者False,表示索引列的位置,取值为sequencenames则代表多重索引,默认为None接收int、sequence或者False,表示索引列的位置,取值为sequenceindex col则代表多重索引,默认为None接收dict,代表写入的数据类型(列名为key,数据格式为values),dtype默认为None
表5-2 Pandas读写Excel文件 参数名称 说明 io 接收string,表示文件路径,无默认 sheetname 接收string、int,代表excel表内数据的分表位置,默认为0 header 接收int或sequence,表示将某行数据作为列名,默认为infer,表示自 动识别 names 接收int、sequence或者False,表示索引列的位置,取值为sequence 则代表多重索引,默认为None index_col 接收int、sequence或者False,表示索引列的位置,取值为sequence 则代表多重索引,默认为None dtype 接收dict,代表写入的数据类型(列名为key,数据格式为values), 默认为None 5.1 数据载入