【pandas教程】从excel中读取数据pd.read_excel()的用法

2020/05 16 16:05
阅读(14489)

pandas提供了read_excel函数来支持读取excel表里的数据，可以读取”xls”的excel文件，也可以读取”xlsx”类型的文件。read_excel函数功能强大，参数众多，我们并不定要掌握其全部的参数用法，但常用的参数还是需要了解，这样在操作EXCEL的时候才能做到游刃有余。下面就介绍read_excel()函数的用法及其参数说明。

先来看官方给出的read_excel()函数的表达式：

 
pandas.read_excel(
io,  #string类型文件的路径或url.
sheet_name=0,  #指定的excel中的具体某个或某些表的表名或表索引.
header=0,  #以哪些行作为表头，也叫做列名.
names=None, #自己定义一个表头(列名).
index_col=None,  #将哪些列设为索引.
usecols=None,  #指定读取excel中哪些列的数据,默认为None，表示读取全部.
squeeze=False,  #默认为False,如果解析的数据只包含一列，则返回一个Series。
dtype=None,  #接收dict,设置数据类型，具体到每列.
engine=None,  #如果io不是缓冲区或路径，则必须将其设置为标识io。可接受的值是None、“xlrd”、“openpyxl”或“odf”.
converters=None,  #类型为字典(dict).默认为None.进行值转换。{列名:str}
true_values=None,  #默认:None,接收一个list，将在list中的值转换成True，只有在整列值都能转换成bool值时才能成功。
false_values=None,  #默认:None,接收一个list，将在list中的值转换成False，只有在整列值都能转换成bool值时才能成功。
skiprows=None,  #跳过excel中的某些行来读取数据.
nrows=None,  #指定要读取excel表中哪些行的数据.
na_values=None,  #设置指定值填充为NaN.
keep_default_na=True,
verbose=False, #布尔类型, 默认为 False.显示列表中除去数字列，NA值的数量.
parse_dates=False,  #指定解析成日期格式的列.
date_parser=None,  #funtion.指定解析日期格式的函数.
thousands=None, #将字符串列解析为数字的数千个分隔符。
comment=None, #将一个或多个字符传递给此参数以指示输入文件中的注释。
skipfooter=0,  #省略指定行数的数据，从尾部数的行开始。
convert_float=True, #布尔, 默认为 True.将积分浮点数转换为int（即1.0 - &gt; 1）。
mangle_dupe_cols=True,  #布尔类型，默认为True.重复列将被指定为“X”、“X.1”、“X.N”.
**kwds)

为了方便阅读我把read_excel函数的参数整理成一个表：

pandas的read_excel列出的参数有21+之多，我们一下肯定很难记住的每个参数的用法，而且在实际中我们也用不到这么多的参数，所以没有必要一定都要记住，在有需要的时候再进行查找就可以了。下面是最常用的简化read_excel()函数表达式：

 
pandas.read_excel(io,sheet_nane,header=0,index_col=None,names=None,dtype=None)

实际当中我用的最多只有两个参数，一个要读取的excel 的路径，一个是要读取的表名，也就是只用到了io、sheet_name这两个参数。

由o郭二爷o原创或整理--转载请注明: https://www.dszhp.com/pandas-read-excel.html

一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

发表回复 取消回复

发表回复取消回复