pandas.read_csv参数详解(小结) - 行业资讯 - 肥雀云

pandas.read_csv参数整理

,读取CSV(逗号分割)文件到DataFrame

也支持文件的部分导入和选择迭代

更多帮助参见:http://pandas.pydata.org/pandas-docs/stable/io.html

参数: 　　

<强> filepath_or_buffer: str, pathlib.str pathlib。路径,py._path.local。LocalPath或任何对象阅读()方法(如文件句柄或StringIO)

可以是URL,可用URL类型包括:http、ftp、s3和文件。对于多文件正在准备中

本地文件读取实例:://localhost/道路//table.csv

　　9月

<强>: str,违约”、“

指定分隔符。如果不指定参数,则会尝试使用逗号分隔。分隔符长于一个字符并且不是“\ s +”,将使用python的语法分析器。并且忽略数据中的逗号。正则表达式例子:“\ r \ t”

<强>分隔符: str,默认没有

定界符,备选分隔符(如果指定该参数,则9月参数失效)

<强> delim_whitespace: 布尔,默认错误。

指定空格(例如“或者' ')是否作为分隔符使用,等效于设定9月=\ s +。如果这个参数设定为真正的那么分隔符参数失效。

在新版本0.18.1支持

<强>标题: int或整数列表,默认“推断”

指定行数用来作为列名,数据开始行数。如果文件中没有列名,则默认为0,否则设置为零。如果明确设定标题=0就会替换掉原来存在列名.header参数可以是一个单例如:(0,1,3),这个名单表示将文件中的这些行作为列标题(意味着每一列有多个标题),介于中间的行将被忽略掉(例如本例中2的,本例中的数据1,2,4行将被作为多级标题出现,第3行数据将被丢弃,dataframe的数据从第5行开始)。

注意:如果skip_blank_lines=True那么头参数忽略注释行和空行,所以头=0表示第一行数据而不是文件的第一行。

<>强名称:数组类,默认没有

用于结果的列名列表,如果数据文件中没有列标题行,就需要执行标题=None。默认列表中不能出现重复,除非设定参数mangle_dupe_cols=True。

<强> index_col: int或序列或假,默认没有

用作行索引的列编号或者列名,如果给定一个序列则有多个行索引。

如果文件不规则,行尾有分隔符,则可以设定index_col=False来是的熊猫不适用第一列作为行索引。

<强> usecols: 数组类,默认没有

返回一个数据子集,该列表中的值必须可以对应到文件中的位置(数字可以对应到指定的列)或者是字符传为文件中的列名,例如:usecols有效参数可能是(0,1,2)或者是(“foo”、“酒吧”,“记者”]。使用这个参数可以加快加载速度并降低内存消耗。

<强> as_recarray: 布尔,默认错误

不赞成使用:该参数会在未来版本移除。请使用pd.read_csv (…) .to_records()替代。

返回一个Numpy的recarray来替代DataFrame。如果该参数设定为真实的。将会优先挤压参数使用。并且行索引将不再可用,索引列也将被忽略。

<强>挤压:布尔,默认错误

如果文件值包含一列,则返回一个系列

<强>前缀: str,默认没有

在没有列标题时,给列添加前缀,例如:添加“X”成为X0, X1,…

<强> mangle_dupe_cols: 布尔,默认真的

重复的列,将“X”…“X”表示为“X.0”…“X.N”。如果设定为假则会将所有重名列覆盖。

<强> dtype: 强列的类型名称或dict→类型,默认没有

每列数据的数据类型,例如{a: np。float64 b: np.int32}

<强>引擎: {“c”,“python”},可选

解析器引擎使用。C引擎更快而python引擎目前功能更完善。

使用的分析引擎。可以选择C或者是python.C引擎快但是Python引擎功能更加完备。

<强>转换器: dict类型,默认没有

列转换函数的字典。key可以是列名或者列的序号。

<强> true_values: 列表,默认没有

需要考虑的价值真正的

<强> false_values: 列表,默认没有

值考虑假

<强> skipinitialspace: 布尔,默认错误

忽略分隔符后的空白(默认为假,即不忽略)。

<强> skiprows: 类似或整数,默认没有

需要忽略的行数(从文件开始处算起),或需要跳过的行号列表(从0开始)。

<强> skipfooter: int,默认0

从文件尾部开始忽略。(c引擎不支持)