pandas.read_csv参数整理
,读取CSV(逗号分割)文件到DataFrame
也支持文件的部分导入和选择迭代
更多帮助参见:http://pandas.pydata.org/pandas-docs/stable/io.html
参数:
<强> filepath_or_buffer: 强> str, pathlib.str pathlib。路径,py._path.local。LocalPath或任何对象阅读()方法(如文件句柄或StringIO)
可以是URL,可用URL类型包括:http、ftp、s3和文件。对于多文件正在准备中
本地文件读取实例:://localhost/道路//table.csv
9月<强>:强> str,违约”、“
指定分隔符。如果不指定参数,则会尝试使用逗号分隔。分隔符长于一个字符并且不是“\ s +”,将使用python的语法分析器。并且忽略数据中的逗号。正则表达式例子:“\ r \ t”
<强>分隔符:强> str,默认没有
定界符,备选分隔符(如果指定该参数,则9月参数失效)
<强> delim_whitespace: 强>布尔,默认错误。
指定空格(例如“或者' ')是否作为分隔符使用,等效于设定9月=\ s +。如果这个参数设定为真正的那么分隔符参数失效。
在新版本0.18.1支持
<强>标题:强> int或整数列表,默认“推断”
指定行数用来作为列名,数据开始行数。如果文件中没有列名,则默认为0,否则设置为零。如果明确设定标题=0就会替换掉原来存在列名.header参数可以是一个单例如:(0,1,3),这个名单表示将文件中的这些行作为列标题(意味着每一列有多个标题),介于中间的行将被忽略掉(例如本例中2的,本例中的数据1,2,4行将被作为多级标题出现,第3行数据将被丢弃,dataframe的数据从第5行开始)。
注意:如果skip_blank_lines=True那么头参数忽略注释行和空行,所以头=0表示第一行数据而不是文件的第一行。
<>强名称:强>数组类,默认没有
用于结果的列名列表,如果数据文件中没有列标题行,就需要执行标题=None。默认列表中不能出现重复,除非设定参数mangle_dupe_cols=True。
<强> index_col: 强> int或序列或假,默认没有
用作行索引的列编号或者列名,如果给定一个序列则有多个行索引。
如果文件不规则,行尾有分隔符,则可以设定index_col=False来是的熊猫不适用第一列作为行索引。
<强> usecols: 强>数组类,默认没有
返回一个数据子集,该列表中的值必须可以对应到文件中的位置(数字可以对应到指定的列)或者是字符传为文件中的列名,例如:usecols有效参数可能是(0,1,2)或者是(“foo”、“酒吧”,“记者”]。使用这个参数可以加快加载速度并降低内存消耗。
<强> as_recarray: 强>布尔,默认错误
不赞成使用:该参数会在未来版本移除。请使用pd.read_csv (…) .to_records()替代。
返回一个Numpy的recarray来替代DataFrame。如果该参数设定为真实的。将会优先挤压参数使用。并且行索引将不再可用,索引列也将被忽略。
<强>挤压:强>布尔,默认错误
如果文件值包含一列,则返回一个系列
<强>前缀:强> str,默认没有
在没有列标题时,给列添加前缀,例如:添加“X”成为X0, X1,…
<强> mangle_dupe_cols: 强>布尔,默认真的
重复的列,将“X”…“X”表示为“X.0”…“X.N”。如果设定为假则会将所有重名列覆盖。
<强> dtype: >强列的类型名称或dict→类型,默认没有
每列数据的数据类型,例如{a: np。float64 b: np.int32}
<强>引擎:强> {“c”,“python”},可选
解析器引擎使用。C引擎更快而python引擎目前功能更完善。
使用的分析引擎。可以选择C或者是python.C引擎快但是Python引擎功能更加完备。
<强>转换器:强> dict类型,默认没有
列转换函数的字典。key可以是列名或者列的序号。
<强> true_values: 强>列表,默认没有
需要考虑的价值真正的
<强> false_values: 强>列表,默认没有
值考虑假
<强> skipinitialspace: 强>布尔,默认错误
忽略分隔符后的空白(默认为假,即不忽略)。
<强> skiprows: 强>类似或整数,默认没有
需要忽略的行数(从文件开始处算起),或需要跳过的行号列表(从0开始)。
<强> skipfooter: 强> int,默认0
从文件尾部开始忽略。(c引擎不支持)