python实现从PDF中提取数据 - 行业资讯 - 肥雀云

python实现从PDF中提取数据?很多新手对此不是很清楚,为了帮助大家解决这个难题,下面小编将为大家详细讲解,有这方面需求的人可以来学习下,希望你能有所收获。

使用python从PDF文件中提取一个表格

<强>)将表复制到Excel并保存为table_1_raw。csv

数据以一维格式存储,必须进行重塑,清理和转换。

<强> b)导入必要的库

熊猫作为pd导入
　　进口numpy np

<强> c)导入原始数据,重新定义数据

df=pd.read_csv (“table_1_raw.csv"头=没有) 　　df.values.shape 　　10)df2=pd.DataFrame (df.values.reshape(25日) 　　column_names=df2 (0:1) . values [0] 　　df3=df2 [1:] 　　df3。列=df2 (0:1) . values [0] 　　df3.head ()

python实现从PDF中提取数据

<强> d)使用字符串处理工具进行数据纠缠

我们从上面的表格中注意到,x5, x6和x7列是用百分比表示的,所以我们需要去掉百分比(%)符号:

df4 [& # 39; x5 # 39;]=列表(map(λx: x (: 1) df4 [& # 39; x5 # 39;] . values)) 　　df4 [& # 39; x6 # 39;]=列表(map(λx: x (: 1) df4 [& # 39; x6 # 39;] . values)) 　　df4 [& # 39; x7 # 39;]=列表(map(λx: x (: 1) df4 [& # 39; x7 # 39;] . values))

<强> e)将数据转换为数字形式

我们注意到列x5, x6和x7的列值数据类型为字符串,因此我们需要将它们转换为数值数据,如下所示:

df4 [& # 39; x5 # 39;]=[x (x)的浮动df4 [& # 39; x5 # 39;] . values) 　　df4 [& # 39; x6 # 39;]=[x (x)的浮动df4 [& # 39; x6 # 39;] . values) 　　df4 [& # 39; x7 # 39;]=[x (x)的浮动df4 [& # 39; x7 # 39;] . values)

<强> f)查看转换数据的最终形式

df4.head (n=5)

python实现从PDF中提取数据

<强> g)导出最终数据到一个csv文件

df4.to_csv (& # 39; table_1_final.csv& # 39;,指数=False)

看完上述内容是否对您有帮助呢?如果还想对相关知识有进一步的了解或阅读更多相关文章,请关注行业资讯频道,感谢您对的支持。