python实现从PDF中提取数据?很多新手对此不是很清楚,为了帮助大家解决这个难题,下面小编将为大家详细讲解,有这方面需求的人可以来学习下,希望你能有所收获。
使用python从PDF文件中提取一个表格
<强>)将表复制到Excel并保存为table_1_raw。csv 强>
数据以一维格式存储,必须进行重塑,清理和转换。
<强> b)导入必要的库强>
熊猫作为pd导入 进口numpy np
<强> c)导入原始数据,重新定义数据强>
df=pd.read_csv (“table_1_raw.csv"头=没有) df.values.shape 10)df2=pd.DataFrame (df.values.reshape(25日) column_names=df2 (0:1) . values [0] df3=df2 [1:] df3。列=df2 (0:1) . values [0] df3.head ()
<强> d)使用字符串处理工具进行数据纠缠强>
我们从上面的表格中注意到,x5, x6和x7列是用百分比表示的,所以我们需要去掉百分比(%)符号:
df4 [& # 39; x5 # 39;]=列表(map(λx: x (: 1) df4 [& # 39; x5 # 39;] . values)) df4 [& # 39; x6 # 39;]=列表(map(λx: x (: 1) df4 [& # 39; x6 # 39;] . values)) df4 [& # 39; x7 # 39;]=列表(map(λx: x (: 1) df4 [& # 39; x7 # 39;] . values))
<强> e)将数据转换为数字形式强>
我们注意到列x5, x6和x7的列值数据类型为字符串,因此我们需要将它们转换为数值数据,如下所示:
df4 [& # 39; x5 # 39;]=[x (x)的浮动df4 [& # 39; x5 # 39;] . values) df4 [& # 39; x6 # 39;]=[x (x)的浮动df4 [& # 39; x6 # 39;] . values) df4 [& # 39; x7 # 39;]=[x (x)的浮动df4 [& # 39; x7 # 39;] . values)
<强> f)查看转换数据的最终形式强>
df4.head (n=5)
<强> g)导出最终数据到一个csv文件强>
df4.to_csv (& # 39; table_1_final.csv& # 39;,指数=False)
看完上述内容是否对您有帮助呢?如果还想对相关知识有进一步的了解或阅读更多相关文章,请关注行业资讯频道,感谢您对的支持。