介绍
本篇文章给大家分享的是有关使用Python怎么实现自动提取并收集信息,小编觉得挺实用的,因此分享给大家学习,希望大家阅读完这篇文章后可以有所收获,话不多说,跟着小编一起来看看吧。
1。导入需要的库,包括百度的api接口跟cv2图像截图图库
import cv2 得到aip import  AipOcr #,读取图片,利用imshow显示图片 时间=pic cv2.imread (" # 39; Y: \削减\ img1.png& # 39;) 时间=pic cv2.resize(图片,没有fx =, 0.5, fy =, 0.5) cv2.imshow (& # 39; img # 39;,图片) cv2.waitKey (0)
2。截取图片,获取需要的信息,包括以下信息
- <李>
时间时间
李> <李>商家业务
李> <李>商品货物
李> <李>价格钱
李> <李>单号num
李>#,删除不必要的部分 (210:500 img =,图片,,100:580] #,截取各部分的文字 (400:430 time =,图片,,100:580] (370:400 business =,图片,,100:580] (350:380 goods =,图片,,100:580] (210:300 money =,图片,,100:580] (460:500 num =,图片,,100:580] #,查看截取的部分是否合适 gener_name =,(& # 39;时间# 39;& # 39;业务# 39;,& # 39;商品# 39;,& # 39;钱# 39;,& # 39;num # 39;】 excel_data =, {} pd_columns =, (“a",“b",“c",“d",“e"], #,标题
3。定义函数将截取好的图片另存到文件夹
def shotcut_image (args): ,,,for index 拷贝件: ,,,,,,,cv2.imwrite(& # 39;图像/{}. png # 39; .format (args), img)
4。调用百度api接口,实现文字识别
#,导入api 时间=AppID & # 39; 24177719 & # 39; 时间=API_Key & # 39; p8skmRYfHGoVGR4UU03Q5jiM& # 39; 时间=Secret_Key & # 39; dyM0tzSILBZu9CFqZ7IkjWwECGaws4xo& # 39; 时间=cilent AipOcr (AppID API_Key, Secret_Key) def get_words (img_name): ,,,with 开放(& # 39;图像/{}. png # 39; .format (img_name), & # 39; rb # 39;), as f: ,,,,,,,result =, cilent.basicAccurate (f.read ()) ,,,,,,,return 结果
5。最后将信息转为Dataframe,利用熊猫的to_exccel功能,将数据放到excel里面
def convert_to_dataframe(词): ,,,#,构建dataframe ,,,result ,=,话说[& # 39;words_result& # 39;】 ,,,for word 结果:拷贝 ,,,,,,,excel_data.setdefault(& # 39;一个# 39;,,[]).append(词[& # 39;词# 39;]) #,将所读有字取后,取出语句存入excel def convert_to_excel (): ,,,frame =, DataFrame (excel_data,列=pd_columns) ,,,#,todo 表头需要额外处理,这里指定不设置表头 ,,,frame.to_excel (& # 39; out.xls& # 39;,指数=False,头=False)
Python主要用来做什么
Python主要应用于:1,网络开发;2、数据科学研究;3,网络爬虫;4、嵌入式应用开发,5日游戏开发;6桌面应用开发。
以上就是使用Python怎么实现自动提取并收集信息,小编相信有部分知识点可能是我们日常工作会见到或用到的。希望你能通过这篇文章学到更多知识。更多详情敬请关注行业资讯频道。