原创文章,欢迎转载。转载请注明:转载自它人故事会,谢谢!
引用>
原文链接地址:“码头工人实战篇“python的码头工人,抖音web端数据抓取(19)抖音抓取实战,为什么没有抓取数据?例如:有个互联网的电商生鲜公司,这个公司老板想在一些流量上投放广告,通过增加公司产品曝光率的方式,进行营销,在投放的选择上他发现了抖音,抖音拥有很大的数据流量,尝试的想在抖音上投放广告,看看是否利润和效果有收益。他们分析抖音的数据,分析抖音的用户画的像,判断用户的群体和公司的匹配度,需要抖音的粉丝数,点赞数,关注数,昵称。通过用户喜好将公司的产品融入到视频中,更好的推广公司的产品。一些公关公司通过这些数据可以找到网红黑马,进行营销包装。源码:https://github.com/limingios/dockerpython.git (douyin)
引用>
抖音分享页面
<李>介绍
https://www.douyin.com/share/user/用户ID,用户ID通过源码中的txt中获取,然后通过链接的方式就可以打开对应的web端页面。然后通过web端页面。爬取基本的信息。
李引用> >
<李>安装谷歌xpath辅助工具
源码中获取crx
李引用> >
谷歌浏览器输入:chrome://extensions/
引用>
直接将xpath-helper。crx拖入界面chrome://extensions/
安装成功后
引用>
快捷键ctrl + shift + x启动xpath,一般都是谷歌的f12开发者工具配合使用。
引用>
开始python爬取抖音分享的网站数据
分析分享页面https://www.douyin.com/share/user/76055758243
引用>1。抖音做了反派机制,抖音ID中的数字变成了字符串,进行替换。
<代码类="语言python ">{“名称”:[',# xe603;”、“和# xe60d;”、“和# xe616;”,“价值”:0}, {“名称”:[',# xe602;”、“和# xe60e;”、“和# xe618;”,“价值”:1}, {“名称”:[',# xe605;”、“和# xe610;”、“和# xe617;”,“价值”:2}, {“名称”:[',# xe604;”、“和# xe611;”、“和# xe61a;”,“价值”:3}, {“名称”:[',# xe606;”、“和# xe60c;”、“和# xe619;”,“价值”:4}, {“名称”:[',# xe607;”、“和# xe60f;”、“和# xe61b;”,“价值”:5}, {“名称”:[',# xe608;”、“和# xe612;”、“和# xe61f;”,“价值”:6}, {“名称”:[',# xe60a;”、“和# xe613;”、“和# xe61c;”,“价值”:7}, {“名称”:[',# xe60b;”、“和# xe614;”、“和# xe61d;”,“价值”:8}, {“名称”:[',# xe609;”、“和# xe615;”、“和# xe61e;”,“价值”:9},代码>
2。获取需要的节点的的xpath
<代码类="语言python "> #昵称//div [@class='个人卡']/div [@class=' info1 ']//p [@class='昵称']/text () #抖音ID//div [@class='个人卡']/div [@class=' info1 ']//p [@class='昵称']/text () #工作//div [@class='个人卡']/div [@class=' info2 ']/div [@class=' verify-info ']/跨度[@class='信息']/text () #描述//div [@class='个人卡']/div [@class=' info2 ']/p [@class='签名']/text () #地址//div [@class='个人卡']/div [@class=' info2 ']/p [@class=' extra-info ']/跨度[1]/text () #星座//div [@class='个人卡']/div [@class=' info2 ']/p [@class=' extra-info ']/跨度[2]/text () #关注数//div [@class='个人卡']/div [@class=' info2 ']/p [@class=' follow-info ']//跨度[@class='专注块']//我[@class=蓖急阨confont follow-num ']/text () #粉丝数//div [@class='个人卡']/div [@class=' info2 ']/p [@class=' follow-info ']//跨度[@class='追随者块']//我[@class=蓖急阨confont follow-num ']/text () #赞数//div [@class='个人卡']/div [@class=' info2 ']/p [@class=' follow-info ']//跨度[@class='追随者块']/跨度[@class=' num ']/text ()“码头工人实战篇“python的码头工人,抖音web端数据抓取(19)