从19到24节都说的抖音数据的抓取,从web端用户信息抓取,应用端粉丝数据抓取,视频数据。
引用>
(一)抓取三大块
<李>
1。网络端用户信息抓取
李>
技术困难:
引用>
个人数据界面TTF混淆
解决方案:
引用>
枚举的方式分析出来数字
注意事项:
引用>
通过TTF字体数据对应,如果抖音TTF字体库发生改变,爬虫也需要做对应修改。<李>
2。应用端粉丝数据获取
李>
技术困难:
引用>
appium模拟滑动+ mitmdump解析数据
通过一台设备抓取比较慢,多设备多进程抓取抖音的数据
注意事项:
引用>
1。appium模拟滑动抖音粉丝数据,一个名人一般仅能获取5000条粉丝数据。
2。移动设备设置代理进行抓包后,如遇到无法联网或无法解析https数据时,需要安装Xposed框架+ JustTrustme组件进行屏蔽证书的校验。如果用真实手机建议直接刷个带Xposed框架和开通根权限的系统,为了避免【变砖】。
3。在设置多设备,多进程数据抓取时,需要设置appium服务端的引导端口,以及客户端的udid字段。
<李>
3。网络端视频数据抓取
李>
技术困难:
引用>
破解js获取签名,通过浏览器获取到签名
注意事项:
视频抓取,需要破解签名字段,使用拼接html,解析js技术参考:https://douyin.wlansq.cn/
引用>
2个请求中,getjs里面有个tac,最早的时候一直获取不到数据,后来才知道原来是tac没有获取。
引用>
PS:
1。数据抓取的时,需要加上代理,伪装爬虫
引用>
2。条件允许最好还是使用真实移动设备,最好使用小米,华为的安全性太高了。国产的华为手机安全要求很高,不插入手机卡,usb调试模式都打不开。破解系统还需要收费。
3。小米刷机一般使用【刷机大师】,【刷机精灵】,(【线刷宝】会安装一些流氓软件,但是线刷宝确实好用,忍着吧)
“码头工人实战篇“python的码头工人,抖音视频抓取——总结(下)(26)