上节主要说了通过多模拟器的并行进行数据的抓取,在没有码头工人环境的情况下,本次主要针对抖音的视频数据进行抓取,无论你是个人喜好,还是项目需求,大家对抖音的视频数据都很感兴趣,比如喜欢那个漂亮的×××姐都想把他的视频保存下来,方便日后的观看,慢慢的膝上。上次说的appium完成抖音粉丝数据的抓取其实也可以完成抖音视频数据的抓取,抓取的思路也是想通,通过mitmdump进行数据解析,appium模拟滑动。如果一台设备抓取比较慢,可以用多台模拟器来进行抓取。这次主要用的另一种方式来进行抓取。
引用>
(一)分析分享页面
谷歌浏览器打开:https://www.douyin.com/share/user/89923219116
引用><李> 1.1刷新页面
按照图例步骤查看返回的数据
李引用> >
url地址:https://www.douyin.com/aweme/v1/aweme/post/?user_id=89923219116&count=21&max_cursor=0&aid=1128&_signature=HTvXTBAUQVTTUFGelHo.NB0711&dytk=2be712bf2e309b4b7947b459667ea3a1
<李> 1.2 json.cn中查看返回的数据格式
1.2.1返回了10条
李引用> >
1.2.2发现解析发现
引用>
1.2.3打开https://aweme.snssdk.com/aweme/v1/playwm/?video_id=v0200f0e0000bhlo7ff2gdds3j6apkfg&行=0
引用>
1.2.4也就是通过https://www.douyin.com/aweme/v1/aweme/post/?user_id=89923219116&count=21&max_cursor=0&aid=1128&_signature=HTvXTBAUQVTTUFGelHo.NB0711&dytk=2be712bf2e309b4b7947b459667ea3a1可以获取视频的地址
1.2.5解析里面的参数
<代码类=" language-html "> https://www.douyin.com/aweme/v1/aweme/post/? user_id=89923219116, 数=21, max_cursor=0, 援助=1128, _signature=4 vfomhayvqksmu7ghnkasulxac& dytk=2 be712bf2e309b4b7947b459667ea3a1 代码>里相对于1.2.6面一共6个参数
<代码类=" language-html "> user_id 数 max_cursor 援助 _signature dytk 代码>1.2.7下编写一步就是找到这6个参数的缘由从哪里获取到的。
引用>
肯定有老铁问,既然地址就知道了,直接用地址获取不完的了,那么麻烦干啥?我来截图解密,因为url地址是有时效性的
1.2.7.1 user_id是url中的最后一个字段,可以直接获取
引用>
1.2.7.2计数直接写死21
引用>
1.2.7.3 max_cursor直接写死0,获取写时间戳
引用>
“码头工人实战篇“python的码头工人,抖音视频抓取(上)(24)