“码头工人实战篇“python的码头工人,抖音视频抓取(上)(24)

  
  

上节主要说了通过多模拟器的并行进行数据的抓取,在没有码头工人环境的情况下,本次主要针对抖音的视频数据进行抓取,无论你是个人喜好,还是项目需求,大家对抖音的视频数据都很感兴趣,比如喜欢那个漂亮的×××姐都想把他的视频保存下来,方便日后的观看,慢慢的膝上。上次说的appium完成抖音粉丝数据的抓取其实也可以完成抖音视频数据的抓取,抓取的思路也是想通,通过mitmdump进行数据解析,appium模拟滑动。如果一台设备抓取比较慢,可以用多台模拟器来进行抓取。这次主要用的另一种方式来进行抓取。

     

  
(一)分析分享页面
  
  

谷歌浏览器打开:https://www.douyin.com/share/user/89923219116

     
      <李> 1.1刷新页面   
      

    按照图例步骤查看返回的数据
    url地址:https://www.douyin.com/aweme/v1/aweme/post/?user_id=89923219116&count=21&max_cursor=0&aid=1128&_signature=HTvXTBAUQVTTUFGelHo.NB0711&dytk=2be712bf2e309b4b7947b459667ea3a1

      李   
  

  
      <李> 1.2 json.cn中查看返回的数据格式   
      

    1.2.1返回了10条

      李   
  

  
  

1.2.2发现解析发现

     

  
  

1.2.3打开https://aweme.snssdk.com/aweme/v1/playwm/?video_id=v0200f0e0000bhlo7ff2gdds3j6apkfg&行=0

     

  
  

1.2.4也就是通过https://www.douyin.com/aweme/v1/aweme/post/?user_id=89923219116&count=21&max_cursor=0&aid=1128&_signature=HTvXTBAUQVTTUFGelHo.NB0711&dytk=2be712bf2e309b4b7947b459667ea3a1可以获取视频的地址

  

1.2.5解析里面的参数

  
 <代码类=" language-html "> https://www.douyin.com/aweme/v1/aweme/post/?
  user_id=89923219116,
  数=21,
  max_cursor=0,
  援助=1128,
  _signature=4 vfomhayvqksmu7ghnkasulxac&
  dytk=2 be712bf2e309b4b7947b459667ea3a1  
  

里相对于1.2.6面一共6个参数

  
 <代码类=" language-html "> user_id
  数
  max_cursor
  援助
  _signature
  dytk  
  

1.2.7下编写一步就是找到这6个参数的缘由从哪里获取到的。
肯定有老铁问,既然地址就知道了,直接用地址获取不完的了,那么麻烦干啥?我来截图解密,因为url地址是有时效性的

     

  

  
  

1.2.7.1 user_id是url中的最后一个字段,可以直接获取

     

  
  

1.2.7.2计数直接写死21

     

  
  

1.2.7.3 max_cursor直接写死0,获取写时间戳

     

“码头工人实战篇“python的码头工人,抖音视频抓取(上)(24)