“码头工人实战篇“python的码头工人,抖音web端数据抓取(19)

  
  
  

原创文章,欢迎转载。转载请注明:转载自它人故事会,谢谢!
原文链接地址:“码头工人实战篇“python的码头工人,抖音web端数据抓取(19)

     

抖音抓取实战,为什么没有抓取数据?例如:有个互联网的电商生鲜公司,这个公司老板想在一些流量上投放广告,通过增加公司产品曝光率的方式,进行营销,在投放的选择上他发现了抖音,抖音拥有很大的数据流量,尝试的想在抖音上投放广告,看看是否利润和效果有收益。他们分析抖音的数据,分析抖音的用户画的像,判断用户的群体和公司的匹配度,需要抖音的粉丝数,点赞数,关注数,昵称。通过用户喜好将公司的产品融入到视频中,更好的推广公司的产品。一些公关公司通过这些数据可以找到网红黑马,进行营销包装。源码:https://github.com/limingios/dockerpython.git (douyin)

     

  
抖音分享页面
  
      <李>介绍   
      

    https://www.douyin.com/share/user/用户ID,用户ID通过源码中的txt中获取,然后通过链接的方式就可以打开对应的web端页面。然后通过web端页面。爬取基本的信息。

      李   
  

  
      <李>安装谷歌xpath辅助工具   
      

    源码中获取crx

      李   
  

  
  

谷歌浏览器输入:chrome://extensions/

     

  
  

直接将xpath-helper。crx拖入界面chrome://extensions/

  

安装成功后

     

  
  

快捷键ctrl + shift + x启动xpath,一般都是谷歌的f12开发者工具配合使用。

     

  
开始python爬取抖音分享的网站数据
  
  

分析分享页面https://www.douyin.com/share/user/76055758243

     

1。抖音做了反派机制,抖音ID中的数字变成了字符串,进行替换。

  
 <代码类="语言python ">{“名称”:[',# xe603;”、“和# xe60d;”、“和# xe616;”,“价值”:0},
  {“名称”:[',# xe602;”、“和# xe60e;”、“和# xe618;”,“价值”:1},
  {“名称”:[',# xe605;”、“和# xe610;”、“和# xe617;”,“价值”:2},
  {“名称”:[',# xe604;”、“和# xe611;”、“和# xe61a;”,“价值”:3},
  {“名称”:[',# xe606;”、“和# xe60c;”、“和# xe619;”,“价值”:4},
  {“名称”:[',# xe607;”、“和# xe60f;”、“和# xe61b;”,“价值”:5},
  {“名称”:[',# xe608;”、“和# xe612;”、“和# xe61f;”,“价值”:6},
  {“名称”:[',# xe60a;”、“和# xe613;”、“和# xe61c;”,“价值”:7},
  {“名称”:[',# xe60b;”、“和# xe614;”、“和# xe61d;”,“价值”:8},
  {“名称”:[',# xe609;”、“和# xe615;”、“和# xe61e;”,“价值”:9}, 
  

  

2。获取需要的节点的的xpath

  
 <代码类="语言python "> #昵称//div [@class='个人卡']/div [@class=' info1 ']//p [@class='昵称']/text ()
  
  #抖音ID//div [@class='个人卡']/div [@class=' info1 ']//p [@class='昵称']/text ()
  
  #工作//div [@class='个人卡']/div [@class=' info2 ']/div [@class=' verify-info ']/跨度[@class='信息']/text ()
  
  #描述//div [@class='个人卡']/div [@class=' info2 ']/p [@class='签名']/text ()
  
  #地址//div [@class='个人卡']/div [@class=' info2 ']/p [@class=' extra-info ']/跨度[1]/text ()
  
  #星座//div [@class='个人卡']/div [@class=' info2 ']/p [@class=' extra-info ']/跨度[2]/text ()
  
  #关注数//div [@class='个人卡']/div [@class=' info2 ']/p [@class=' follow-info ']//跨度[@class='专注块']//我[@class=蓖急阨confont follow-num ']/text ()
  
  #粉丝数//div [@class='个人卡']/div [@class=' info2 ']/p [@class=' follow-info ']//跨度[@class='追随者块']//我[@class=蓖急阨confont follow-num ']/text ()
  
  #赞数//div [@class='个人卡']/div [@class=' info2 ']/p [@class=' follow-info ']//跨度[@class='追随者块']/跨度[@class=' num ']/text ()
  

“码头工人实战篇“python的码头工人,抖音web端数据抓取(19)