怎么使用Python爬取视频弹幕

  介绍

今天就跟大家聊聊有关怎么使用Python爬取视频弹幕,可能很多人都不太了解,为了让大家更加了解,小编给大家总结了以下内容,希望大家根据这篇文章可以有所收获。

前言

之前爱奇艺独播热剧”<强>赘婿 "特别火,笔者也在一直追,借助手中的技术,想爬取弹幕分析该剧的具体情况以及网友的评论!

怎么使用Python爬取视频弹幕”> </p> <p>由于为了让小白<强>彻底学会</强>使用Python爬取爱奇艺弹幕的技术,因此本文详细介绍如何进行爬取,<强>下文再进行分析数据</>强壮! </p> <p> <br/> </p> <h3>分析数据包</h3> <p> <强> 1。查找数据包</强> </p> <p>在浏览器里面按F12 </p> <p> </p> <p>找到这类url https://cmts.iqiyi.com/bullet/54/00/7973227714515400_60_2_5f3b2e24.br </p> <pre> </pre> <p> <强> 2。分析弹幕链接</强> </p> <p>其中的/54/00/7973227714515400才是有用的! ! ! ! </p> <p>爱奇艺的弹幕获取地址如下:</p> <p> https://cmts.iqiyi.com/bullet/参数1 _300_参数2. z </p> <p>参数1是:/54/00/7973227714515400 </p> <p>参数2是:数字1,2,3 ..... </p> <>以前爱奇艺每5分钟会加载新的弹幕,每一集约是46分钟,46除以5向上取整就是10 </pre> <p>因此弹幕的链接如下:</p> <pre> https://cmts.iqiyi.com/bullet/54/00/7973227714515400_300_1.z
  https://cmts.iqiyi.com/bullet/54/00/7973227714515400_300_2.z
  https://cmts.iqiyi.com/bullet/54/00/7973227714515400_300_3.z
  ……
  https://cmts.iqiyi.com/bullet/54/00/7973227714515400_300_10.z </pre> <p> <强> 3。解码二进制数据包</强> </p> <p>通过弹幕链接下载的弹幕包是<强>以z为后缀格式</>强的文件,需要进行解码! </p> <pre> def  zipdecode (bulletold):
  ,,,& # 39;对邮政压缩的二进制内容解码成文本& # 39;
  ,,,decode =, zlib.decompress(中bytearray (bulletold), 15, +, 32) .decode (& # 39; utf - 8 # 39;)
  ,,,return 解码</pre> <p>解码之后将数据保存成xml格式</p> <pre> #,把编码好的文件分别写入个xml文件中(类似于txt文件),方便后边取数据
  with 才能;开放(& # 39;。/lyc zx # 39;, +, str (x), +, & # 39; xml # 39;,, & # 39; a + & # 39;,,编码=& # 39;utf - 8 # 39;), as  f:
  ,,,,,f.write (xml) </pre> <p> <img src=怎么使用Python爬取视频弹幕