基于Python爬取爱奇艺资源过程解析

  

像iqiyi这种视频网站,现在下载视频都需要下载相应的客户端。那么如何不用下载客户端,直接下载非贵宾视频?

  

选择你想要爬取的内容

  

该安装的程序以及运行环境都配置好

  

下面这段代码就是我在爱奇艺里搜素“英文名”,然后出来的视频,共20页有,那么我们便从第一页开始,解析网页,然后分析

  

分析每一页网址,找出规律就可以直接得到所有页面

  

然后根据每一个视频的URL的标签,如“类”的div“href”……通过bs4库进行爬取

  

而其他的信息则是直接循环所爬取到的URL,在每一个里再通过标签去找

        进口的要求   熊猫作为pd导入   从bs4进口BeautifulSoup      #爬取URL   头={“用户代理”:“Mozilla/5.0 (Windows NT 10.0;Win64;x64) AppleWebKit/537.36 (KHTML,像壁虎)Chrome/79.0.3945.79 Safari/537.36 '}   b=[]   我的范围(1、2):   url=" https://so.iqiyi.com/so/q_英文名_ctg_t_0_page_”+ str (i) +“_p_1_qc_0_rd__site__m_1_bitrate_”#共20页,根据每页的网址变换规律进行拼接   r=requests.get (url,头=标题)   汤=BeautifulSoup (r.text“html.parser”)=soup.findAll (a{“类”:“main-tit”})   因为我在一个:   如果在i.get“http://www”。(“href”)和“i.get html除(“href”):   b.append (i.get (“href”))   打印(b)         #爬取标题   e=[]   对k b:   res=requests.get (k,头=标题)   汤=BeautifulSoup (res.text html.parser)   c=Soup.findAll (" div "{“类”:“feed-title-box”})   在c: d   e.append (d.find (h2)。text)   打印(e)      #爬取标题下方描述   f=[]   b: j的   res=requests.get (j,头=标题)   汤=BeautifulSoup (res.text html.parser)   c=Soup.findAll (" div "{“类”:“qy-play-intro-feed”})   在c: d   f.append (d.find (“p”,{“类”:“intro-iterm__block”})。text)   打印(f)         #爬取发布时间   h=[]   b: j的   res=requests.get (j,头=标题)   汤=BeautifulSoup (res.text html.parser)   c=Soup.findAll (" div "{“类”:“intro-iterm”})   在c: d   ff=(d.find(“跨度”{“类”:“intro-iterm__txt”}))   如果ff==没有:   继续   h.append (ff.text)   打印(h)      #爬取上传作者   m=[]   对k b:   res=requests.get (k,头=标题)   汤=BeautifulSoup (res.text html.parser)   c=Soup.find (" div " {“id”:“block-P”})   d=Soup.find (" div "{“类”:“qy-player-maker”})   试一试:   name=c.get(':上传).split (" ") [1] .split (“:”) [1] .replace(‘”’,”) #输出是字符串的格式,所以用分切割.replace替换   除了:   试一试:   name=d.get(':上传).split (" ") [1] .split (“:”) [1] .replace (‘”’,”)   除了:   m.append(“匿名用户”)   m.append(名字)   打印(m)      

上面的代码输出结果便是英文名的所有网址及其视频中的一些信息

  

这里我需要讲一下的是,为什么在爬取作者信息的模块里我采取了尝试的方法,因为在我爬取的过程中我发现,有的视频的上传作者在视频左下方,有的在视频的右下方,有的视频干脆没有上传作者。

  

同样的,你想要爬取其他内容也可以用这种方法获取URL和他的其他信息

  

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持。

基于Python爬取爱奇艺资源过程解析