介绍
这篇文章将为大家详细讲解有关python如何爬取豆瓣电影TOP250数据,小编觉得挺实用的,因此分享给大家做个参考,希望大家阅读完这篇文章后可以有所收获。
在执行程序前,先在MySQL中创建一个数据库“pachong"。
import pymysql import 请求 import 再保险 #获取资源并下载 def 职责(listURL): ,,,#连接数据库 ,,,conn =, pymysql.connect ( ,,,,,,,host =, & # 39; 127.0.0.1 # 39; ,,,,,,,port =, 3306年, ,,,,,,,user =, & # 39;根# 39; ,,,,,,,password =, & # 39; * * * * * * & # 39;,,, #数据库密码请根据自身实际密码输入 ,,,,,,,database =, & # 39; pachong& # 39;,, ,,,,,,,charset =, & # 39; use utf8 # 39; ,,,) ,,,#创建数据库游标 ,,,cursor =, conn.cursor () ,,,#创建列表t_movieTOP250(执行sql语句) ,,,cursor.execute (& # 39; create  table t_movieTOP250 (id INT  PRIMARY KEY auto_increment NOT NULL  movieName VARCHAR (20), NOT NULL pictrue_address VARCHAR (100)) & # 39; ,,,试一试: ,,,,,,,#,爬取数据 ,,,,,,,for urlPath 拷贝listURL: ,,,,,,,,,,,#,获取网页源代码 ,,,,,,,,,,,response =, requests.get (urlPath) ,,,,,,,,,,,html =response.text ,,,,,,,,,,,#,正则表达式 ,,,,,,,,,,,namePat =, " # 39; alt=?. * ?)“, src=https://www.yisu.com/zixun/' imgPat=r 'src=??)”类=' #匹配正则(排名【用数据库中id代替,自动生成及排序】,电影名,电影海报(图片地址)) 它=re.compile (namePat) res3=re.compile (imgPat) textList2=res2.findall (html) textList3=res3.findall (html) #遍历列表中元素,并将数据存入数据库 因为我在范围(len (textList3)): 游标。执行(“插入t_movieTOP250 (movieName pictrue_address)值(“% s”、“% s”)的% (textList2[我],textList3[我])) #从游标中获取结果 cursor.fetchall () #提交结果 conn.commit () 打印(“结果已提交”) 除了例外e: #数据回滚 conn.rollback () 打印(“数据已回滚”) #关闭数据库 conn.close () # top250所有网页网址 def页面(url): urlList=[] 因为我在范围(10): num=str(25 *我) pagePat=r’吗?开始=' + num + '过滤器=' urL=urL + pagePat urlList.append (urL) 返回urlList if __name__==癬_main__”: url=r " https://movie.douban.com/top250 " listURL=页面(url) 职责(listURL)
结果如下图:
python是什么意思
python是一种跨平台的,具有解释性,编译性,互动性和面向对象的脚本语言,其最初的设计是用于编写自动化脚本,随着版本的不断更新和新功能的添加,常用于用于开发独立的项目和大型项目。
关于“python如何爬取豆瓣电影TOP250数据”这篇文章就分享到这里了,希望以上内容可以对大家有一定的帮助,使各位可以学到更多知识,如果觉得文章不错,请把它分享出去让更多的人看的到。