python如何爬取豆瓣电影TOP250数据 - 行业资讯 - 肥雀云

　　介绍

这篇文章将为大家详细讲解有关python如何爬取豆瓣电影TOP250数据,小编觉得挺实用的,因此分享给大家做个参考,希望大家阅读完这篇文章后可以有所收获。

在执行程序前,先在MySQL中创建一个数据库“pachong"。

import pymysql 　　import 请求　　import 再保险　　　　　　#获取资源并下载　　def 职责(listURL): 　　,,,#连接数据库　　,,,conn =, pymysql.connect ( 　　,,,,,,,host =, & # 39; 127.0.0.1 # 39; 　　,,,,,,,port =, 3306年, 　　,,,,,,,user =, & # 39;根# 39; 　　,,,,,,,password =, & # 39; * * * * * * & # 39;,,, #数据库密码请根据自身实际密码输入　　,,,,,,,database =, & # 39; pachong& # 39;,, 　　,,,,,,,charset =, & # 39; use utf8 # 39; 　　,,,) 　　　　,,,#创建数据库游标　　,,,cursor =, conn.cursor () 　　　　,,,#创建列表t_movieTOP250(执行sql语句) 　　,,,cursor.execute (& # 39; create table t_movieTOP250 (id INT PRIMARY KEY auto_increment NOT NULL movieName VARCHAR (20), NOT NULL pictrue_address VARCHAR (100)) & # 39; 　　　　,,,试一试: 　　,,,,,,,#,爬取数据　　,,,,,,,for urlPath 拷贝listURL: 　　,,,,,,,,,,,#,获取网页源代码　　,,,,,,,,,,,response =, requests.get (urlPath) 　　,,,,,,,,,,,html =response.text 　　　　,,,,,,,,,,,#,正则表达式　　,,,,,,,,,,,namePat =, " # 39; alt=?. * ?)“, src=https://www.yisu.com/zixun/' 　　imgPat=r 'src=??)”类=' 　　　　#匹配正则(排名【用数据库中id代替,自动生成及排序】,电影名,电影海报(图片地址)) 　　它=re.compile (namePat) 　　res3=re.compile (imgPat) 　　textList2=res2.findall (html) 　　textList3=res3.findall (html) 　　　　#遍历列表中元素,并将数据存入数据库　　因为我在范围(len (textList3)): 　　游标。执行(“插入t_movieTOP250 (movieName pictrue_address)值(“% s”、“% s”)的% (textList2[我],textList3[我])) 　　　　#从游标中获取结果　　cursor.fetchall () 　　　　#提交结果　　conn.commit () 　　打印(“结果已提交”) 　　　　除了例外e: 　　#数据回滚　　conn.rollback () 　　打印(“数据已回滚”) 　　　　#关闭数据库　　conn.close () 　　　　# top250所有网页网址　　def页面(url): 　　urlList=[] 　　因为我在范围(10): 　　num=str(25 *我) 　　pagePat=r’吗?开始=' + num + '过滤器=' 　　urL=urL + pagePat 　　urlList.append (urL) 　　返回urlList 　　　　　　if __name__==癬_main__”: 　　url=r " https://movie.douban.com/top250 " 　　listURL=页面(url) 　　职责(listURL)

结果如下图:

python如何爬取豆瓣电影TOP250数据

python是什么意思

python是一种跨平台的,具有解释性,编译性,互动性和面向对象的脚本语言,其最初的设计是用于编写自动化脚本,随着版本的不断更新和新功能的添加,常用于用于开发独立的项目和大型项目。

关于“python如何爬取豆瓣电影TOP250数据”这篇文章就分享到这里了,希望以上内容可以对大家有一定的帮助,使各位可以学到更多知识,如果觉得文章不错,请把它分享出去让更多的人看的到。