介绍
这篇文章主要介绍如何用python爬取租房网站信息,文中介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们一定要看完!
python的优点有哪些
1,简单易用,与C/c++、Java、c#等传统语言相比,python对代码格式的要求没有那么严格;2,python属于开源的,所有人都可以看到源代码,并且可以被移植在许多平台上使用;3,python面向对象,能够支持面向过程编程,也支持面向对象编程;4,python是一种解释性语言,python写的程序不需要编译成二进制代码,可以直接从源代码运行程序;5,python功能强大,拥有的模块众多,基本能够实现所有的常见功能。
爬取租房信息的代码:
链家的房租网站 两个导入的包 1. requests 用来过去网页内容, 2. beautifulsoup import 时间 import pymssql import 请求 得到bs4 import  BeautifulSoup #,https://wh.lianjia.com/zufang/#获取url中下面的内容 def get_page (url): 时间=responce 才能;requests.get (url) 时间=soup 才能;BeautifulSoup (responce.text & # 39; lxml # 39;) return 才能;汤 #封装成函数,作用是获取列表下的所有租房页面的链接,返回一个链接列表 def get_links (url): 时间=responce 才能;requests.get (url) 时间=soup 才能;BeautifulSoup (responce.text & # 39; lxml # 39;) link_div 才能=,soup.find_all (& # 39; div # 39;, class_ =, & # 39; pic-panel& # 39;) links 才能=,[div.a.get (& # 39; href # 39;), for div 拷贝link_div] return 才能链接 #收集一个房子的信息 def get_house_info (house_url): 时间=soup 才能;get_page (house_url) price 才能=,soup.find(& # 39;跨度# 39;,class_=& # 39;总# 39;)。text unit 才能=,soup.find(& # 39;跨度# 39;,class_=, & # 39;单位# 39;)。text (1): 1) area 才能=,soup.find (& # 39; p # 39;,, class_ =, & # 39;低频# 39;)。text house_info才能=,soup.find_all (& # 39; p # 39;, class_ =, & # 39;低频# 39;) 时间=area 才能;house_info [0]。text(3:), #字符串切片工具 layout 才能=,house_info [1]。text (5:) 信息才能={ ,,,& # 39;价格& # 39;:价格, ,,,& # 39;单位& # 39;:单位, ,,,& # 39;面积& # 39;:区域, ,,,& # 39;户型& # 39;:布局 ,,,} return 才能;信息 #链接数据库 服务器=?92.168.xx.xx",, #换成自己的服务器信息 用户=發iujiepeng" 密码=皒xxxx",,,, #自己的数据库用户名和密码 康涅狄格州=pymssql.connect(服务器、用户密码、数据库=癶ouse") 房子def 插入(康涅狄格州): # sql_values 才能=,values.format(房子[& # 39;价格& # 39;],房子(& # 39;单位& # 39;],房子(& # 39;面积& # 39;], ,,,,,,,,,,,,,,,#房子[& # 39;户型& # 39;]) sql =,才能“insert into (房子).dbo.lianjia(价格、单位面积、布局)值(& # 39;% & # 39;& # 39;% & # 39;,& # 39;% & # 39;,& # 39;% & # 39;)“%(房子(“价格“),房子(“单位“),房子(“面积“),房子(“户型“)) 打印(sql)才能 时间=cursor 才能;conn.cursor(), #游标,开拓新的窗口 # cursor1 才能=,conn.cursor () cursor.execute才能(sql), #执行sql语句 conn.commit才能(),#提交,,更新sql 语句 时间=links get_links (& # 39; https://wh.lianjia.com/zufang/& # 39;) count =1 for link 拷贝链接: #才能time . sleep (2) 打印才能(& # 39;获取一个数据成功& # 39;) 时间=house 才能;get_house_info(链接) 插入才能(康涅狄格州的房子) 打印才能(“第% s个数据,存入数据库成功!“%(计数) 时间=count 才能;数+ 1 #才能打印(房子[“价格“),结束=& # 39;\ " # 39;)
以上是“如何用python爬取租房网站信息”这篇文章的所有内容,感谢各位的阅读!希望分享的内容对大家有帮助,更多相关知识,欢迎关注行业资讯频道!