介绍
这篇文章主要介绍了python爬虫urllib库中解析模块urlparse的使用方法,具有一定借鉴价值,感兴趣的朋友可以参考下,希望大家阅读完这篇文章之后大有收获、下面让小编带着大家一起了解一下。
在python爬虫urllib库中,urllib。是url解析解析模块,提供了很多解析和组建url的方法,其中urlunparse()方法通过长度为6的可迭代对象,组建url。
<强>一、urlparse()方法强>
可以将url解析成ParseResult对象,实现url的识别和分段。
标准链接格式为:方案://netloc/路径;params ?查询#片段
<强>二,urlparse将url拆分为六个部分强>
urlparse (url,,计划=& # 39;& # 39;,,allow_fragments=True)
<强>三、参数说明强>
urlstring:必填,待解析的url;
方案:默认的协议,如http、https。链接没有协议信息时生效;
allow_fragments:是否忽略片段,如果设置假,片段部分会被忽略,解析为路径,参数个数或者查询的一部分,而片段部分为空。当url不包含参数和查询时候,碎片会被解析为路径一部分;
<强>四、拆分六个部分为:强>
1,协议(计划)
2,域名(netloc)
3路径(路径)
4路径参数(params)
5,查询参数(查询)
6片段(片段)
<强>五、使用实例强>
<>之前得到urllib.parse import urlparse #,该方法可以实现URL的识别和分段 时间=result urlparse (& # 39; http://www.baidu.com/index.html,用户? id=5 #评论# 39;) #,这里我们利用urlparse()方法进行了一个URL的解析。首先,输出了解析结果的类型,然后将结果也输出出来。 print(类型(结果),结果)<强>输出强>
E: \ \ venv \通过预定义脚本\ python.exe E://3 _1_3.py通过预定义的 & lt; class & # 39; urllib.parse.ParseResult& # 39;祝辞,ParseResult(计划=& # 39;http # 39;,, netloc=& # 39; www.baidu.com& # 39;,,路径=& # 39;/index . html # 39;,, params=& # 39;用户# 39;,,查询=& # 39;id=5 & # 39;,,片段=& # 39;评论# 39;)
感谢你能够认真阅读完这篇文章,希望小编分享的“python爬虫urllib库中解析模块urlparse的使用方法”这篇文章对大家有帮助,同时也希望大家多多支持,关注行业资讯频道,更多相关知识等着你来学习!