python爬虫urllib库中解析模块urlparse的使用方法

  介绍

这篇文章主要介绍了python爬虫urllib库中解析模块urlparse的使用方法,具有一定借鉴价值,感兴趣的朋友可以参考下,希望大家阅读完这篇文章之后大有收获、下面让小编带着大家一起了解一下。

在python爬虫urllib库中,urllib。是url解析解析模块,提供了很多解析和组建url的方法,其中urlunparse()方法通过长度为6的可迭代对象,组建url。

<强>一、urlparse()方法

可以将url解析成ParseResult对象,实现url的识别和分段。

标准链接格式为:方案://netloc/路径;params ?查询#片段

<强>二,urlparse将url拆分为六个部分

 urlparse (url,,计划=& # 39;& # 39;,,allow_fragments=True) 

<强>三、参数说明

urlstring:必填,待解析的url;

方案:默认的协议,如http、https。链接没有协议信息时生效;

allow_fragments:是否忽略片段,如果设置假,片段部分会被忽略,解析为路径,参数个数或者查询的一部分,而片段部分为空。当url不包含参数和查询时候,碎片会被解析为路径一部分;

<强>四、拆分六个部分为:

1,协议(计划)

2,域名(netloc)

3路径(路径)

4路径参数(params)

5,查询参数(查询)

6片段(片段)

<强>五、使用实例

<>之前得到urllib.parse  import  urlparse   #,该方法可以实现URL的识别和分段   时间=result  urlparse (& # 39; http://www.baidu.com/index.html,用户? id=5 #评论# 39;)   #,这里我们利用urlparse()方法进行了一个URL的解析。首先,输出了解析结果的类型,然后将结果也输出出来。   print(类型(结果),结果)

<强>输出

 E: \ \ venv \通过预定义脚本\ python.exe  E://3 _1_3.py通过预定义的
  & lt; class  & # 39; urllib.parse.ParseResult& # 39;祝辞,ParseResult(计划=& # 39;http # 39;,, netloc=& # 39; www.baidu.com& # 39;,,路径=& # 39;/index . html # 39;,, params=& # 39;用户# 39;,,查询=& # 39;id=5 & # 39;,,片段=& # 39;评论# 39;)

感谢你能够认真阅读完这篇文章,希望小编分享的“python爬虫urllib库中解析模块urlparse的使用方法”这篇文章对大家有帮助,同时也希望大家多多支持,关注行业资讯频道,更多相关知识等着你来学习!

python爬虫urllib库中解析模块urlparse的使用方法