今天就跟大家聊聊有关如何引入ItemLoader和项目预处理函数,可能很多人都不太了解,为了让大家更加了解,小编给大家总结了以下内容,希望大家根据这篇文章可以有所收获。
1。引入ItemLoader
- <李>
在项目的item.py文件中创建一个自定义的加载程序类,然后让这个自定义类继承ItemLoader类;
李>class XkdItemLoader (ItemLoader): ,,,default_output_processor =, TakeFirst ()
- <李>
ItemLoader类的语法:<代码> scrapy.loader。ItemLoader([项,选择器、响应]* * kwargs)> 代码,它可以接收一个项目实例来指定要加载的项,然后指定r来确定要解析的内容esponse或者选择器;ItemLoader实例还提供很多方法,如提供add_css()方法和add_xpath()方法来通过css和xpath解析赋值,或使用add_value()方法来单独进行赋值等。
李> <李>更多其他的用法大家可以查看: 李https://doc.scrapy.org/en/latest/topics/loaders.html
><李>
首先重写蜘蛛中的parse_analyse方法,导入自定义的加载程序类,然后需要实例化这个加载器类,将参数项和响应传递到加载器类中,然后可以使用add_css (), add_xpath (), add_value()方法来提取和收集数据保存到装载机类实例化对象中,最后当所有数据被收集起来之后,调用<代码> ItemLoader.load_item() 代码>方法对结果进行解析并保存到一个项目中,然后返回这个项目;
李>def parse_analyse(自我,,反应): ,,,,,,,#,构建加载程序 ,,,,,,,xkd_itemload =, MyItemLoader(项=XkdDribbbleSpiderItem(),响应=响应) ,,,,,,,image_url =, response.meta.get (& # 39; a_image_url& # 39;) ,,,,,,,#,通过装载机定位元素和解析元素 ,,,,,,,xkd_itemload.add_css(& # 39;标题# 39;,,“[角色=& # 39;文章# 39;],header h2") ,,,,,,,#,注意这里传递的是一个列的表 ,,,,,,,xkd_itemload.add_value (& # 39; image_url& # 39;,, [image_url]) ,,,,,,,xkd_itemload.add_value (& # 39; url # 39;,, response.url) ,,,,,,,xkd_itemload.add_value (& # 39; url_id& # 39;,, get_md5 (response.url)) ,,,,,,,xkd_itemload.add_css(& # 39;日期# 39;,,& # 39;p span.date::文本# 39;) ,,,,,,,#,解析元素之后返回项目 ,,,,,,,xkd_item =, xkd_itemload.load_item () ,,,,,,,#,将物品返回 ,,,,,,,油品收率xkd_item
<李>
修改项数据模型,需要导入从scrapy.loader <代码>。处理器进口MapCompose> 代码,可以在scrapy.Field中加入处理函数.MapCompose是一种处理器,由给定功能的组合构成,类似于组成处理器,与此处理器的不同之处在于内部结果在函数之间传递的方式;
李> <李>Scrapy还给我们提供了一个<代码> scrapy.loader.processors.TakeFirst() 代码>方法,用于返回第一个非空值(相当于extract_first()方法),常用于单值字段的输出处器,无参数;
李> <>之前得到scrapy.loader.processors import TakeFirst, MapCompose 得到datetime import  datetime def str_to_date (str_date): ,,,str_date =, str_date.strip () ,,,date =, datetime.strptime (str_date, & # 39; % b % d,, % y # 39;) .date () ,,,return date.strftime (& # 39; Y - % - % d % # 39;) class XkdDribbbleSpiderItem (scrapy.Item): ,,,title =, scrapy.Field () ,,,image_url =, scrapy.Field ( ,,,,,,,output_processor =, MapCompose(时间价值:lambda 价值) ,,,) ,,,date =, scrapy.Field ( ,,,,,,,input_processor =, MapCompose (str_to_date) ,,,) ,,,image_path =, scrapy.Field () ,,,url =, scrapy.Field () ,,,url_id =, scrapy.Field ()看完上述内容,你们对如何引入ItemLoader和项目预处理函数有进一步的了解吗?如果还想了解更多知识或者相关内容,请关注行业资讯频道,感谢大家的支持。