如何引入ItemLoader和项目预处理函数

  介绍

今天就跟大家聊聊有关如何引入ItemLoader和项目预处理函数,可能很多人都不太了解,为了让大家更加了解,小编给大家总结了以下内容,希望大家根据这篇文章可以有所收获。

1。引入ItemLoader

<李>

在项目的item.py文件中创建一个自定义的加载程序类,然后让这个自定义类继承ItemLoader类;

 class  XkdItemLoader (ItemLoader):
  ,,,default_output_processor =, TakeFirst () 
<李>

ItemLoader类的语法:<代码> scrapy.loader。ItemLoader([项,选择器、响应]* * kwargs)> <李>

更多其他的用法大家可以查看:      李https://doc.scrapy.org/en/latest/topics/loaders.html

<李>

首先重写蜘蛛中的parse_analyse方法,导入自定义的加载程序类,然后需要实例化这个加载器类,将参数项和响应传递到加载器类中,然后可以使用add_css (), add_xpath (), add_value()方法来提取和收集数据保存到装载机类实例化对象中,最后当所有数据被收集起来之后,调用<代码> ItemLoader.load_item() 方法对结果进行解析并保存到一个项目中,然后返回这个项目;

 def  parse_analyse(自我,,反应):
  ,,,,,,,#,构建加载程序
  ,,,,,,,xkd_itemload =, MyItemLoader(项=XkdDribbbleSpiderItem(),响应=响应)
  ,,,,,,,image_url =, response.meta.get (& # 39; a_image_url& # 39;)
  ,,,,,,,#,通过装载机定位元素和解析元素
  ,,,,,,,xkd_itemload.add_css(& # 39;标题# 39;,,“[角色=& # 39;文章# 39;],header  h2")
  ,,,,,,,#,注意这里传递的是一个列的表
  ,,,,,,,xkd_itemload.add_value (& # 39; image_url& # 39;,, [image_url])
  ,,,,,,,xkd_itemload.add_value (& # 39; url # 39;,, response.url)
  ,,,,,,,xkd_itemload.add_value (& # 39; url_id& # 39;,, get_md5 (response.url))
  ,,,,,,,xkd_itemload.add_css(& # 39;日期# 39;,,& # 39;p  span.date::文本# 39;)
  ,,,,,,,#,解析元素之后返回项目
  ,,,,,,,xkd_item =, xkd_itemload.load_item ()
  ,,,,,,,#,将物品返回
  ,,,,,,,油品收率xkd_item 

<李>

修改项数据模型,需要导入从scrapy.loader <代码>。处理器进口MapCompose> <李>

Scrapy还给我们提供了一个<代码> scrapy.loader.processors.TakeFirst() 方法,用于返回第一个非空值(相当于extract_first()方法),常用于单值字段的输出处器,无参数;

<>之前得到scrapy.loader.processors  import  TakeFirst, MapCompose   得到datetime  import  datetime   def  str_to_date (str_date):   ,,,str_date =, str_date.strip ()   ,,,date =, datetime.strptime (str_date, & # 39; % b  % d,, % y # 39;) .date ()   ,,,return  date.strftime (& # 39; Y - % - % d % # 39;)   class  XkdDribbbleSpiderItem (scrapy.Item):   ,,,title =, scrapy.Field ()   ,,,image_url =, scrapy.Field (   ,,,,,,,output_processor =, MapCompose(时间价值:lambda 价值)   ,,,)   ,,,date =, scrapy.Field (   ,,,,,,,input_processor =, MapCompose (str_to_date)   ,,,)   ,,,image_path =, scrapy.Field ()   ,,,url =, scrapy.Field ()   ,,,url_id =, scrapy.Field ()

看完上述内容,你们对如何引入ItemLoader和项目预处理函数有进一步的了解吗?如果还想了解更多知识或者相关内容,请关注行业资讯频道,感谢大家的支持。

如何引入ItemLoader和项目预处理函数