Java如何实现基于模板的网页结构化信息精准抽取组件HtmlExtractor

  介绍

今天就跟大家聊聊有关Java如何实现基于模板的网页结构化信息精准抽取组件HtmlExtractor,可能很多人都不太了解,为了让大家更加了解,小编给大家总结了以下内容,希望大家根据这篇文章可以有所收获。

<强> HtmlExtractor是一个Java实现的基于模板的网页结构化信息精准抽取组件,本身并不包含爬虫功能,但可被爬虫或其他程序调用以便更精准地对网页结构化信息进行抽取。

<强> HtmlExtractor是为大规模分布式环境设计的,采用主从架构,主节点负责维护抽取规则,从节点向主节点请求抽取规则,当抽取规则发生变化,主节点主动通知从节点,从而能实现抽取规则变化之后的实时动态生效。

<>强如何使用?

 HtmlExtractor由两个子项目构成,html-extractor和html-extractor-web。
  html-extractor实现了数据抽取逻辑,是从节点,html-extractor-web提供web界面来维护抽取规则,是主节点。
  html-extractor是一个jar包,可通过maven引用:
 & lt; dependency>
  ,,,& lt; groupId> org.apdplat
  ,,,& lt; artifactId> html-extractor
  ,,,& lt; version> 1.0 & lt;/version>
  & lt;/dependency> 
<>之前,,html-extractor-web是一个战争包,需要部署到Servlet/Jsp容器上。

单机集中式使用方法:

//1,构造抽取规则
  
  List 

<代码>,

多机分布式使用方法:

 1,运行主节点,负责维护抽取规则:
  ,,将子项目html-extractor-web打成战争包然后部署到Tomcat。
  2、获取一个HtmlExtractor的实例(从节点),示例代码如下:
<>之前String  allExtractRegularUrl =,“http://localhost: 8080/HtmlExtractorServer/api/all_extract_regular.jsp";   String  redisHost =,“localhost";   int  redisPort =, 6379;   HtmlExtractor  HtmlExtractor =, HtmlExtractor.getInstance (allExtractRegularUrl, redisHost,, redisPort);
 3,抽取信息,示例代码如下:
 String  url =,“http://money.163.com/08/1219/16/4THR2TMP002533QK.html";
  ListJava如何实现基于模板的网页结构化信息精准抽取组件HtmlExtractor