怎么在python中提取文本信息

  介绍

怎么在python中提取文本信息吗?很多新手对此不是很清楚,为了帮助大家解决这个难题,下面小编将为大家详细讲解,有这方面需求的人可以来学习下,希望你能有所收获。

python主要用来做什么

python主要应用于:1,网络开发;2、数据科学研究;3,网络爬虫;4、嵌入式应用开发,5日游戏开发;6桌面应用开发。

<强> 1,信息提取

先用句子分段器将文档的原始文本分成句子,再用记号赋值器将每个句子进一步分成单词。其次,给每一个句子做词性标记。以nltk中的默认工具为例,将句子分段器,分词器,词性标记器连接。

 def  ie_preprocess(文档):
  ,,,#,nltk 默认的句子分段器
  ,,,sentences =, nltk.sent_tokenize(文档)
  ,,,#,nltk默认分词器
  ,,,sentences =, (nltk.word_tokenize(发送),for  sent 拷贝句子)
  ,,,#,nltk默认词性标记
  ,,,sentences =, (nltk.pos_tag(发送),for  sent 拷贝句子)

<强> 2,词块划分

词块划分是实体识别的基础技术,对多个词的顺序进行划分和标记。

如名词短语组块(名词短语词块划分)

使用正则表达式来定义一个语法,来进行名词短语词块的划分

<强> 3,开发和评估词块划分器

分区器可以用评估()方法评价分区器的性能好坏。

以下是使用一元标记来建立单词块分割器的学习。但是,不是确定每个单词的正确单词性标记,而是根据每个单词的单词性标记,确定正确的单词块标记。

 #,使用一元标注器建立一个词块划分器。根据每个词的词性标记,尝试确定正确的词块标记。
  class  UnigramChunker (nltk.ChunkParserI):
  ,,,#,构造函数
  ,,,def  __init__(自我,,train_sents):
  ,,,,,,,#,将训练数据转换成适合训练标注器的形式.tree2conlltags()方法将每个词块树映射到一个三元组(词、标签、块)的列的表
  ,,,,,,,train_data =, [[(t), c), for  w,, t, c 拷贝nltk.chunk.tree2conlltags(发送)
  ,,,,,,,,,,,,,,,,,,,,,for  sent  train_sents拷贝)
  ,,,,,,,#,训练一元分块器
  ,,,,,,,#,self.tagger =, nltk.UnigramTagger (train_data)
  ,,,,,,,#,训练二元分块器
  ,,,,,,,self.tagger =, nltk.BigramTagger (train_data)
  ,
  ,,,#,句子为一个已标注的句子
  ,,,def 解析(自我,,句子):
  ,,,,,,,#,提取词性标记
  ,,,,,,,pos_tags =, (pos  for (单词,,pos),拷贝句子)
  ,,,,,,,#,使用标注器为词性标记,标注入会词块
  ,,,,,,,tagged_pos_tags =, self.tagger.tag (pos_tags)
  ,,,,,,,#,提取词块标记
  ,,,,,,,chunktags =, (chunktag  for  (pos, chunktag),拷贝tagged_pos_tags]
  ,,,,,,,#,将词块标记与原句组合
  ,,,,,,,conlltags =, [(pos,词,还以为;chunktag), for ((单词,,pos), chunktag)
  ,,,,,,,,,,,,,,,,,,,,拷贝zip(句子,,chunktags))
  ,,,,,,,#,转换成词块树
  ,,,,,,,return  nltk.chunk.conlltags2tree (conlltags) 

看完上述内容是否对您有帮助呢?如果还想对相关知识有进一步的了解或阅读更多相关文章,请关注行业资讯频道,感谢您对的支持。

怎么在python中提取文本信息