怎么在python中提取文本信息 - 行业资讯 - 肥雀云

　　介绍

怎么在python中提取文本信息吗?很多新手对此不是很清楚,为了帮助大家解决这个难题,下面小编将为大家详细讲解,有这方面需求的人可以来学习下,希望你能有所收获。

python主要用来做什么

python主要应用于:1,网络开发;2、数据科学研究;3,网络爬虫;4、嵌入式应用开发,5日游戏开发;6桌面应用开发。

<强> 1,信息提取

先用句子分段器将文档的原始文本分成句子,再用记号赋值器将每个句子进一步分成单词。其次,给每一个句子做词性标记。以nltk中的默认工具为例,将句子分段器,分词器,词性标记器连接。

 def  ie_preprocess(文档):
　　,,,#,nltk 默认的句子分段器
　　,,,sentences =, nltk.sent_tokenize(文档)
　　,,,#,nltk默认分词器
　　,,,sentences =, (nltk.word_tokenize(发送),for  sent 拷贝句子)
　　,,,#,nltk默认词性标记
　　,,,sentences =, (nltk.pos_tag(发送),for  sent 拷贝句子)

<强> 2,词块划分

词块划分是实体识别的基础技术,对多个词的顺序进行划分和标记。

如名词短语组块(名词短语词块划分)

使用正则表达式来定义一个语法,来进行名词短语词块的划分

<强> 3,开发和评估词块划分器

分区器可以用评估()方法评价分区器的性能好坏。

以下是使用一元标记来建立单词块分割器的学习。但是,不是确定每个单词的正确单词性标记,而是根据每个单词的单词性标记,确定正确的单词块标记。

 #,使用一元标注器建立一个词块划分器。根据每个词的词性标记,尝试确定正确的词块标记。
　　class  UnigramChunker (nltk.ChunkParserI):
　　,,,#,构造函数
　　,,,def  __init__(自我,,train_sents):
　　,,,,,,,#,将训练数据转换成适合训练标注器的形式.tree2conlltags()方法将每个词块树映射到一个三元组(词、标签、块)的列的表
　　,,,,,,,train_data =, [[(t), c), for  w,, t, c 拷贝nltk.chunk.tree2conlltags(发送)
　　,,,,,,,,,,,,,,,,,,,,,for  sent  train_sents拷贝)
　　,,,,,,,#,训练一元分块器
　　,,,,,,,#,self.tagger =, nltk.UnigramTagger (train_data)
　　,,,,,,,#,训练二元分块器
　　,,,,,,,self.tagger =, nltk.BigramTagger (train_data)
　　,
　　,,,#,句子为一个已标注的句子
　　,,,def 解析(自我,,句子):
　　,,,,,,,#,提取词性标记
　　,,,,,,,pos_tags =, (pos  for (单词,,pos),拷贝句子)
　　,,,,,,,#,使用标注器为词性标记,标注入会词块
　　,,,,,,,tagged_pos_tags =, self.tagger.tag (pos_tags)
　　,,,,,,,#,提取词块标记
　　,,,,,,,chunktags =, (chunktag  for  (pos, chunktag),拷贝tagged_pos_tags]
　　,,,,,,,#,将词块标记与原句组合
　　,,,,,,,conlltags =, [(pos,词,还以为;chunktag), for ((单词,,pos), chunktag)
　　,,,,,,,,,,,,,,,,,,,,拷贝zip(句子,,chunktags))
　　,,,,,,,#,转换成词块树
　　,,,,,,,return  nltk.chunk.conlltags2tree (conlltags)

看完上述内容是否对您有帮助呢?如果还想对相关知识有进一步的了解或阅读更多相关文章,请关注行业资讯频道,感谢您对的支持。