介绍
怎么在python中提取文本信息吗?很多新手对此不是很清楚,为了帮助大家解决这个难题,下面小编将为大家详细讲解,有这方面需求的人可以来学习下,希望你能有所收获。
python主要用来做什么
python主要应用于:1,网络开发;2、数据科学研究;3,网络爬虫;4、嵌入式应用开发,5日游戏开发;6桌面应用开发。
<强> 1,信息提取强>
先用句子分段器将文档的原始文本分成句子,再用记号赋值器将每个句子进一步分成单词。其次,给每一个句子做词性标记。以nltk中的默认工具为例,将句子分段器,分词器,词性标记器连接。
def ie_preprocess(文档): ,,,#,nltk 默认的句子分段器 ,,,sentences =, nltk.sent_tokenize(文档) ,,,#,nltk默认分词器 ,,,sentences =, (nltk.word_tokenize(发送),for sent 拷贝句子) ,,,#,nltk默认词性标记 ,,,sentences =, (nltk.pos_tag(发送),for sent 拷贝句子)
<强> 2,词块划分强>
词块划分是实体识别的基础技术,对多个词的顺序进行划分和标记。
如名词短语组块(名词短语词块划分)
使用正则表达式来定义一个语法,来进行名词短语词块的划分
<强> 3,开发和评估词块划分器强>
分区器可以用评估()方法评价分区器的性能好坏。
以下是使用一元标记来建立单词块分割器的学习。但是,不是确定每个单词的正确单词性标记,而是根据每个单词的单词性标记,确定正确的单词块标记。
#,使用一元标注器建立一个词块划分器。根据每个词的词性标记,尝试确定正确的词块标记。 class UnigramChunker (nltk.ChunkParserI): ,,,#,构造函数 ,,,def __init__(自我,,train_sents): ,,,,,,,#,将训练数据转换成适合训练标注器的形式.tree2conlltags()方法将每个词块树映射到一个三元组(词、标签、块)的列的表 ,,,,,,,train_data =, [[(t), c), for w,, t, c 拷贝nltk.chunk.tree2conlltags(发送) ,,,,,,,,,,,,,,,,,,,,,for sent train_sents拷贝) ,,,,,,,#,训练一元分块器 ,,,,,,,#,self.tagger =, nltk.UnigramTagger (train_data) ,,,,,,,#,训练二元分块器 ,,,,,,,self.tagger =, nltk.BigramTagger (train_data) , ,,,#,句子为一个已标注的句子 ,,,def 解析(自我,,句子): ,,,,,,,#,提取词性标记 ,,,,,,,pos_tags =, (pos for (单词,,pos),拷贝句子) ,,,,,,,#,使用标注器为词性标记,标注入会词块 ,,,,,,,tagged_pos_tags =, self.tagger.tag (pos_tags) ,,,,,,,#,提取词块标记 ,,,,,,,chunktags =, (chunktag for (pos, chunktag),拷贝tagged_pos_tags] ,,,,,,,#,将词块标记与原句组合 ,,,,,,,conlltags =, [(pos,词,还以为;chunktag), for ((单词,,pos), chunktag) ,,,,,,,,,,,,,,,,,,,,拷贝zip(句子,,chunktags)) ,,,,,,,#,转换成词块树 ,,,,,,,return nltk.chunk.conlltags2tree (conlltags)
看完上述内容是否对您有帮助呢?如果还想对相关知识有进一步的了解或阅读更多相关文章,请关注行业资讯频道,感谢您对的支持。