国产99久久精品_欧美日本韩国一区二区_激情小说综合网_欧美一级二级视频_午夜av电影_日本久久精品视频

最新文章專題視頻專題問答1問答10問答100問答1000問答2000關鍵字專題1關鍵字專題50關鍵字專題500關鍵字專題1500TAG最新視頻文章推薦1 推薦3 推薦5 推薦7 推薦9 推薦11 推薦13 推薦15 推薦17 推薦19 推薦21 推薦23 推薦25 推薦27 推薦29 推薦31 推薦33 推薦35 推薦37視頻文章20視頻文章30視頻文章40視頻文章50視頻文章60 視頻文章70視頻文章80視頻文章90視頻文章100視頻文章120視頻文章140 視頻2關鍵字專題關鍵字專題tag2tag3文章專題文章專題2文章索引1文章索引2文章索引3文章索引4文章索引5123456789101112131415文章專題3
問答文章1 問答文章501 問答文章1001 問答文章1501 問答文章2001 問答文章2501 問答文章3001 問答文章3501 問答文章4001 問答文章4501 問答文章5001 問答文章5501 問答文章6001 問答文章6501 問答文章7001 問答文章7501 問答文章8001 問答文章8501 問答文章9001 問答文章9501
當前位置: 首頁 - 科技 - 知識百科 - 正文

NLTK學習:分類和標注詞匯

來源:懂視網 責編:小采 時間:2020-11-27 14:23:58
文檔

NLTK學習:分類和標注詞匯

NLTK學習:分類和標注詞匯:[TOC]詞性標注器之后的很多工作都需要標注完的詞匯。nltk自帶英文標注器pos_tagimport nltk text = nltk.word_tokenize("And now for something compleyely difference")print(text)print(nltk.pos_
推薦度:
導讀NLTK學習:分類和標注詞匯:[TOC]詞性標注器之后的很多工作都需要標注完的詞匯。nltk自帶英文標注器pos_tagimport nltk text = nltk.word_tokenize("And now for something compleyely difference")print(text)print(nltk.pos_

import nltk
text = nltk.word_tokenize("And now for something compleyely difference")print(text)print(nltk.pos_tag(text))

標注語料庫

表示已經標注的標識符:nltk.tag.str2tuple('word/類型')

text = "The/AT grand/JJ is/VBD ."print([nltk.tag.str2tuple(t) for t in text.split()])

讀取已經標注的語料庫

nltk語料庫ue肚臍提供了統一接口,可以不必理會不同的文件格式。格式:語料庫.tagged_word()/tagged_sents()。參數可以指定categories和fields

print(nltk.corpus.brown.tagged_words())

名詞、動詞、形容詞等

這里以名詞為例

from nltk.corpus import brown
word_tag = nltk.FreqDist(brown.tagged_words(categories="news"))print([word+'/'+tag for (word,tag)in word_tag if tag.startswith('V')])################下面是查找money的不同標注#################################wsj = brown.tagged_words(categories="news")
cfd = nltk.ConditionalFreqDist(wsj)print(cfd['money'].keys())

嘗試找出每個名詞類型中最頻繁的名詞

def findtag(tag_prefix,tagged_text):
 cfd = nltk.ConditionalFreqDist((tag,word) for (word,tag) in tagged_text if tag.startswith(tag_prefix))return dict((tag,list(cfd[tag].keys())[:5]) for tag in cfd.conditions())#數據類型必須轉換為list才能進行切片操作tagdict = findtag('NN',nltk.corpus.brown.tagged_words(categories="news"))for tag in sorted(tagdict):print(tag,tagdict[tag])

探索已經標注的語料庫

需要nltk.bigrams()nltk.trigrams(),分別對應2-gram模型和3-gram模型。

brown_tagged = brown.tagged_words(categories="learned")
tags = [b[1] for (a,b) in nltk.bigrams(brown_tagged) if a[0]=="often"]
fd = nltk.FreqDist(tags)
fd.tabulate()

自動標注

默認標注器

最簡單的標注器是為每個標識符分配統一標記。下面就是一個將所有詞都變成NN的標注器。并且用evaluate()進行檢驗。當很多詞語是名詞時候,它有利于第一次分析并提高穩定性。

brown_tagged_sents = brown.tagged_sents(categories="news")

raw = 'I do not like eggs and ham, I do not like them Sam I am'tokens = nltk.word_tokenize(raw)
default_tagger = nltk.DefaultTagger('NN')#創建標注器print(default_tagger.tag(tokens)) # 調用tag()方法進行標注print(default_tagger.evaluate(brown_tagged_sents))

正則表達式標注器

注意這里規則是固定(由自己決定)。當規則越來越完善的時候,精確度越高。

patterns = [
 (r'.*ing$','VBG'),
 (r'.*ed$','VBD'),
 (r'.*es$','VBZ'),
 (r'.*','NN')#為了方便,只有少量規則]
regexp_tagger = nltk.RegexpTagger(patterns)
regexp_tagger.evaluate(brown_tagged_sents)

查詢標注器

這里和書里是有差別的,不同于python2,注意調試。而查詢標注器就是存儲最有可能的標記,并且可以設置backoff參數,不能標記的情況下,就使用這個標注器(這個過程是回退)

fd = nltk.FreqDist(brown.words(categories="news"))
cfd = nltk.ConditionalFreqDist(brown.tagged_words(categories="news"))##############################################python2和3的區別#########most_freq_words = fd.most_common(100)
likely_tags = dict((word,cfd[word].max()) for (word,times) in most_freq_words)#######################################################################baseline_tagger = nltk.UnigramTagger(model=likely_tags,backoff=nltk.DefaultTagger('NN'))
baseline_tagger.evaluate(brown_tagged_sents)

N-gram標注

基礎的一元標注器

一元標注器的行為和查找標注器很相似,建立一元標注器的技術,為訓練。

這里我們的標注器只是記憶訓練集,而不是建立一般模型,那么吻合很好,但是不能推廣到新文本。

size = int(len(brown_tagged_sents)*0.9)
train_sents = brown_tagged_sents[:size]
test_sents = brown_tagged_sents[size+1:]
unigram_tagger = nltk.UnigramTagger(train_sents)
unigram_tagger.evaluate(test_sents)

一般的N-gram標注器

N元標注器,就是檢索index= n 的 word,并且檢索n-N<=index<=n-1 的 tag。即通過前面詞的tag標簽,進一步確定當前詞匯的tag。類似于nltk.UnigramTagger(),自帶的二元標注器為:nltk.BigramTagger()用法一致。

組合標注器

很多時候,覆蓋范圍更廣的算法比精度更高的算法更有用。利用backoff指明回退標注器,來實現標注器的組合。而參數cutoff顯式聲明為int型,則會自動丟棄只出現1-n次的上下文。

t0 = nltk.DefaultTagger('NN')
t1 = nltk.UnigramTagger(train_sents,backoff=t0)
t2 = nltk.BigramTagger(train_sents,backoff=t1)
t2.evaluate(test_sents)

可以發現,和原來比較之后,精確度明顯提高

跨句子邊界標注

對于句首的單詞,沒有前n個單詞。解決方法:通過已標記的tagged_sents來訓練標注器。


基于轉換的標注:Brill標注器

較上面的都優秀。實現的思路:以大筆化開始,然后修復細節,一點點進行細致改變。
不僅占用內存小,而且關聯上下文,并且根據問題的變小,實時修正錯誤,而不是一成不變的。當然,在python3和python2的調用有所不同。

from nltk.tag import brill
brill.nltkdemo18plus()
brill.nltkdemo18()


聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。TEL:177 7030 7066 E-MAIL:11247931@qq.com

文檔

NLTK學習:分類和標注詞匯

NLTK學習:分類和標注詞匯:[TOC]詞性標注器之后的很多工作都需要標注完的詞匯。nltk自帶英文標注器pos_tagimport nltk text = nltk.word_tokenize("And now for something compleyely difference")print(text)print(nltk.pos_
推薦度:
標簽: 分類 學習 標記
  • 熱門焦點

最新推薦

猜你喜歡

熱門推薦

專題
Top
主站蜘蛛池模板: 国产区第一页 | 日韩三| 欧美不卡二区 | 日韩中文字幕第一页 | 欧美亚洲免费 | 日韩电影第一页 | 最新欧美日韩 | 成人精品第一区二区三区 | 全免费毛片在线播放 | 一区二区国产精品 | 精品一区二区三区四区在线 | 成人精品视频一区二区三区 | 国产日韩欧美在线播放 | 国模吧双双大尺度炮交gogo | 91久久国产视频 | 日本一区不卡 | 国产精品第 | 成人精品一区二区三区 | 欧美一区二区在线观看视频 | 影音先锋亚洲综合小说在线 | 麻豆91精品91久久久 | 亚洲视频在线免费观看 | 亚洲精品国产综合一线久久 | 激情专区 | 初撮五十路交尾视频 | 久久精品综合国产二区 | 中文字幕亚洲综合 | 国产成人一区二区三区小说 | 久久精品一区二区国产 | 亚洲欧美综合 | 免费看全黄特黄毛片 | 国产精品久久久久久一区二区 | 欧美雌雄双性人交xxxx | 国产成人一区二区三区影院免费 | 欧美性xxxxx极品老少 | 欧洲毛片 | 日韩经典第一页 | 国产欧美日韩第一页 | 国产精品一区二区久久 | 欧美精品在线视频观看 | 免费国产最新进精品视频 |