索引語の抽出

不要語の除去

不要語(stop word)とは、冠詞(a,the など)や前置詞(at,in など)などのきわめて高い頻度で出現し、 索引語として適当でない単語である。不要語を索引語の候補からあらかじめ除去しておくことが重要になる。 不要語の一覧は不要語リスト(stop word list)として公開されているものもある。

ステミング

単語から接辞語を取り除く処理をステミングという。

Porterステマー

Porterステマー

>>> porter = nltk.PorterStemmer()

Lancasterステマー

Lancasterステマー

>>> porter = nltk.LancasterStemmer()

レマダイザ

辞書に載っている語形に変換する作業を見出し語化という。そのツールをレマダイザという。

WordNetのレマタイザ

>>> wnl=nltk.WordNetLemmatizer()
>>> [wnl.lemmatize(t) for t in tokens]