ステミング

単語から接辞語を取り除く処理をステミングという。

Porterステマー

Porterステマー

>>> porter = nltk.PorterStemmer()

Lancasterステマー

Lancasterステマー

>>> porter = nltk.LancasterStemmer()

レマダイザ

辞書に載っている語形に変換する作業を見出し語化という。そのツールをレマダイザという。

WordNetのレマタイザ

>>> wnl=nltk.WordNetLemmatizer()
>>> [wnl.lemmatize(t) for t in tokens]