ステミング
単語から接辞語を取り除く処理をステミングという。
Porterステマー
Porterステマー
>>> porter = nltk.PorterStemmer()
Lancasterステマー
Lancasterステマー
>>> porter = nltk.LancasterStemmer()
レマダイザ
辞書に載っている語形に変換する作業を見出し語化という。そのツールをレマダイザという。
WordNetのレマタイザ
>>> wnl=nltk.WordNetLemmatizer()
>>> [wnl.lemmatize(t) for t in tokens]