NLTK(Natural Language ToolKit)

NLTKをダウンロードしてインストールしてみよう。

NLTKのインポート

Pythonのインタープリタを起動して、次のコマンドを入力する。


>>> import nltk

>>> from nltk.book import *

テキストの検索

concordance

concordance()を用いて、指定した単語がそのテキストのなかでどこに出現したかを 前後の文章とともに表示できる。

>>> text1.concordance("design")
Building index...
Displaying 4 of 4 matches:
 himself ? In fact , the artist ' s design seemed this : a final theory of my
le feeling towards the man whom you design for my bedfellow -- a sort of conne
 I told him that whaling was my own design , and informed him of my intention
 as close packed in its maziness of design , as the Greek savage , Achilles '

similar

similar()を用いて、同じような文脈で使われている別の単語がわかる。

>>> text1.similar("long")
great short whale wide considerable little not good much one only same
still white ahab deep full high it just

shortなども登場し、類似語だけでなく(同じような文脈で使われている)反意語も表示されることがわかる。

common_contexts

similar()を用いて、同じような文脈で使われている別の単語を抽出できることが分かったが、 common_contexts()を用いれば、複数の単語を指定して 同じような文脈で使われている別の単語を抽出できる。

>>> text1.common_contexts(["great","very"])
a_long a_white the_body

generate

generate()を用いて、あるテキストのスタイルを保ちながら、ランダムなテキストを生成する。


>>> text1.generate()

テキストのタイプ

テキストのタイプはリストでしょうか。確かめてみます。


>>> type(text3)
class 'nltk.text.Text'

'nltk.text.Text'というクラスでした。

語彙のカウント

続いては語彙のカウントについて。