>>> from __future__ import division
>>> import nltk, re, pprint

ウェブ上のテキストへのアクセス

ウェブ上のテキストへアクセスして文字列として読み込む

>>> from urllib import urlopen
>>> url="http://www.gutenberg.org/files/2554/2554.txt"
>>> raw = urlopen(url).read()
>>> type(raw)
type 'str'
>>> len(raw)
1176831
>>> raw[:100]
'The Project Gutenberg EBook of Crime and Punishment, by Fyodor Dostoevsky\r\n\r
\nThis eBook is for the u'
>>>

トークン化

文字列から単語と句読点のリストを作成する。

tokens = nltk.word_tokenize(raw)
>>> tokens = nltk.word_tokenize(raw)
>>> type(tokens)
type 'list'
>>> len(tokens)
241137
>>> len(set(tokens))
14957
>>>
>>> text = nltk.Text(tokens)
>>> type(text)
class 'nltk.text.Text'
>>>

テキストの導入部と後書き部をスライスする

find()rfind()というメソッドを使用して添字を求めた後、スライシングする。