ウェブテキストへのアクセス(まとめ)
前提
>>> from __future__ import division
>>> import nltk, re, pprint
>>> from urllib import urlopen
>>> url="http://www.hogehoge.jp/"
ウェブテキストの読み込み
>>> html = urlopen(url).read()
HTMLタグ削除
>>> raw = nltk.clean_html(html)
スライシング
>>> raw = raw[756:2002]
トークン化
>>> tokens = nltk.word_tokenize(raw)
スライシング
>>> tokens = tokens[123:555]
テキスト化
>>> text = nltk.Text(tokens)
単語の正規化
>>> voc = sorted(set([w.lower() for w in text]))