ウェブテキストへのアクセス(まとめ)

前提

>>> from __future__ import division
>>> import nltk, re, pprint
>>> from urllib import urlopen
>>> url="http://www.hogehoge.jp/"

ウェブテキストの読み込み

>>> html = urlopen(url).read()

HTMLタグ削除

>>> raw = nltk.clean_html(html)

スライシング

>>> raw = raw[756:2002]

トークン化

>>> tokens = nltk.word_tokenize(raw)

スライシング

>>> tokens = tokens[123:555]

テキスト化

>>> text = nltk.Text(tokens)

単語の正規化

>>> voc = sorted(set([w.lower() for w in text]))