語彙のカウント
トークン
テキスト中の単語と句読点のことをトークンという。述べ語ともいう。トークンのほうがかっこいいので このサイトではトークンという用語を用いる。
len
テキスト中の、単語と句読点の合計数がわかる。
>>> len(text4)
>>> len(text4)
145735
テキストの語彙
テキストの語彙とはトークンの集合である。setを使うと求められる。
>>> set(text4)
次のようにsortedを使うとソートされたリストになる。
>>> sorted(set(text4))
語彙の数
語彙の数は、トークンの集合に対してlenを使うと求められる。
>>> len(set(text4))
>>> len(set(text4))
9754
語彙の豊富さをあらわす指標
語彙の豊富さをあらわす指標のひとつとして、テキスト中で単語が平均何回使われているか、がある。
>>> len(text4) / len(set(text4))
>>> from __future__ import division
>>> len(text4) / len(set(text4))
14.941049825712529
このテキストでは、平均15回近く使われている。
テキスト中に特定の単語が出現する回数
テキスト中に特定の単語が出現する回数は、countで数えられる。
>>> text3.count("he")
648