len :: テキスト中の単語と句読点の合計数を求める
トークン
テキスト中の単語と句読点のことをトークンという。述べ語ともいう。
len
lenというコマンドで、テキスト中の単語と句読点の合計数がわかる。
>>> len(text4) 145735
"I had a car"であれば「4」になるはずである。
>>> len("I had a car") 11
しかし「11」になってしまった。これは文字列タイプに対しては、lenは文字数をカウントしてしまうためである。
>>> type("I had a car") type 'str'
set :: トークンの集合を求める
テキストの語彙
テキストの語彙とは、異なるトークンの集合である。setを使うと求められる。
>>> set(text4)
次のようにsortedを使うとソートされたリストになる。
>>> sorted(set(text4))
語彙の数
語彙の数は、トークンの集合に対してlenを使うと求められる。
>>> len(set(text4))
>>> len(set(text4)) 9754
語彙の豊富さをあらわす指標
語彙の豊富さをあらわす指標のひとつとして、テキスト中で単語が平均何回使われているかという値がある。
>>> len(text4) / len(set(text4))
>>> from __future__ import division >>> len(text4) / len(set(text4)) 14.941049825712529
このテキストでは、平均15回近く使われている。この値が小さいほど語彙が豊富であり、大きいほど語彙がそれほど豊富でないということになる。
テキスト中に特定の単語が出現する回数
テキスト中に特定の単語が出現する回数は、countで数えられる。
>>> text3.count("he") 648