len :: テキスト中の単語と句読点の合計数を求める

トークン

テキスト中の単語と句読点のことをトークンという。述べ語ともいう。

len

lenというコマンドで、テキスト中の単語と句読点の合計数がわかる。

>>> len(text4)
145735

"I had a car"であれば「4」になるはずである。

>>> len("I had a car")
11

しかし「11」になってしまった。これは文字列タイプに対しては、lenは文字数をカウントしてしまうためである。

>>> type("I had a car")
type 'str'

set :: トークンの集合を求める

テキストの語彙

テキストの語彙とは、異なるトークンの集合である。setを使うと求められる。


>>> set(text4)

次のようにsortedを使うとソートされたリストになる。


>>> sorted(set(text4))

語彙の数

語彙の数は、トークンの集合に対してlenを使うと求められる。


>>> len(set(text4))

>>> len(set(text4))
9754

語彙の豊富さをあらわす指標

語彙の豊富さをあらわす指標のひとつとして、テキスト中で単語が平均何回使われているかという値がある。

>>> len(text4) / len(set(text4))

>>> from __future__ import division
>>> len(text4) / len(set(text4))
14.941049825712529

このテキストでは、平均15回近く使われている。この値が小さいほど語彙が豊富であり、大きいほど語彙がそれほど豊富でないということになる。

テキスト中に特定の単語が出現する回数

テキスト中に特定の単語が出現する回数は、countで数えられる。


>>> text3.count("he")
648

語彙のカウント(つづき)