語彙のカウント

トークン

テキスト中の単語と句読点のことをトークンという。述べ語ともいう。トークンのほうがかっこいいので このサイトではトークンという用語を用いる。

len

テキスト中の、単語と句読点の合計数がわかる。

>>> len(text4)
>>> len(text4)
145735

テキストの語彙

テキストの語彙とはトークンの集合である。setを使うと求められる。

>>> set(text4)

次のようにsortedを使うとソートされたリストになる。

>>> sorted(set(text4))

語彙の数

語彙の数は、トークンの集合に対してlenを使うと求められる。

>>> len(set(text4))
>>> len(set(text4))
9754

語彙の豊富さをあらわす指標

語彙の豊富さをあらわす指標のひとつとして、テキスト中で単語が平均何回使われているか、がある。

>>> len(text4) / len(set(text4))
>>> from __future__ import division
>>> len(text4) / len(set(text4))
14.941049825712529

このテキストでは、平均15回近く使われている。

テキスト中に特定の単語が出現する回数

テキスト中に特定の単語が出現する回数は、countで数えられる。

>>> text3.count("he")
648