TF-IDFで文書内の単語の重み付け

TF-IDF(Term Frequency - Inverse Document Frequency) とは、与えられた複数の文書からある文書を特徴づける単語を取り出すアルゴリズムである。

●TFはTerm Frequencyで、それぞれの単語の文書内での出現頻度を表す。たくさん出てくる単語は重要である可能性が高い。
文書d内のある単語tのTF値は、ある単語tの文書d内での出現回数を、文書d内のすべての単語の出現回数の和で割ったものである。

●IDFはInverse Document Frequencyで、それぞれの単語がいくつの文書内で共通して使われているかを表す。
いくつもの文書で横断的に使われている単語はそんなに重要ではないのではないか、という観点です。
ある単語tのIDF値は、全文書数を、ある単語tが出現する文書の数で割って、対数(底2)を取った値に1を加えたものです。
ある単語tが出現する文書の数が全文書数の1/2だとすると、ある単語tのIDF値は2。
ある単語tが出現する文書の数が全文書数の1/4だとすると、ある単語tのIDF値は3。
ある単語tが出現する文書の数が全文書数の1/8だとすると、ある単語tのIDF値は4となる。

この2つの値を掛けたものをそれぞれの単語の重みにすれば、その値が大きいほど各文書を特徴付ける単語だと
言えるんじゃないか。


Jaccard係数とDice係数