VSM(Vector Space Model)常用向量值計算:TF-IDF



1)TF-IDF


TF(只針對一篇文章計算)

TF(t, d) = 某個詞 t 在【本篇文章 d 】中的出現次數;

由於文章有長有短,最好進行TF標准化:

TF(t, d) = 某個詞 t 在【本篇文章 d 】中的出現次數 / 文章 d 的總詞數;

或者,

TF(t, d) = 某個詞 t 在【本篇文章 d 】中的出現次數 / 文章 d 中出現次數最多的那個詞 t‘ 的出現次數。


DF(針對整個語料庫計算,有很多篇文章,不關注單個文章):

DF(t, all d) = DF(t) = 整個語料庫中包含詞 t 的文檔數

一般使用時需要進行DF標准化:

DF(t) = (整個語料庫中包含詞 t 的文檔數+1) / 整個語料庫總的文檔數 = (n+1) / N。


IDF(將DF(t)取倒數,再取log):

IDF(t, all d) = IDF(t) = log( N / (n + 1) );

缺點:如果某一類 C 中包含單詞 t 的文檔數為m,而其它類包含單詞 t 的文檔總數為k,顯然DF(t)=m+k,當m大的時候,DF(t)也大,按照IDF公式得到的IDF的值會小,就說明該單詞 t 類別區分能力不強。但是實際上,如果一個單詞在一個類的文檔中頻繁出現(這里指m大),則說明該單詞能夠很好代表這個類的文本特征,這樣的詞條應該給它們賦予較高的權重,並選來作為該類文本的特征詞以區別與其它類文檔。這就是IDF的不足之處。


TF-IDF(即關注單個文章,也關注整個語料庫):

TF-IDF(t,d) = TF(t,d) * IDF(t)。

直觀來解釋就是:一個單詞在一篇文檔中出現次數越多,它的權重越大;文檔中單詞越是“只此一家別無分店”(包含該單詞的文檔越少),它的權重越大(權重大是指單詞 t 具有很好的類別區分能力)。


應用:

關鍵詞提取、文檔相似度衡量。。。







注意!

本站转载的文章为个人学习借鉴使用,本站对版权不负任何法律责任。如果侵犯了您的隐私权益,请联系我们删除。



 
粤ICP备14056181号  © 2014-2020 ITdaan.com