计算文章TF-IDF


#coding:utf-8
import jieba
import jieba.analyse #计算tf-idf需要调用此模块jieba.analyse
stopkey=[line.strip().decode('utf-8') for line in open('stopkey.txt').readlines()]
#将停止词文件保存到列表stopkey,停止词在网上下载的。
neirong = open(r"ceshi1.txt","r").read() #导入需要计算的内容
zidian={}

fenci=jieba.cut_for_search(neirong) #搜索引擎模式分词
for fc in fenci:

if fc in zidian:
zidian[fc]+=1 #字典中如果存在键,键值加1,
else:
zidian.setdefault(fc,1) #字典中如果不存在键,就加入键,键值设置为1

quanzhong=jieba.analyse.extract_tags(neirong,topK=20) #计算tf-idf,输出前20的权重词。

for qg in quanzhong:
if qg in stopkey: #如果qg存在停止词stopkey里面,则pass
pass
else: #不存在的话就输出qg和出现qg的次数
print qg+","+`zidian[qg]` #输出权重词和权重词出现的次数

 

智能推荐

注意!

本站转载的文章为个人学习借鉴使用,本站对版权不负任何法律责任。如果侵犯了您的隐私权益,请联系我们删除。



 
© 2014-2019 ITdaan.com 粤ICP备14056181号  

赞助商广告