花费 280ms 找到72条记录
Python3.5 数据处理 --jieba + sklearn库安装及第一个示例 繁体
2017年03月23 - 一,安装pip : 二,安装jieba: 三,安装sklearn: 四,安装sklearn依赖 numpy,scipy : eg:国内安装时可能出现time out错误 解决办法如下: 五,简单实现分

Spark应用HanLP对中文语料进行文本挖掘--聚类 繁体
2017年08月25 - 软件:IDEA Maven HanLP JDK 用到的知识:HanLP Spark TF IDF Spark kmeans Spark mapPartition 用到的数据集:http: www.th

《机器学习系统设计》之应用scikit-learn做文本分类(上) 繁体
2015年08月12 - 前言: nbsp nbsp 本系列是在作者学习 机器学习系统设计 美 WilliRichert 过程中的思考与实践,全书通过Python从数据处理,到特征工程,再到模型选择,把机器学习解决问题的过程一

文本向量化及词袋模型 - NLP学习(3-1) 繁体
2019年02月11 - 分词 Tokenization NLP学习 N grams模型 停顿词 stopwords 和标准化处理 NLP学习 nbsp 之前我们都了解了如何对文本进行处理: 如用NLTK文本处理库将文本的句子

《数学之美》阅读笔记之Google搜索技术浅析 繁体
2014年12月21 - 博主虽然学计算机出身,惭愧的是对计算机的许多方向都不了解。决定从现在开始,多读书,对各个方向都看一看。刚看完数学之美这本书,介绍了许多数学原理在计算机行业的应用。博主想简单总结一下,本篇主要围绕搜索引

信息检索中的经典算法——BM25 繁体
2010年10月25 - BM Best Match 是在信息检索系统中根据提出的query对document进行评分的算法。它主要由Stephen E. Robertson, Karen Sp rck Jones等人在上世纪

Spark特征提取---TF-IDF 繁体
2017年05月11 - 词频 Term Frequency,缩写为TF 在一篇文档中出现次数最多的词是 quot 的 quot quot 是 quot quot 在 quot 这一类最常用的词。它们叫做 quot 停用词 q

关键词抽取(keywords extraction)的相关研究 繁体
2016年10月26 - http: orange lpai.iteye.com blog 现有上线的关键词提取算法 nbsp . 语言特征 位置特征,如标题中的名词 nbsp . 对正文 标题的文本构造PAT,然后从中计算字

VSM(Vector Space Model)常用向量值计算:TF-IDF 繁体
2014年12月30 - TF IDF TF 只针对一篇文章计算 : TF t, d 某个词 t 在 本篇文章 d 中的出现次数 由于文章有长有短,最好进行TF标准化: TF t, d 某个词 t 在 本篇文章 d 中的出现次

《数学之美》XI笔记——如何确定网页和查询的相关性 繁体
2017年12月17 - 今天,由于商业搜索引擎已经有了大量的用户点击数据,因此对搜索相关性贡献最大的是根据用户常见搜索点击网页的结果得到的概率模型,但除了用户点击的数据以外,都可以归纳为一下四类: 完备的索引。如果没有索引,


 
粤ICP备14056181号  © 2014-2020 ITdaan.com