花费 1245ms 找到34条记录
机器学习算法之聚类算法Kmeans并找出最佳K值的Python实践
2018年03月02 - Kmeans聚类算法的大概流程是:①从样本中随机找出K个样本作为中心点; ②求所有样本到这些样本的距离,按照最短的进行归类; ③求每个聚类中的样本的元素的平均值,作为新的中心点; ④继续②,③,知道所
标签的字符串压缩方式及规则
2018年11月30 - # 标签的字符串压缩方式及规则 ​ 目前需要推送数亿量级的标签数据到redis中,日益增长的标签数量,使得redis的资源消耗非常快,尤其是内存资源。目前,使用了两台物理机搭建redis
Hive使用UDAF自定义聚合函数
2018年02月28 - 在使用Hive进行数据处理时,经常会用到group by语法,但对分组的合并操作,hive没有MySQL支持得好: group_concat([DISTINCT] 要连接的字段 Order BY AS
使用Hive中的UDAF实现GROUP_CONCAT函数合并ARRAY数组类型
2018年04月04 - 我们知道Hive提供了聚合连接函数concat_ws,该函数无法连接ARRAY类型。所有,在实际的开发过程中有可能需要聚合连接ARRAY类型。比如说,同一个用户的标签进行group by后,进行连接,
使用Netty实现远程方法调用(RPC)
2018年06月28 - # 使用Netty实现远程方法调用(RPC) ​ 很多情况下,我们可能需要用到调用远程方法的时候。比如,我们有统一的布隆过滤器,其它服务需要调用布隆过滤器进行判重;比如,我们需要调用统一
数据库表设计和存储(包括hbase,solr等)
2018年03月13 - ### 一、Hbase内容主表结构和操作 #### 1.1 hbase表[post]创建代码 ```mysql create 'itdaan:post',{NAME=>'a',VERSIONS=>1
网页爬虫富文本内容判重及余弦相似度判定
2018年03月12 - 我们知道很多文章爬取下来有可能是转载的,很多用户只是在文章开头和结尾加上原文的出处,这样的内容会存在很多重复的文章。 按理来说,文章与文章之间的相似度比较可以使用余弦定理来判断,但是爬虫,不可能
Java,Python,Scala三种语言开发并部署Spark的WordCount程序
2018年02月24 - # Java,Python,Scala三种语言开发并部署Spark的WordCount程序 一、Java开发并部署Spark的wordcount Java实现WordCount程序: ```ja
查询hbase映射到Hive表的诡异问题及总结
2018年11月21 - # 查询hbase映射到Hive表的诡异问题及总结 hive中hive_table表为映射到hbase中的hbase_table表,表结构如下: ```mysql CREATE EXTERNAL
Hadoop安装snappy支持
2018年05月30 - # Hadoop安装snappy支持 ​ 由于snappy协议的问题,hadoop的官方发布包不带snappy支持库,我们需要通过源码编译安装生成本地库来获取snappy特性。本文档描述了Hadoo

赞助商链接
 
© 2014-2019 ITdaan.com 粤ICP备14056181号  

赞助商广告