花费 10ms 找到47条记录
使用Google guava实现本地缓存+netty对外提供服务
2018年03月28 - 在某些情况下我们需要使用本地缓存来加载一些小型数据,比如说一些配置数据。如果去查Mysql或者redis数据库需要走网络协议。这些数据可以加载到内存随时供Java程序调用。 接下来实现的是使用goog
linux下Mysql导出数据到文件的方法
2018年03月21 - linux下Mysql导出数据到文件的方法 sql mysql h host u user P port p e select xxx from xxx where xx x xxx xxx xxx
数据库表设计和存储(包括hbase,solr等)
2018年03月13 - 一 Hbase内容主表结构和操作 . hbase表 post 创建代码 mysql create itdaan:post , NAME a ,VERSIONS , NAME b ,VERSIONS ,
网页爬虫富文本内容判重及余弦相似度判定
2018年03月12 - 我们知道很多文章爬取下来有可能是转载的,很多用户只是在文章开头和结尾加上原文的出处,这样的内容会存在很多重复的文章。 按理来说,文章与文章之间的相似度比较可以使用余弦定理来判断,但是爬虫,不可能将爬取
hbase映射表map类型过滤数据的问题
2018年03月08 - hbase映射表map类型过滤数据的问题 在试用hbase的映射表过程中,如果是映射了一个列族作为一个map类型,假如名称就叫:tags。在hbase中的数据格式大概为: json : , : , :
线性回归小结(转)
2018年03月02 - 线性回归小结 线性回归可以说是机器学习中最基本的问题类型了,这里就对线性回归的原理和算法做一个小结。 . 线性回归的模型函数和损失函数 线性回归遇到的问题一般是这样的。我们有m个样本,每个样本对应于n
Spark Standalone Cluster模式安装和配置
2018年03月02 - 手动启动一个spark集群 启动standalone的master节点 shell . sbin start master.sh 一旦启动后,master会打印一个spark的地址,例如:spark:
机器学习算法之聚类算法Kmeans并找出最佳K值的Python实践
2018年03月02 - Kmeans聚类算法的大概流程是: 从样本中随机找出K个样本作为中心点 求所有样本到这些样本的距离,按照最短的进行归类 求每个聚类中的样本的元素的平均值,作为新的中心点 继续 , ,知道所有样本再也无
Kafka原理深入解析
2018年03月02 - Kafka详解 一 Kafka简介 Kafka是一种分布式的,基于发布 订阅的消息系统。主要设计目标如下: 以时间复杂度为O 的方式提供消息持久化能力,并保证即使对TB级以上数据也能保证常数时间的访问
Hive使用UDAF自定义聚合函数
2018年02月28 - 在使用Hive进行数据处理时,经常会用到group by语法,但对分组的合并操作,hive没有MySQL支持得好: group concat DISTINCT 要连接的字段 Order BY ASC

智能推荐
 
© 2014-2019 ITdaan.com 粤ICP备14056181号  

赞助商广告