花费 23ms 找到41条记录
31 机器学习算法之聚类算法Kmeans并找出最佳K值的Python实践
2018年03月02 - Kmeans聚类算法的大概流程是:①从样本中随机找出K个样本作为中心点; ②求所有样本到这些样本的距离,按照最短的进行归类; ③求每个聚类中的样本的元素的平均值,作为新的中心点; ④继续②,③,知道所有样本再也无法找到新的聚类,就算完成。 ### 一、接下来使用Numpy实现python代码,测试
32 Kafka原理深入解析
2018年03月02 - # Kafka详解 ## 一、Kafka简介 Kafka是一种分布式的,基于发布/订阅的消息系统。主要设计目标如下: - 以时间复杂度为O(1)的方式提供消息持久化能力,并保证即使对TB级以上数据也能保证常数时间的访问性能 - 高吞吐率。即使在非常廉价的商用机器上也能做到单机支持每秒100K条
33 Hive使用UDAF自定义聚合函数
2018年02月28 - 在使用Hive进行数据处理时,经常会用到group by语法,但对分组的合并操作,hive没有MySQL支持得好: group_concat([DISTINCT] 要连接的字段 Order BY ASC/DESC 排序字段 Separator '分隔符' hive只有一个collect_set内置
34 Java,Python,Scala三种语言开发并部署Spark的WordCount程序
2018年02月24 - # Java,Python,Scala三种语言开发并部署Spark的WordCount程序 一、Java开发并部署Spark的wordcount Java实现WordCount程序: ```java package com.spark.wordcount; import java.util.
35 爬虫逻辑及数据存储
2018年02月24 - # 爬虫逻辑及数据存储 #### hbase表结构 ```mysql create 'itdaan:post',{NAME=>'a',VERSIONS=>1},{NAME=>'b',VERSIONS=>1},{SPLITS=>['01','02','03','04','05','06','07'
36 大数据平台搭建之SQOOP安装和使用
2018年02月24 - #大数据平台搭建之SQOOP安装和使用 [TOC] ##1.安装准备 去sqoop官网下载1.99.7版本,由于与1.43以下版本差异很大,这里简称sqoop2,上传到namenode(最好放在hadoop集群上)所在节点。 ##2.安装配置 将软件包解压到安装目录/data0/soft/。 修改
37 查询hbase映射到Hive表的诡异问题及总结
2018年02月24 - # 查询hbase映射到Hive表的诡异问题及总结 hive中dmp_device_info为映射到hbase中的dmp:device_info表,表结构如下: ```mysql CREATE EXTERNAL TABLE if not exists dmp_device_info(
38 大数据平台搭建之Hbase安装
2018年02月24 - #大数据平台搭建之Hbase安装 [TOC] ##1.1 Hbase下载 ​ 到官网下载Hbase1.2.6版本 ##1.2 安装配置 ​ 将Hbase1.2.6安装包解压到/data0/soft目录下 ​ 配置环境变量(略) ​ 修改所有
39 Redis安装详细手册
2018年02月24 - # Redis安装手册 [TOC] ## 1.安装文件 本例安装版本为redis4.0,下载好以下安装文件: redis-4.0.0.rc1.gem redis-4.0.2.tar.gz ruby-2.4.2.tar.gz 这里使用两台主机搭建redis集群,30.16.95.138、
40 Hadoop 集群环境安装手册
2018年02月10 - # Hadoop 集群环境安装手册 [TOC] ## 一、JDK安装 ### 1.1 JDK1.8下载 ​ 到oracle官网下载[jdk-8u101-linux-x64.tar.gz](http://download.oracle.com/otn-pub/java/jdk/8u101-b14/

 
© 2014-2019 ITdaan.com 粤ICP备14056181号