花费 103ms 找到30条记录
1 使用Hive中的UDAF实现GROUP_CONCAT函数合并ARRAY数组类型
2018年04月04 - 我们知道Hive提供了聚合连接函数concat_ws,该函数无法连接ARRAY类型。所有,在实际的开发过程中有可能需要聚合连接ARRAY类型。比如说,同一个用户的标签进行group by后,进行连接,并去重。 所以,借助于Hive的UDAF函数,我们实现类似的临时函数功能。 废话不多说,直接
2 centos安装squid简单步骤搭建代理服务器
2018年04月14 - 一、系统环境 操作系统:CentOS release 6.7 (Final) SELINUX=disabled HTTP Service: stoped 二、安装Squid服务 2.1 检查squid软件是否安装 ```shell rpm -qa|grep squid ``` 2.2 如果未安装,
3 使用Google guava实现本地缓存+netty对外提供服务
2018年03月28 - 在某些情况下我们需要使用本地缓存来加载一些小型数据,比如说一些配置数据。如果去查Mysql或者redis数据库需要走网络协议。这些数据可以加载到内存随时供Java程序调用。 接下来实现的是使用google的guava实现本地缓存,另外需要提供给其它服务使用的话,还可以使用netty对外发布服务
4 Hive使用UDAF自定义聚合函数
2018年02月28 - 在使用Hive进行数据处理时,经常会用到group by语法,但对分组的合并操作,hive没有MySQL支持得好: group_concat([DISTINCT] 要连接的字段 Order BY ASC/DESC 排序字段 Separator '分隔符' hive只有一个collect_set内置
5 scala访问redis数据库代码实现
2018年05月15 - 首先添加jedis的jar: ```xml redis.clients jedis 2.7.3 ``` 接下来就是直接贴代码了,请看如下scala class,非常简单: ```java import java.util import x.x.x.x.Redis
6 机器学习算法之聚类算法Kmeans并找出最佳K值的Python实践
2018年03月02 - Kmeans聚类算法的大概流程是:①从样本中随机找出K个样本作为中心点; ②求所有样本到这些样本的距离,按照最短的进行归类; ③求每个聚类中的样本的元素的平均值,作为新的中心点; ④继续②,③,知道所有样本再也无法找到新的聚类,就算完成。 ### 一、接下来使用Numpy实现python代码,测试
7 逻辑回归算法的应用:LookAlike人群扩散的基本流程
2018年06月05 - ##### LookAlike按照字面上的意思大概就是,寻找相似特征的用户。 ![](http://image.techweb.com.cn/upload/roll/2017/07/18/201707189116_7181.jpg) 例如:广告主给了我们一批购买了宝马汽车的用户,需要我们找到更多有购
8 爬虫逻辑及数据存储
2018年02月24 - # 爬虫逻辑及数据存储 #### hbase表结构 ```mysql create 'itdaan:post',{NAME=>'a',VERSIONS=>1},{NAME=>'b',VERSIONS=>1},{SPLITS=>['01','02','03','04','05','06','07'
9 Java,Python,Scala三种语言开发并部署Spark的WordCount程序
2018年02月24 - # Java,Python,Scala三种语言开发并部署Spark的WordCount程序 一、Java开发并部署Spark的wordcount Java实现WordCount程序: ```java package com.spark.wordcount; import java.util.
10 Spark Standalone Cluster模式安装和配置
2018年03月02 - ### 1、手动启动一个spark集群 启动standalone的master节点 ```shell ./sbin/start-master.sh ``` 一旦启动后,master会打印一个spark的地址,例如:spark://HOST:PORT。这个地址可以作为SparkContext的m

 
© 2014-2019 ITdaan.com 粤ICP备14056181号