花费 24ms 找到24条记录
1 linux下Mysql导出数据到文件的方法
2018年03月21 - linux下Mysql导出数据到文件的方法 ```sql mysql -h host -u user -P port -p -e 'select xxx from xxx where xx = x' < /xxx/xxx/xxx/sss.txt ``` 导出到文件,如果有多个字段的话,可以使用con
2 hbase映射表map类型过滤数据的问题
2018年03月08 - #### hbase映射表map类型过滤数据的问题 在试用hbase的映射表过程中,如果是映射了一个列族作为一个map类型,假如名称就叫:tags。在hbase中的数据格式大概为: ```json {"123":"1","234":"1","345":"1"} # 123,234,345 是列名 1
3 Hadoop安装snappy支持
2018年05月30 - # Hadoop安装snappy支持 ​ 由于snappy协议的问题,hadoop的官方发布包不带snappy支持库,我们需要通过源码编译安装生成本地库来获取snappy特性。本文档描述了Hadoop集群源码编译安装snappy本地库、Hadoop集群如何使用snappy压缩以及总体效果测试情况。
4 Java,Python,Scala三种语言开发并部署Spark的WordCount程序
2018年02月24 - # Java,Python,Scala三种语言开发并部署Spark的WordCount程序 一、Java开发并部署Spark的wordcount Java实现WordCount程序: ```java package com.spark.wordcount; import java.util.
5 数据库表设计和存储(包括hbase,solr等)
2018年03月13 - ### 一、Hbase内容主表结构和操作 #### 1.1 hbase表[post]创建代码 ```mysql create 'itdaan:post',{NAME=>'a',VERSIONS=>1},{NAME=>'b',VERSIONS=>1},{SPLITS=>['01','02','03'
6 使用Hive中的UDAF实现GROUP_CONCAT函数合并ARRAY数组类型
2018年04月04 - 我们知道Hive提供了聚合连接函数concat_ws,该函数无法连接ARRAY类型。所有,在实际的开发过程中有可能需要聚合连接ARRAY类型。比如说,同一个用户的标签进行group by后,进行连接,并去重。 所以,借助于Hive的UDAF函数,我们实现类似的临时函数功能。 废话不多说,直接
7 Hive使用UDAF自定义聚合函数
2018年02月28 - 在使用Hive进行数据处理时,经常会用到group by语法,但对分组的合并操作,hive没有MySQL支持得好: group_concat([DISTINCT] 要连接的字段 Order BY ASC/DESC 排序字段 Separator '分隔符' hive只有一个collect_set内置
8 hbase使用文件快速导入数据
2018年09月11 - 1,mapreduce处理数据 ```shell hbase org.apache.hadoop.hbase.mapreduce.ImportTsv -Dimporttsv.separator="," -Dimporttsv.bulk.output=/data/test_file -Dimportt
9 网页爬虫富文本内容判重及余弦相似度判定
2018年03月12 - 我们知道很多文章爬取下来有可能是转载的,很多用户只是在文章开头和结尾加上原文的出处,这样的内容会存在很多重复的文章。 按理来说,文章与文章之间的相似度比较可以使用余弦定理来判断,但是爬虫,不可能将爬取到每一篇文章都在库中进行一次相似度比较。这就需要我们找到与库中有相同特点的文章再使用定理进行判
10 使用Netty实现远程方法调用(RPC)
2018年06月28 - # 使用Netty实现远程方法调用(RPC) ​ 很多情况下,我们可能需要用到调用远程方法的时候。比如,我们有统一的布隆过滤器,其它服务需要调用布隆过滤器进行判重;比如,我们需要调用统一的缓存数据;比如我们需要跨机器调用一些服务方法等等。这些时候都可以使用远程方法调用。 ​

 
© 2014-2018 ITdaan.com 粤ICP备14056181号