花费 392ms 找到33条记录
1 hbase映射表map类型过滤数据的问题
2018年03月08 - #### hbase映射表map类型过滤数据的问题 在试用hbase的映射表过程中,如果是映射了一个列族作为一个map类型,假如名称就叫:tags。在hbase中的数据格式大概为: ```json {"123":"1","234":"1","345":"1"} # 123,234,345 是列名 1
2 标签的字符串压缩方式及规则
2018年11月30 - # 标签的字符串压缩方式及规则 ​ 目前需要推送数亿量级的标签数据到redis中,日益增长的标签数量,使得redis的资源消耗非常快,尤其是内存资源。目前,使用了两台物理机搭建redis集群,redis可以使用的内存约120g。最近有需求需要推送30天内的带数值频繁更变的标签,标签的数
3 使用Netty实现远程方法调用(RPC)
2018年06月28 - # 使用Netty实现远程方法调用(RPC) ​ 很多情况下,我们可能需要用到调用远程方法的时候。比如,我们有统一的布隆过滤器,其它服务需要调用布隆过滤器进行判重;比如,我们需要调用统一的缓存数据;比如我们需要跨机器调用一些服务方法等等。这些时候都可以使用远程方法调用。 ​
4 Hbase备份和还原
2018年07月02 - hbase表备份 /data/soft/hbase/bin/hbase org.apache.hadoop.hbase.mapreduce.Export itdaan:org file:///data1/hbase/org/ hbase表还原 /data/soft/hbase/bin/hba
5 Spark Standalone Cluster模式安装和配置
2018年03月02 - ### 1、手动启动一个spark集群 启动standalone的master节点 ```shell ./sbin/start-master.sh ``` 一旦启动后,master会打印一个spark的地址,例如:spark://HOST:PORT。这个地址可以作为SparkContext的m
6 Java,Python,Scala三种语言开发并部署Spark的WordCount程序
2018年02月24 - # Java,Python,Scala三种语言开发并部署Spark的WordCount程序 一、Java开发并部署Spark的wordcount Java实现WordCount程序: ```java package com.spark.wordcount; import java.util.
7 爬虫逻辑及数据存储
2018年02月24 - # 爬虫逻辑及数据存储 #### hbase表结构 ```mysql create 'itdaan:post',{NAME=>'a',VERSIONS=>1},{NAME=>'b',VERSIONS=>1},{SPLITS=>['01','02','03','04','05','06','07'
8 网页爬虫富文本内容判重及余弦相似度判定
2018年03月12 - 我们知道很多文章爬取下来有可能是转载的,很多用户只是在文章开头和结尾加上原文的出处,这样的内容会存在很多重复的文章。 按理来说,文章与文章之间的相似度比较可以使用余弦定理来判断,但是爬虫,不可能将爬取到每一篇文章都在库中进行一次相似度比较。这就需要我们找到与库中有相同特点的文章再使用定理进行判
9 机器学习之逻辑回归算法的算法代码及应用场景
2018年06月01 - ### 应用场景 1. 点击率/转换率预估 PCTR 和 PCVR 2. 查找look-alike人群(通过一部分人群的特征查找另外一部分人) scala实现的逻辑回归算法: ```scala import java.text.SimpleDateFormat import java.util
10 SCALA一些集合类型语法,+,++,+:,:+,++:,:++,::,:::等,防止踩坑
2018年09月10 - ### 1、不可变数组操作 ```scala //======================使用val定义数组============================ //定义一个定长数组,长度为10,初始化为null val strArr = Array[String](10) //给第一个元

 
© 2014-2019 ITdaan.com 粤ICP备14056181号