花费 163ms 找到17878条记录
1 关于hadoop2.4下,使用hbase包冲突问题
2014年10月10 - 最近,将之前写的hbase接口由hadoop1.2换成了2.4,将服务器上所有的hbase包都拷到本地,不停的出现各种奇怪问题,今天花了一下午时间,整理了一下hbase在hadoop2.4下的包,俱体需要如下: commons-codec-1.7.jar commons-collectio
2 Hadoop中namenode和datanode是否可以共存问题
2014年09月16 - 刚刚开始学习hadoop,但是手头只有两台机器可供搭建实验环境。搭建好后,访问50070端口观察整个HDFS,发现namenode只有一个,也就是配置文件slave中指定的那个。如图。 后来翻看了一下配置发文件,发现也就slave文件能指定datanode,所以讲
3 【hadoop2.6.0】通过代码运行程序流程
2014年12月27 - 之前跑了一下hadoop里面自带的例子,现在顺一下如何通过源代码来运行程序。我懒得装eclipse,就全部用命令行了。整体参考官网上的:http://hadoop.apache.org/docs/r2.6.0/hadoop-mapreduce-client/hadoop-mapreduce-clie
4 Hadoop 3.0.0-alpha2安装(三)之Python编写MapReduce
2017年04月05 - 4.5.4 Python编写MapReduce# mkdir -p /data/test && cd /data/test# vim input.txtfoo foo quux labs foo bar quux abx bar see you bytest welco
5 用Hadoop1.0.3实现KMeans算法
2016年06月08 - 从理论上来讲用MapReduce技术实现KMeans算法是很Natural的想法:在Mapper中逐个计算样本点离哪个中心最近,然后Emit(样本点所属的簇编号,样本点);在Reducer中属于同一个质心的样本点在一个链表中,方便我们计算新的中心,然后Emit(质心编号,质心)。但是技术上的事并没有
6 Ubuntu16.04的Hadoop2.7.3安装HBase学习
2017年05月02 - 分布式数据库HBase 本文有参考厦门大学数据库,表示感谢。 http://dblab.xmu.edu.cn/blog/install-hbase/ 作者:秦景坤 时间:2017-4-28 HBase介绍 HBase是一个分布式的、面向列的开源数据库,源于Google的一篇论文《Big
7 原创hadoop2.6集群环境搭建
2016年09月23 - 三台机器: Hmaster 172.168.2.3、Hslave1 172.168.2.4、Hslave2 172.168.2.6 JDK:1.8.49 OS:red hat 5.4 64 (由于后期发现有一些由于系统lib库版本太低、python版本太低、java运行环境版本太低等问
8 spark和hadoop对比分析
2013年05月23 - 尽管Hadoop在分布式数据分析领域备受瞩目,但还是有其他选择比典型的Hadoop平台更具优势。最近很多人都在讨论Spark这个貌似通用的分布式计算模型,国内很多机器学习相关工作者都在研究和使用它。Spark是一种可伸缩(scalable)的基于内存计算(In-Memory Computing
9 Hadoop HA高可用性架构和演进分析
2014年10月18 - 1.概况 截至目前,Apache Hadoop版本分为两代,我们将第一代Hadoop称为Hadoop 1.0,第二代Hadoop称为Hadoop 2.0。前者主要有如下几种实现方式:1)社区版本基于Secondary namenode机制来定时备份HDFS metadata元数据信息
10 Hadoop中Map端shuffle过程及源码解析
2017年02月08 - 这张是官方对Shuffle过程的描述。但我可以肯定的是,单从这张图你基本不可能明白Shuffle的过程,因为它与事实相差挺多,细节也是错乱的。后面我会具体描述Shuffle的事实情况,所以这里你只要清楚Shuffle的大致范围就成-怎样把map task的输出结果有效地传送到reduc

 
© 2014-2019 ITdaan.com 粤ICP备14056181号