跳至主要内容

如何让100台计算机同时为你计算同一道算术题?——分布式计算Hadoop配置及实践(一)

假如你有一个比较复杂的算术题,用1台普通计算机需要计算3个月才能出结果,有什么办法可以让它能在1天内出结果呢?
比较“廉价”的方式可能是用100台普通计算机搭建一台“超级计算机”,让100台计算机同时计算,那么理论上1天就可以完成。
Apache Hadoop 是一个分布式计算框架,你只需要定义如何将一个计算任务拆分(Map)以及如何将各个分任务的结果合并(Reduce),剩下的事情比如如何协调100台计算机一起工作,如何保证即使某一台计算机中途坏掉了也不会影响整个工作等,都由 Hadoop 帮你代劳。Hadoop 同时也是一个分布式的基础架构,在其基础上有:

  • HDFS 分布式储存
  • HBase 分布式NoSQL数据库
  • Nutch 分布式全文搜索

等等一大堆重量级产品,这些都是构建一个大型应用所必须的基础设施。@ivarptr

这里我简单介绍基本的 Hadoop 系统的搭建方法,Hadoop 在运行时由5个程序组成:
1个NameNode,用于管理命名空间以及客户端对文件的访问;
1个JobTracker,用于调度工作以及分配任务(Task);
1个SecondaryNameNode,用于辅助NameNode的工作;
1~N个DataNode 用于数据储存;
1~N个TaskTracker 用于执行任务,DataNode 和 TaskTracker 总是在同一台计算机里运行。

前3个程序一般是分别在三台不同的计算机里运行,为了简单起见下面的例子我会在同一台计算机里运行这3个程序,然后再另外找3台计算机运行DataNode(连同TaskTracker),一共需要4台计算机。结构图如下:


下面是详细的搭建过程

1、下载 Apache Hadoop

到这里 http://hadoop.apache.org/ 下载 HDFS,我使用的版本是 0.20.2,下载回来的一个压缩包就已经包含了上面提到的5个程序。

2、配置 Hadoop
虽然在一个典型的 Hadoop 系统里会有 4种不同角色的计算机,不过我们为了简单起见可以先在某一台计算机编辑好配置文件,然后再分发到其他计算机,这样可以避免一台台地配置浪费时间。

a、编辑 conf/hadoop-env.sh,设置正确的 JAVA_HOME 环境变量,比如
export JAVA_HOME=/usr/lib/jvm/java-6-openjdk (Ubuntu + OpenJDK)
或者
export JAVA_HOME=/usr/lib/jvm (CentOS + OpenJDK)
Tips:不知道是不是我现在使用的版本有 bug,Hadoop 在配置了IPv6的系统中会监听错网络地址,所以需要增加如下一行以屏蔽 java 的IPv6功能:
export HADOOP_OPTS=-Djava.net.preferIPv4Stack=true

b、编辑 conf/core-site.xml

<configuration>
<property>
  <name>hadoop.tmp.dir</name>
  <value>/var/lib/hadoop/hadoop-${user.name}</value>
</property>

<property>
  <name>fs.default.name</name>
  <value>hdfs://192.168.0.10:9000</value>
</property>
</configuration>

第一段设置数据的储存位置(相应的目录当前用户应该有全权限),第二段设置 namenode 服务地址,用于跟其他计算机交流。

c、编辑 conf/mapred-site.xml

<configuration>
<property>
  <name>mapred.job.tracker</name>
  <value>192.168.0.10:9001</value>
</property>
</configuration>
这段设置了 JobTracker 的服务地址。

d、编辑 conf/hdfs-site.xml

<configuration>
<property>
  <name>dfs.replication</name>
  <value>3</value>
</property>
</configuration>
这段设置一个文件数据在 Hadoop 系统里冗余多少份,一般设置为3。这样一旦有新的文件数据写入 Hadoop,系统会随机将文件分别写入到3台datanode,这样一旦系统中的某一台datanode坏掉了(比如硬盘或者主板烧了)只需要将这台计算机卸下,再连接一台新的计算机到网络即可,数据会自动复制以保证始终有3份数据。这也是分布式储存系统维护方便的原理(请忘掉硬盘阵列吧)。

e、编辑 /etc/hosts
由于 Hadoop 有时会使用 hostname 访问系统中的其他计算机,而 hostname 有时会解析错误,所以比较笨的方法是在 /etc/hosts 里增加每一台计算机的名称和IP地址。比如:
192.168.0.10    master
192.168.0.100    data001
192.168.0.101    data002
192.168.0.102    data003

3、复制已配置好的 Hadoop 到每一台计算机

首先要保证从 namenode 计算机能够使用key方式登录(即无密码登录)到其他的每一台计算机(包括1台自己和3台datanode),实现的方法是在 namenode 计算机使用 ssh-keygen 命令生成key,对于Fedora linux发行版可能还需要运行 ssh-add 命令,然后使用 ssh-copy-id 的方法把这个key复制到每一台计算机,然后你至少使用 ssh 登录一次所有计算机(包括自己)。因为这是属于 ssh 的内容,具体的方法请查阅 ssh 相关文章。
然后就可以使用 scp 命令复制配置好的 Hadoop 程序到每一台 datanode 计算机了,Hadoop 程序的存放位置必须一致,比如在 namenode 计算机中Hadoop程序位于 /usr/local/hadoop,那么其他计算机也应该存放在这里。

4、设置 namenode 特有的配置
因为我们可以在 namenode 控制所有计算机的 Hadoop 启动或者关闭,所以需要列出有哪些计算机是受控制的。
a、编辑 conf/master 文件,写入如下1行
192.168.0.10
这一行表示要启动的 secondaryNameNode 位于 192.168.0.10 这台计算机(共 nameNode 同一台)
b、编辑 conf/slaves 文件,写入如下3行
192.168.0.100
192.168.0.101
192.168.0.102
这表示当前 Hadoop 系统一共有3台datanode以及他们的IP地址。

5、格式化 namenode
这一步只需做一遍,切换到 Hadoop 程序目录,运行:
$ bin/hadoop namenode -format

6、启动 hadoop
$ bin/start-dfs.sh
这时应该看到启动了 namenode, secondaryNamenode 以及3个 datanode。
$ bin/start-mapred.sh
这时应该看到启动了 jobTracker 和 3个taskTracker。
上面的两个命令也可以用一个命令代替:bin/start-all.sh

7、测试一个分布式计算
在 Hadoop 程序目录里附带了一个统计一个文件里每个单词出现次数的示例,我们将会用它来测试。
首先你需要准备几个纯文本文件(比如有文件 /tmp/text/hello.txt 和 /tmp/text/world.txt ),把他写入到 Hadoop。
$ bin/hadoop fs -copyFromLocal /tmp/text text
这样就会在 Hadoop 里创建了一个 text 文件夹,并且把 hello.txt 和 world.txt 复制到其中了。可以运行 ls 命令查看 Hadoop 里面的文件:
$ bin/hadoop fs -ls

然后运行示例程序
$ bin/hadoop jar hadoop-0.20.2-examples.jar wordcount text text-output
运行完毕之后使用 ls 命令可以查看运行结果:
$ bin/hadoop fs -ls text-output

你可以根据示例的源码修改成自己的程序,并且运行测试一下。

8、Web 监控页面
访问 http://192.168.0.10:50070 可以查看 namenode 的总体运行情况以及已连入的 datanode 列表
访问 http://192.168.0.10:50030 可以查看 jobTracker 的运行情况以及各个 taskTracker 的运行情况和日志

9、关闭Hadoop系统
$bin/stop-all.sh

10、如何新增加一台 datanode 到系统
如果某台 datanode 重启了,为了让它重新加入 Hadoop 系统,需要在 datanode 计算机上运行:
$ bin/hadoop -daemon.sh start datanode
假如系统需要扩容或者换了一台新机器,这时需要把之前配置好的 Hadoop 复制过来,然后运行上面一行命令即可。假如新增了IP地址或者IP地址发生改变,记得还要在 conf/slaves 文件里作相应的增改。

11、遇到问题?
需要成功配置 Hadoop 可能会有些难度,因为除了程序问题之外,还牵涉网络配置以及ssh登录设置,这些都要求你对 Linux 有比较熟悉的了解。如果遇到问题,最好的解决方法是查看 Hadoop 的日志,一般来根据日志提供的线索都能把问题解决。或者 follow me @ivarptr

参考资料:
Hadoop中文文档
http://hadoop.apache.org/common/docs/r0.20.2/cn/index.html

Hadoop 命令手册
http://hadoop.apache.org/common/docs/r0.20.2/cn/commands_manual.html


Running Hadoop On Ubuntu Linux (Single-Node Cluster)
http://www.michael-noll.com/tutorials/running-hadoop-on-ubuntu-linux-single-node-cluster/

Running Hadoop On Ubuntu Linux (Multi-Node Cluster)
http://www.michael-noll.com/tutorials/running-hadoop-on-ubuntu-linux-multi-node-cluster/

评论

此博客中的热门博文

一个人用的 Git

Git 是目前比较时髦的版本控制系统,虽然 linux 内核源码是使用它来管理的,但系统非常小巧而且使用简单,比起 svn (subversion) 系统,git 有一个明显的优势就是在不联网的情况下也可以查阅或者回滚历史版本,有时带着笔记本出外工作这个功能是非常有用的。下面介绍一下用 Git 管理个人电脑上的个人文档文件。(@ivarptr)

这篇文章有几个假设前提:
a、你从事的工作有很多文档需要书写或者整理,而且文档篇幅比较大需要经常修修改改,有时还可能需要回档(即恢复到历史的某个版本)。
b、你的文档具有关联性的,比如一个项目策划书,有多份文本文档、电子表格、图片,希望平时能整体记录一个版本(快照)。
c、你有多台工作用的电脑,为了简单起见,下文假设只有两台电脑。
d、你有一台能够在互联网上访问的服务器,最好是跑 linux 系统而且有 ssh 登录权限。
e、为了简明,省略了安全权限设置和Git最为突出的特性“分支”。

1、几个必须厘清的概念
a、svn只有一个远程仓库集中管理所有的版本,而Git分有“本地仓库”和“远程仓库”之分,在提交你的最新文档过程中,需要两层提交,一次是提交到本地仓库,然后才可以提交到远程仓库。
b、svn的远程仓库保存的总是全局最新的版本,各个支点(小组成员)必须对此仓库负责。而Git则没有集中远程仓库之说,理论上每个人的地位是平等的,同时每个人的本地仓库也可以配置为给他人访问的“远程仓库”。不过对于个人或者一个小团队来说,为了简便起见我们通常会协商好让某个远程服务器上的仓库保持最新并且集中管理,这点跟Svn类似。
c、svn的每次提交会产生一个递增的数字作为版本号码,而git每次提交会产生一个“快照”,快照不是用一个递增的数字作为名称的,而是一个hash值,当然用一个hash值来呼叫某一次提交也太累赘了,所以在实际应用过程中我们往往只用hash指的头4~6位就可以了(类似一个人的昵称)。

2、在服务器上创建 Git 仓库
关于在 linux 系统里如何安装 Git 程序可以参考这篇《在CentOS 5.5里安装Git以及搭建Git服务器最简单教程》,要记住 Git 程序是不区分服务端或客户端的。

首先我们要创建一个Git仓库,使用 ssh 登录到你的服务器,在用户home文件夹里创建一个文件夹,为了容易识别,最好在文件夹名字后面加一…

修改CentOS Linux 的 SSH服务默认设置,提高系统安全性

最近登录一台CentOS Linux(5.5)服务器发现 /var/log/secure 文件出奇巨大,查看其中的记录发现原来不断有人试图穷举服务器的帐号密码,幸好当时 root 密码设置非常复杂,否则可能早就被人攻陷了。(ps:那台服务器平时只做对内的服务,从没在公网上暴露过,看来即使这样的服务器也不能掉以轻心啊)接着使用 netstat -nat 查看网络连接发现扫描器仍在乐此不彼地工作,所以决定还是更改 ssh 服务的默认设置。

步骤如下


1、禁用 root 的 ssh 远程登录
这步我觉得很有必要,因为扫描器一般都是冲着这个帐号过来的。修改 /etc/ssh/sshd_config 文件里的 PermitRootLogin 一行的值为 no 即可。不过要注意在禁用 root 的 ssh 登录之前一定要确定服务器内还有其他帐号可以远程登录,否则你的服务器自己也别想进去了。所以比较妥当的方法是建立一个普通的帐号,并把它加入到 wheel 组,
然后在 /etc/sudoers 里启用 wheel 组的 sudo 功能,再禁用 root 的远程登录。

2、设置登录密码输入的等待时间和最大重试次数
还是修改  /etc/ssh/sshd_config 文件,找到 LoginGraceTime 和 MaxAuthTries 两行,分别设置为 30 和 3,则表示打开ssh连接之后你要在30秒内输入正确的密码否则断开连接,以及密码最多给重试 3 次。

3、重启 sshd 服务,这次 secure log 终于平静下来了

一些对安全有益的心得

1、平时 ssh 登录尽量避免密码输入方式,应该采用验证钥匙方式登录,如果客户端也是 linux 系统,则这步骤很简单,先 ssh-keygen -C 'yang@home' 创建一个验证钥匙,然后使用 ssh-copy-id somebody@host.domain 把钥匙复制到服务器上,这样以后 ssh 登录就再也不用输入密码了。对于客户端是 windows 和 mac os 系统的估计也有相类似的工具,具体的操作不太清楚。

2、审视一下 /etc/passwd 文件,看看有没有平时不会直接登录帐号,比如有时安装某些软件会自动创建一些帐号,对于这类帐号赶快把最后一段 /bin/bash 改为 /sbin/nologin 吧…

在家用PC里体验 FreeBSD 8.1(上)

FreeBSD (http://www.freebsd.org/) 是一个开源免费的操作系统,最早接触FreeBSD是约7年前在 @hplcsz 挂bbs的服务器,后来很少关注了,最近接触到 Apple 的 MacOS 和 iOS (基于FreeBSD衍生出来的操作系统)联想起FreeBSD项目,才发现它已经更新到8.1版了。
恰好家里多出一台电脑暂时没有用,于是尝试用FreeBSD 8.1配置一台适合家用的电脑(用来看看新闻灌灌水的那种),于是有了如下一篇文章。
(注:这里假设读者已经有一定的Linux/BSD基础)

首先访问 FreeBSD 项目的官方网站,下载 FreeBSD 8.1的安装镜像文件(ftp://ftp.freebsd.org/pub/FreeBSD/releases/i386/ISO-IMAGES/8.1/),这里提供CD版、DVD版和U盘版,考虑到我有DVD刻录机,所以下载了DVD版。

下载过程是一个漫长的等待,期间强烈推荐阅读一下官方的《FreeBSD使用手册》(中文版,以下简称《使用手册》)(http://www.freebsd.org/doc/zh_CN.GB2312/books/handbook/index.html),如果对Linux/BSD不是很熟悉,前3章是很有必要阅读的,否则会被折腾到2012年。等待DVD镜像下载完,大概已经看到第10章了。

1、安装 FreeBSD 8.1
刻录下载回来的DVD镜像文件,从光驱启动然后选择“Quick模式”即开始安装过程。结合《使用手册》一般没有多大问题,因为这篇文章重点是如何搭建家用PC的环境,所以具体的安装过程这里就省略了。小技巧:

A、FreeBSD 必须安装在主分区,在安装之前你必须腾出一个至少10来GB的主分区。
B、当安装问你是否安装“Ports(相当于软件商店、软件中心)”时,要选择“YES”。
C、当安装接近完成时,程序会问你 “Would you like to browse the collection now?“,这一步是问你是否安装DVD上附带的软件,选择Yes,然后把下面这两个大块头选中,这样能避免从网络下载桌面环境的安装文件,节省时间和网络流量,减低碳排放:
+ X11/xorg-7.5
+ gnome/gnome2-2.30.1-1

2、基础网络设置
系统安装好之后,重…