如何让100台计算机同时为你计算同一道算术题？——分布式计算Hadoop配置及实践（一）

假如你有一个比较复杂的算术题，用1台普通计算机需要计算3个月才能出结果，有什么办法可以让它能在1天内出结果呢？
比较“廉价”的方式可能是用100台普通计算机搭建一台“超级计算机”，让100台计算机同时计算，那么理论上1天就可以完成。
Apache Hadoop 是一个分布式计算框架，你只需要定义如何将一个计算任务拆分（Map）以及如何将各个分任务的结果合并（Reduce），剩下的事情比如如何协调100台计算机一起工作，如何保证即使某一台计算机中途坏掉了也不会影响整个工作等，都由 Hadoop 帮你代劳。Hadoop 同时也是一个分布式的基础架构，在其基础上有：

HDFS 分布式储存
HBase 分布式NoSQL数据库
Nutch 分布式全文搜索

等等一大堆重量级产品，这些都是构建一个大型应用所必须的基础设施。@ivarptr

这里我简单介绍基本的 Hadoop 系统的搭建方法，Hadoop 在运行时由5个程序组成：
1个NameNode，用于管理命名空间以及客户端对文件的访问；
1个JobTracker，用于调度工作以及分配任务（Task）；
1个SecondaryNameNode，用于辅助NameNode的工作；
1～N个DataNode 用于数据储存；
1～N个TaskTracker 用于执行任务，DataNode 和 TaskTracker 总是在同一台计算机里运行。

前3个程序一般是分别在三台不同的计算机里运行，为了简单起见下面的例子我会在同一台计算机里运行这3个程序，然后再另外找3台计算机运行DataNode（连同TaskTracker），一共需要4台计算机。结构图如下：

下面是详细的搭建过程

1、下载 Apache Hadoop

到这里 http://hadoop.apache.org/ 下载 HDFS，我使用的版本是 0.20.2，下载回来的一个压缩包就已经包含了上面提到的5个程序。

2、配置 Hadoop
虽然在一个典型的 Hadoop 系统里会有 4种不同角色的计算机，不过我们为了简单起见可以先在某一台计算机编辑好配置文件，然后再分发到其他计算机，这样可以避免一台台地配置浪费时间。

a、编辑 conf/hadoop-env.sh，设置正确的 JAVA_HOME 环境变量，比如
export JAVA_HOME=/usr/lib/jvm/java-6-openjdk （Ubuntu + OpenJDK）
或者
export JAVA_HOME=/usr/lib/jvm （CentOS + OpenJDK）
Tips：不知道是不是我现在使用的版本有 bug，Hadoop 在配置了IPv6的系统中会监听错网络地址，所以需要增加如下一行以屏蔽 java 的IPv6功能：
export HADOOP_OPTS=-Djava.net.preferIPv4Stack=true

b、编辑 conf/core-site.xml

<configuration>
<property>
  <name>hadoop.tmp.dir</name>
  <value>/var/lib/hadoop/hadoop-${user.name}</value>
</property>

<property>
  <name>fs.default.name</name>
  <value>hdfs://192.168.0.10:9000</value>
</property>
</configuration>

第一段设置数据的储存位置（相应的目录当前用户应该有全权限），第二段设置 namenode 服务地址，用于跟其他计算机交流。

c、编辑 conf/mapred-site.xml

<configuration>
<property>
  <name>mapred.job.tracker</name>
  <value>192.168.0.10:9001</value>
</property>
</configuration>
这段设置了 JobTracker 的服务地址。

d、编辑 conf/hdfs-site.xml

<configuration>
<property>
  <name>dfs.replication</name>
  <value>3</value>
</property>
</configuration>
这段设置一个文件数据在 Hadoop 系统里冗余多少份，一般设置为3。这样一旦有新的文件数据写入 Hadoop，系统会随机将文件分别写入到3台datanode，这样一旦系统中的某一台datanode坏掉了（比如硬盘或者主板烧了）只需要将这台计算机卸下，再连接一台新的计算机到网络即可，数据会自动复制以保证始终有3份数据。这也是分布式储存系统维护方便的原理（请忘掉硬盘阵列吧）。

e、编辑 /etc/hosts
由于 Hadoop 有时会使用 hostname 访问系统中的其他计算机，而 hostname 有时会解析错误，所以比较笨的方法是在 /etc/hosts 里增加每一台计算机的名称和IP地址。比如：
192.168.0.10 master
192.168.0.100 data001
192.168.0.101 data002
192.168.0.102 data003

3、复制已配置好的 Hadoop 到每一台计算机

首先要保证从 namenode 计算机能够使用key方式登录（即无密码登录）到其他的每一台计算机（包括1台自己和3台datanode），实现的方法是在 namenode 计算机使用 ssh-keygen 命令生成key，对于Fedora linux发行版可能还需要运行 ssh-add 命令，然后使用 ssh-copy-id 的方法把这个key复制到每一台计算机，然后你至少使用 ssh 登录一次所有计算机（包括自己）。因为这是属于 ssh 的内容，具体的方法请查阅 ssh 相关文章。
然后就可以使用 scp 命令复制配置好的 Hadoop 程序到每一台 datanode 计算机了，Hadoop 程序的存放位置必须一致，比如在 namenode 计算机中Hadoop程序位于 /usr/local/hadoop，那么其他计算机也应该存放在这里。

4、设置 namenode 特有的配置
因为我们可以在 namenode 控制所有计算机的 Hadoop 启动或者关闭，所以需要列出有哪些计算机是受控制的。
a、编辑 conf/master 文件，写入如下1行
192.168.0.10
这一行表示要启动的 secondaryNameNode 位于 192.168.0.10 这台计算机（共 nameNode 同一台）
b、编辑 conf/slaves 文件，写入如下3行
192.168.0.100
192.168.0.101
192.168.0.102
这表示当前 Hadoop 系统一共有3台datanode以及他们的IP地址。

5、格式化 namenode
这一步只需做一遍，切换到 Hadoop 程序目录，运行：
$ bin/hadoop namenode -format

6、启动 hadoop
$ bin/start-dfs.sh
这时应该看到启动了 namenode, secondaryNamenode 以及3个 datanode。
$ bin/start-mapred.sh
这时应该看到启动了 jobTracker 和 3个taskTracker。
上面的两个命令也可以用一个命令代替：bin/start-all.sh

7、测试一个分布式计算
在 Hadoop 程序目录里附带了一个统计一个文件里每个单词出现次数的示例，我们将会用它来测试。
首先你需要准备几个纯文本文件（比如有文件 /tmp/text/hello.txt 和 /tmp/text/world.txt ），把他写入到 Hadoop。
$ bin/hadoop fs -copyFromLocal /tmp/text text
这样就会在 Hadoop 里创建了一个 text 文件夹，并且把 hello.txt 和 world.txt 复制到其中了。可以运行 ls 命令查看 Hadoop 里面的文件：
$ bin/hadoop fs -ls

然后运行示例程序
$ bin/hadoop jar hadoop-0.20.2-examples.jar wordcount text text-output
运行完毕之后使用 ls 命令可以查看运行结果：
$ bin/hadoop fs -ls text-output

你可以根据示例的源码修改成自己的程序，并且运行测试一下。

8、Web 监控页面
访问 http://192.168.0.10:50070 可以查看 namenode 的总体运行情况以及已连入的 datanode 列表
访问 http://192.168.0.10:50030 可以查看 jobTracker 的运行情况以及各个 taskTracker 的运行情况和日志

9、关闭Hadoop系统
$bin/stop-all.sh

10、如何新增加一台 datanode 到系统
如果某台 datanode 重启了，为了让它重新加入 Hadoop 系统，需要在 datanode 计算机上运行：
$ bin/hadoop -daemon.sh start datanode
假如系统需要扩容或者换了一台新机器，这时需要把之前配置好的 Hadoop 复制过来，然后运行上面一行命令即可。假如新增了IP地址或者IP地址发生改变，记得还要在 conf/slaves 文件里作相应的增改。

11、遇到问题？
需要成功配置 Hadoop 可能会有些难度，因为除了程序问题之外，还牵涉网络配置以及ssh登录设置，这些都要求你对 Linux 有比较熟悉的了解。如果遇到问题，最好的解决方法是查看 Hadoop 的日志，一般来根据日志提供的线索都能把问题解决。或者 follow me @ivarptr

参考资料：
Hadoop中文文档
http://hadoop.apache.org/common/docs/r0.20.2/cn/index.html

Hadoop 命令手册
http://hadoop.apache.org/common/docs/r0.20.2/cn/commands_manual.html

Running Hadoop On Ubuntu Linux (Single-Node Cluster)
http://www.michael-noll.com/tutorials/running-hadoop-on-ubuntu-linux-single-node-cluster/

Running Hadoop On Ubuntu Linux (Multi-Node Cluster)
http://www.michael-noll.com/tutorials/running-hadoop-on-ubuntu-linux-multi-node-cluster/

Hippo notes

搜索此博客

如何让100台计算机同时为你计算同一道算术题？——分布式计算Hadoop配置及实践（一）

标签

评论

发表评论

此博客中的热门博文

Apache Cassandra 0.7 的集群配置

在家用PC里体验 FreeBSD 8.1（上）

日志工具 SLF4J 的来龙去脉