跳至主要内容

博文

创建了新的博客 archboy.org

为了便于书写和交流,我又新建了一个博客 Archboy,博客以 Linux 技术和软件开发技术为主。那么这里以后就成为备份和发牢骚的地方了 :)

赶快拿起鼠标点击 http://archboy.org/
最新博文

Apache Cassandra 0.7 的集群配置

Hadoop/HBase 一样,Apache Cassandra 也是 NoSQL 产品中最为重要的成员之一,跟 HBase 相比,因为 Cassandra 使用了一种去中心化的模式(类似memcached集群), 使用 Cassandra 搭建 NoSQL 集群更为简单容易,特别是在 0.7 版本之后,下面简述使用 Cassandra 0.7 搭建一个集群。@ivarptr

前提条件
a、准备3台或以上的计算机。下面假设有3台运行Linux操作系统的计算机,局域网的IP地址分别为 192.168.0.100, 192.168.0.101 和 192.168.0.102。
b、Java 1.6。
c、到这里下载 0.7.x 版本的Cassandra 二进制发行包。

1、基本配置

挑选其中的一台机开始配置,先展开 cassandra 发行包:
$ tar -zxvf apache-cassandra-$VERSION.tar.gz
$ cd apache-cassandra-$VERSION

其中的 conf/cassandra.yaml 文件为主要配置文件,由于 0.7 版不再采用XML格式配置文件,如果对 YAML 格式不熟悉的话最好先到这里了解一下。

Cassandra 在配置文件里默认设定了几个目录:

data_file_directories: /var/lib/cassandra/data
commitlog_directory: /var/lib/cassandra/commitlog
saved_caches_directory: /var/lib/cassandra/saved_caches

data_file_directories 可以一次同时设置几个不同目录,cassandra 会自动同步所有目录。另外在日志配置文件 log4j-server.properties 也有一个默认设定日志文件的目录:
log4j.appender.R.File=/var/log/cassandra/system.log

一般情况下采用默认的配置即可,除非你有特殊的数据储存要求,所以现在有两种方案:一是按照默认配置创建相关的目录,二是修改配置文件采用自己指定的目录。
下面为了简单起见采用第一种方案:

$ sudo mkdir -p /var/log/cassand…

如何在应用程序里使用 Hadoop HDFS ——分布式计算Hadoop配置及实践(二)

上一篇讲到 Hadoop 的配置,我们在搭建分布式计算系统的同时也已经搭建好分布式储存系统了。下面简述如何在应用程序(可以是 Console Application,也可以是 Web Application)调用 Hadoop HDFS。

我们除了可以使用 Hadoop 命令行管理里面的文件和目录之外,也可以通过 Hadoop API 管理。

1、先创建一个Java Application (Console) 程序,然后引用 hadoop-core-0.20.2.jar ,因为这个包同时引用非常多其他包,所以最好使用 Maven 引用这个包。

2、在项目根目录创建 core-site.xml :

<?xml version="1.0"?>
<configuration>
<property>
  <name>fs.default.name</name>
  <value>hdfs://192.168.0.10:9000</value>
</property>
</configuration>

程序会自动寻找 CLASS_PATH 里面的 core-site.xml 文件,假如缺少这个文件的话,程序会使用本地文件系统。

3、创建 Helloworld.java:


import java.io.IOException;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FSDataInputStream;
import org.apache.hadoop.fs.FSDataOutputStream;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;


public class HelloWorld {


public static void main(String[] args) {
try {
HelloWorld helloWorld = new HelloWorld();
helloWorld.run();
} catch (IOException e) {
e.printStackTra…

如何让100台计算机同时为你计算同一道算术题?——分布式计算Hadoop配置及实践(一)

假如你有一个比较复杂的算术题,用1台普通计算机需要计算3个月才能出结果,有什么办法可以让它能在1天内出结果呢?
比较“廉价”的方式可能是用100台普通计算机搭建一台“超级计算机”,让100台计算机同时计算,那么理论上1天就可以完成。
Apache Hadoop 是一个分布式计算框架,你只需要定义如何将一个计算任务拆分(Map)以及如何将各个分任务的结果合并(Reduce),剩下的事情比如如何协调100台计算机一起工作,如何保证即使某一台计算机中途坏掉了也不会影响整个工作等,都由 Hadoop 帮你代劳。Hadoop 同时也是一个分布式的基础架构,在其基础上有:

HDFS 分布式储存HBase 分布式NoSQL数据库Nutch 分布式全文搜索
等等一大堆重量级产品,这些都是构建一个大型应用所必须的基础设施。@ivarptr

这里我简单介绍基本的 Hadoop 系统的搭建方法,Hadoop 在运行时由5个程序组成:
1个NameNode,用于管理命名空间以及客户端对文件的访问;
1个JobTracker,用于调度工作以及分配任务(Task);
1个SecondaryNameNode,用于辅助NameNode的工作;
1~N个DataNode 用于数据储存;
1~N个TaskTracker 用于执行任务,DataNode 和 TaskTracker 总是在同一台计算机里运行。

前3个程序一般是分别在三台不同的计算机里运行,为了简单起见下面的例子我会在同一台计算机里运行这3个程序,然后再另外找3台计算机运行DataNode(连同TaskTracker),一共需要4台计算机。结构图如下:


下面是详细的搭建过程

1、下载 Apache Hadoop

到这里 http://hadoop.apache.org/ 下载 HDFS,我使用的版本是 0.20.2,下载回来的一个压缩包就已经包含了上面提到的5个程序。

2、配置 Hadoop
虽然在一个典型的 Hadoop 系统里会有 4种不同角色的计算机,不过我们为了简单起见可以先在某一台计算机编辑好配置文件,然后再分发到其他计算机,这样可以避免一台台地配置浪费时间。

a、编辑 conf/hadoop-env.sh,设置正确的 JAVA_HOME 环境变量,比如
export JAVA_HOME=/usr/lib/jvm/java-6-open…

使用 Sendmail 在 CentOS 5.5 架设邮件服务器

假如你要架设一个有会员管理的网站,可能会遇到诸如“我忘记密码了”、“你有一年没来过了,有空过来瞧瞧吧”这类的问题,一般这类问题都是使用邮件解决的,比如发送一个重置密码的链接或者发送一封提醒邮件。
发送邮件的方法有很多,比如使用外面专业SMTP中继服务(一般收费惊人)、使用类似 Google Apps (Free) 的免费邮件发送服务(限制比较多,比如一天不能超过500封等),而比较廉价且彻底的解决方法应该是在自己的服务器上搭建邮件服务器(SMTP服务器)。假如你使用的是 Linux 系统,那么一般邮件服务器早已安装好了,比如 CentOS(RedHat、Fedora等)内置的 Sendmail 服务程序,你只需设置几下即可使用。

1、域名的设置

首先你要设置域名DNS的MX记录和SPF记录,一般我们只要有如下几条DNS记录就可以了:

记录类型    主机名   目标
------------------------------------
A                  @           123.123.123.123 (这里应该是你的服务器IP)
CNAME      www       your-domain.com
CNAME      SMTP      your-domain.com
MX              @            smtp.your-domain.com
TXT              @            v=spf1 a mx ~all

MX记录是邮件服务器必须依赖的,而TXT(SPF)是用来防止自己的邮件服务器发送的邮件不被当成垃圾邮件(spam email),假如不增加这条记录的话对方邮箱服务要么把你的邮件直接丢弃、要么塞到垃圾邮件文件夹里,所以这条记录也是必不可少的,更多的SPF设置方法参阅这里:http://www.openspf.org/

2、设置 Sendmail

我现在使用的 Sendmail 版本是 8.14,设置方法已经变得非常简单了,首先确保你系统已经有 sendmail 及其相关服务了:

#yum install sendmail  (这个必须的)
#yum install sendmail-cf
#yum install sendmail-devel
#yum install sendmail-mi…

为 Tomcat 增加 GoDaddy SSL 证书

为了信息安全,一般网站的用户注册和登录过程会使用加密的 HTTP(即HTTPS)传输用户的帐号和密码,这样可以防止“中间人”盗取帐号资料。

假如你的网站是用 Tomcat 直接搭建的,那么主要需要如下几个步骤:
1、购买 SSL 证书。
2、在你的服务器上生成一个私密钥匙(Private Key)。
3、在 SSL 证书销售商那里签名你的 Key。
4、将最终生成的认证证书导入 Tomcat KeyStore
5、修改 Tomcat 的配置。

下面详细讲解。

1、购买 SSL 证书


为网站添加 HTTPS 功能第一步需要购买一个SSL认证证书,目前使用比较广泛的有:
VeriSign 典型客户有 Microsoft Hotmail Thawte 典型客户有 Google Gmail
不过这些品牌的证书价格不菲,假如你的网站只是想提供加密传输的话,可以购买 GoDaddy 的廉价SSL证书,目前报价是 $49.99/年,不过你可以通过推销链接以 $12.99/年买到,比如这个推销链接:http://www.godaddy.com/ssl/ssl-certificates.aspx?isc=IAPtssl1
2、生成私密钥匙
使用OpenSSL工具可以很容易生成私钥,不过由于我们准备给Tomcat使用,所以直接使用keytool更为方便。 转到 Tomcat 的安装目录,运行 $keytool -keysize 2048 -genkey -alias tomcat -keyalg RSA -keystore tomcat.keystore
然后它会提示你设置一个密码,使用Tomcat常用的“changeit”即可,然后根据提示输入DN信息: 输入keystore密码:changeit   再次输入新密码: changeit 您的名字与姓氏是什么?   [Unknown]:  yourdomain.com 您的组织单位名称是什么?   [Unknown]:  Networking 您的组织名称是什么?   [Unknown]:  yourdomain.com 您所在的城市或区域名称是什么?   [Unknown]:  Shenzhen 您所在的州或省份名称是什么?   [Unknown]:  Guangdong 该单位的两字母国家代码是什么   [Unknown]:  CN CN=floatmark.com, OU=N…

使用 Jetty 7 搭建虚拟主机

同 Tomcat 一样,Jetty 也是纯 Java 的 Web 服务器和 Servlet 容器。跟 Tomcat 不同的是 Jetty 本身模块化机制,最基本模块的只负责网络 IO 和 HTTP 协议,所以程序运行效率非常高。很多程序都会嵌入 Jetty 以提供 HTTP 服务,比如一些提供 HTTP 接口的 NoSQL、分布式文件系统和全文索引引擎等产品,还有 Google 的 App Engine (java版)也使用 Jetty 提供 Web 服务,另外 Jetty 的 Comet 特性经常用于实现实时数据通信。
除此以外,Jetty 也能够以 Standalone 形式运行,可以很轻巧地实现搭建多(Java web application)站点服务。
下面以在一台服务器(只有一个公网IP地址)上搭建 abc.com,xyz.com 作为例子讲解搭建及配置过程。

1、下载 Jetty 7
Jetty 7 的各个部分包括:Core Web Server (HTTP & Websocket),Core Servlet Container,JNDI, JMX, OSGi, JASPI modules 都是单独提供,所以为了简单起见,可以下载一个整合包:


JETTY_VERSION=7.0.2.v20100331wget http://download.eclipse.org/jetty/$JETTY_VERSION/dist/jetty-distribution-$JETTY_VERSION.tar.gztar xfz jetty-distribution-$JETTY_VERSION.tar.gzcd jetty-distribution-$JETTY_VERSIONjava -jar start.jar这样你就已经完成下载和运行 Jetty 了,试试访问 http://localhost:8080/。
2、Jetty 的配置 Jetty 的主目录里有几个比较重要的目录: contexts 存放各个 web app 的配置文件contexts-avaiable 存放各个暂时不使用的 web app (一般是自带的示例)的配置文件etc jetty程序本身的配置文件webapps 存放各个 web app 的具体资源文件,即 war 压缩包。 当使用 java -j…