跳至主要内容

博文

目前显示的是 2011的博文

Apache Cassandra 0.7 的集群配置

Hadoop/HBase 一样,Apache Cassandra 也是 NoSQL 产品中最为重要的成员之一,跟 HBase 相比,因为 Cassandra 使用了一种去中心化的模式(类似memcached集群), 使用 Cassandra 搭建 NoSQL 集群更为简单容易,特别是在 0.7 版本之后,下面简述使用 Cassandra 0.7 搭建一个集群。@ivarptr

前提条件
a、准备3台或以上的计算机。下面假设有3台运行Linux操作系统的计算机,局域网的IP地址分别为 192.168.0.100, 192.168.0.101 和 192.168.0.102。
b、Java 1.6。
c、到这里下载 0.7.x 版本的Cassandra 二进制发行包。

1、基本配置

挑选其中的一台机开始配置,先展开 cassandra 发行包:
$ tar -zxvf apache-cassandra-$VERSION.tar.gz
$ cd apache-cassandra-$VERSION

其中的 conf/cassandra.yaml 文件为主要配置文件,由于 0.7 版不再采用XML格式配置文件,如果对 YAML 格式不熟悉的话最好先到这里了解一下。

Cassandra 在配置文件里默认设定了几个目录:

data_file_directories: /var/lib/cassandra/data
commitlog_directory: /var/lib/cassandra/commitlog
saved_caches_directory: /var/lib/cassandra/saved_caches

data_file_directories 可以一次同时设置几个不同目录,cassandra 会自动同步所有目录。另外在日志配置文件 log4j-server.properties 也有一个默认设定日志文件的目录:
log4j.appender.R.File=/var/log/cassandra/system.log

一般情况下采用默认的配置即可,除非你有特殊的数据储存要求,所以现在有两种方案:一是按照默认配置创建相关的目录,二是修改配置文件采用自己指定的目录。
下面为了简单起见采用第一种方案:

$ sudo mkdir -p /var/log/cassand…

如何在应用程序里使用 Hadoop HDFS ——分布式计算Hadoop配置及实践(二)

上一篇讲到 Hadoop 的配置,我们在搭建分布式计算系统的同时也已经搭建好分布式储存系统了。下面简述如何在应用程序(可以是 Console Application,也可以是 Web Application)调用 Hadoop HDFS。

我们除了可以使用 Hadoop 命令行管理里面的文件和目录之外,也可以通过 Hadoop API 管理。

1、先创建一个Java Application (Console) 程序,然后引用 hadoop-core-0.20.2.jar ,因为这个包同时引用非常多其他包,所以最好使用 Maven 引用这个包。

2、在项目根目录创建 core-site.xml :

<?xml version="1.0"?>
<configuration>
<property>
  <name>fs.default.name</name>
  <value>hdfs://192.168.0.10:9000</value>
</property>
</configuration>

程序会自动寻找 CLASS_PATH 里面的 core-site.xml 文件,假如缺少这个文件的话,程序会使用本地文件系统。

3、创建 Helloworld.java:


import java.io.IOException;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FSDataInputStream;
import org.apache.hadoop.fs.FSDataOutputStream;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;


public class HelloWorld {


public static void main(String[] args) {
try {
HelloWorld helloWorld = new HelloWorld();
helloWorld.run();
} catch (IOException e) {
e.printStackTra…

如何让100台计算机同时为你计算同一道算术题?——分布式计算Hadoop配置及实践(一)

假如你有一个比较复杂的算术题,用1台普通计算机需要计算3个月才能出结果,有什么办法可以让它能在1天内出结果呢?
比较“廉价”的方式可能是用100台普通计算机搭建一台“超级计算机”,让100台计算机同时计算,那么理论上1天就可以完成。
Apache Hadoop 是一个分布式计算框架,你只需要定义如何将一个计算任务拆分(Map)以及如何将各个分任务的结果合并(Reduce),剩下的事情比如如何协调100台计算机一起工作,如何保证即使某一台计算机中途坏掉了也不会影响整个工作等,都由 Hadoop 帮你代劳。Hadoop 同时也是一个分布式的基础架构,在其基础上有:

HDFS 分布式储存HBase 分布式NoSQL数据库Nutch 分布式全文搜索
等等一大堆重量级产品,这些都是构建一个大型应用所必须的基础设施。@ivarptr

这里我简单介绍基本的 Hadoop 系统的搭建方法,Hadoop 在运行时由5个程序组成:
1个NameNode,用于管理命名空间以及客户端对文件的访问;
1个JobTracker,用于调度工作以及分配任务(Task);
1个SecondaryNameNode,用于辅助NameNode的工作;
1~N个DataNode 用于数据储存;
1~N个TaskTracker 用于执行任务,DataNode 和 TaskTracker 总是在同一台计算机里运行。

前3个程序一般是分别在三台不同的计算机里运行,为了简单起见下面的例子我会在同一台计算机里运行这3个程序,然后再另外找3台计算机运行DataNode(连同TaskTracker),一共需要4台计算机。结构图如下:


下面是详细的搭建过程

1、下载 Apache Hadoop

到这里 http://hadoop.apache.org/ 下载 HDFS,我使用的版本是 0.20.2,下载回来的一个压缩包就已经包含了上面提到的5个程序。

2、配置 Hadoop
虽然在一个典型的 Hadoop 系统里会有 4种不同角色的计算机,不过我们为了简单起见可以先在某一台计算机编辑好配置文件,然后再分发到其他计算机,这样可以避免一台台地配置浪费时间。

a、编辑 conf/hadoop-env.sh,设置正确的 JAVA_HOME 环境变量,比如
export JAVA_HOME=/usr/lib/jvm/java-6-open…

使用 Sendmail 在 CentOS 5.5 架设邮件服务器

假如你要架设一个有会员管理的网站,可能会遇到诸如“我忘记密码了”、“你有一年没来过了,有空过来瞧瞧吧”这类的问题,一般这类问题都是使用邮件解决的,比如发送一个重置密码的链接或者发送一封提醒邮件。
发送邮件的方法有很多,比如使用外面专业SMTP中继服务(一般收费惊人)、使用类似 Google Apps (Free) 的免费邮件发送服务(限制比较多,比如一天不能超过500封等),而比较廉价且彻底的解决方法应该是在自己的服务器上搭建邮件服务器(SMTP服务器)。假如你使用的是 Linux 系统,那么一般邮件服务器早已安装好了,比如 CentOS(RedHat、Fedora等)内置的 Sendmail 服务程序,你只需设置几下即可使用。

1、域名的设置

首先你要设置域名DNS的MX记录和SPF记录,一般我们只要有如下几条DNS记录就可以了:

记录类型    主机名   目标
------------------------------------
A                  @           123.123.123.123 (这里应该是你的服务器IP)
CNAME      www       your-domain.com
CNAME      SMTP      your-domain.com
MX              @            smtp.your-domain.com
TXT              @            v=spf1 a mx ~all

MX记录是邮件服务器必须依赖的,而TXT(SPF)是用来防止自己的邮件服务器发送的邮件不被当成垃圾邮件(spam email),假如不增加这条记录的话对方邮箱服务要么把你的邮件直接丢弃、要么塞到垃圾邮件文件夹里,所以这条记录也是必不可少的,更多的SPF设置方法参阅这里:http://www.openspf.org/

2、设置 Sendmail

我现在使用的 Sendmail 版本是 8.14,设置方法已经变得非常简单了,首先确保你系统已经有 sendmail 及其相关服务了:

#yum install sendmail  (这个必须的)
#yum install sendmail-cf
#yum install sendmail-devel
#yum install sendmail-mi…

为 Tomcat 增加 GoDaddy SSL 证书

为了信息安全,一般网站的用户注册和登录过程会使用加密的 HTTP(即HTTPS)传输用户的帐号和密码,这样可以防止“中间人”盗取帐号资料。

假如你的网站是用 Tomcat 直接搭建的,那么主要需要如下几个步骤:
1、购买 SSL 证书。
2、在你的服务器上生成一个私密钥匙(Private Key)。
3、在 SSL 证书销售商那里签名你的 Key。
4、将最终生成的认证证书导入 Tomcat KeyStore
5、修改 Tomcat 的配置。

下面详细讲解。

1、购买 SSL 证书


为网站添加 HTTPS 功能第一步需要购买一个SSL认证证书,目前使用比较广泛的有:
VeriSign 典型客户有 Microsoft Hotmail Thawte 典型客户有 Google Gmail
不过这些品牌的证书价格不菲,假如你的网站只是想提供加密传输的话,可以购买 GoDaddy 的廉价SSL证书,目前报价是 $49.99/年,不过你可以通过推销链接以 $12.99/年买到,比如这个推销链接:http://www.godaddy.com/ssl/ssl-certificates.aspx?isc=IAPtssl1
2、生成私密钥匙
使用OpenSSL工具可以很容易生成私钥,不过由于我们准备给Tomcat使用,所以直接使用keytool更为方便。 转到 Tomcat 的安装目录,运行 $keytool -keysize 2048 -genkey -alias tomcat -keyalg RSA -keystore tomcat.keystore
然后它会提示你设置一个密码,使用Tomcat常用的“changeit”即可,然后根据提示输入DN信息: 输入keystore密码:changeit   再次输入新密码: changeit 您的名字与姓氏是什么?   [Unknown]:  yourdomain.com 您的组织单位名称是什么?   [Unknown]:  Networking 您的组织名称是什么?   [Unknown]:  yourdomain.com 您所在的城市或区域名称是什么?   [Unknown]:  Shenzhen 您所在的州或省份名称是什么?   [Unknown]:  Guangdong 该单位的两字母国家代码是什么   [Unknown]:  CN CN=floatmark.com, OU=N…

使用 Jetty 7 搭建虚拟主机

同 Tomcat 一样,Jetty 也是纯 Java 的 Web 服务器和 Servlet 容器。跟 Tomcat 不同的是 Jetty 本身模块化机制,最基本模块的只负责网络 IO 和 HTTP 协议,所以程序运行效率非常高。很多程序都会嵌入 Jetty 以提供 HTTP 服务,比如一些提供 HTTP 接口的 NoSQL、分布式文件系统和全文索引引擎等产品,还有 Google 的 App Engine (java版)也使用 Jetty 提供 Web 服务,另外 Jetty 的 Comet 特性经常用于实现实时数据通信。
除此以外,Jetty 也能够以 Standalone 形式运行,可以很轻巧地实现搭建多(Java web application)站点服务。
下面以在一台服务器(只有一个公网IP地址)上搭建 abc.com,xyz.com 作为例子讲解搭建及配置过程。

1、下载 Jetty 7
Jetty 7 的各个部分包括:Core Web Server (HTTP & Websocket),Core Servlet Container,JNDI, JMX, OSGi, JASPI modules 都是单独提供,所以为了简单起见,可以下载一个整合包:


JETTY_VERSION=7.0.2.v20100331wget http://download.eclipse.org/jetty/$JETTY_VERSION/dist/jetty-distribution-$JETTY_VERSION.tar.gztar xfz jetty-distribution-$JETTY_VERSION.tar.gzcd jetty-distribution-$JETTY_VERSIONjava -jar start.jar这样你就已经完成下载和运行 Jetty 了,试试访问 http://localhost:8080/。
2、Jetty 的配置 Jetty 的主目录里有几个比较重要的目录: contexts 存放各个 web app 的配置文件contexts-avaiable 存放各个暂时不使用的 web app (一般是自带的示例)的配置文件etc jetty程序本身的配置文件webapps 存放各个 web app 的具体资源文件,即 war 压缩包。 当使用 java -j…

日志工具 SLF4J 的来龙去脉

Java 界里有许多实现日志功能的工具,最早得到广泛使用的是 log4j,许多应用程序的日志部分都交给了 log4j,不过作为组件开发者,他们希望自己的组件不要紧紧依赖某一个工具,毕竟在同一个时候还有很多其他很多日志工具,假如一个应用程序用到了两个组件,恰好两个组件使用不同的日志工具,那么应用程序就会有两份日志输出了。

为了解决这个问题,Apache Commons Logging (之前叫 Jakarta Commons Logging,JCL)粉墨登场,JCL 只提供 log 接口,具体的实现则在运行时动态寻找。这样一来组件开发者只需要针对 JCL 接口开发,而调用组件的应用程序则可以在运行时搭配自己喜好的日志实践工具。

所以即使到现在你仍会看到很多程序应用 JCL + log4j 这种搭配,不过当程序规模越来越庞大时,JCL的动态绑定并不是总能成功,具体原因大家可以 Google 一下,这里就不再赘述了。解决方法之一就是在程序部署时静态绑定指定的日志工具,这就是 SLF4J 产生的原因。

跟 JCL 一样,SLF4J 也是只提供 log 接口,具体的实现是在打包应用程序时所放入的绑定器(名字为 slf4j-XXX-version.jar)来决定,XXX 可以是 log4j12, jdk14, jcl, nop 等,他们实现了跟具体日志工具(比如 log4j)的绑定及代理工作。举个例子:如果一个程序希望用 log4j 日志工具,那么程序只需针对 slf4j-api 接口编程,然后在打包时再放入 slf4j-log4j12-version.jar 和 log4j.jar 就可以了。

现在还有一个问题,假如你正在开发应用程序所调用的组件当中已经使用了 JCL 的,还有一些组建可能直接调用了 java.util.logging,这时你需要一个桥接器(名字为 XXX-over-slf4j.jar)把他们的日志输出重定向到 SLF4J,所谓的桥接器就是一个假的日志实现工具,比如当你把 jcl-over-slf4j.jar 放到 CLASS_PATH 时,即使某个组件原本是通过 JCL 输出日志的,现在却会被 jcl-over-slf4j “骗到”SLF4J 里,然后 SLF4J 又会根据绑定器把日志交给具体的日志实现工具。过程如下

Component
   |
   |…

一个人用的 Git

Git 是目前比较时髦的版本控制系统,虽然 linux 内核源码是使用它来管理的,但系统非常小巧而且使用简单,比起 svn (subversion) 系统,git 有一个明显的优势就是在不联网的情况下也可以查阅或者回滚历史版本,有时带着笔记本出外工作这个功能是非常有用的。下面介绍一下用 Git 管理个人电脑上的个人文档文件。(@ivarptr)

这篇文章有几个假设前提:
a、你从事的工作有很多文档需要书写或者整理,而且文档篇幅比较大需要经常修修改改,有时还可能需要回档(即恢复到历史的某个版本)。
b、你的文档具有关联性的,比如一个项目策划书,有多份文本文档、电子表格、图片,希望平时能整体记录一个版本(快照)。
c、你有多台工作用的电脑,为了简单起见,下文假设只有两台电脑。
d、你有一台能够在互联网上访问的服务器,最好是跑 linux 系统而且有 ssh 登录权限。
e、为了简明,省略了安全权限设置和Git最为突出的特性“分支”。

1、几个必须厘清的概念
a、svn只有一个远程仓库集中管理所有的版本,而Git分有“本地仓库”和“远程仓库”之分,在提交你的最新文档过程中,需要两层提交,一次是提交到本地仓库,然后才可以提交到远程仓库。
b、svn的远程仓库保存的总是全局最新的版本,各个支点(小组成员)必须对此仓库负责。而Git则没有集中远程仓库之说,理论上每个人的地位是平等的,同时每个人的本地仓库也可以配置为给他人访问的“远程仓库”。不过对于个人或者一个小团队来说,为了简便起见我们通常会协商好让某个远程服务器上的仓库保持最新并且集中管理,这点跟Svn类似。
c、svn的每次提交会产生一个递增的数字作为版本号码,而git每次提交会产生一个“快照”,快照不是用一个递增的数字作为名称的,而是一个hash值,当然用一个hash值来呼叫某一次提交也太累赘了,所以在实际应用过程中我们往往只用hash指的头4~6位就可以了(类似一个人的昵称)。

2、在服务器上创建 Git 仓库
关于在 linux 系统里如何安装 Git 程序可以参考这篇《在CentOS 5.5里安装Git以及搭建Git服务器最简单教程》,要记住 Git 程序是不区分服务端或客户端的。

首先我们要创建一个Git仓库,使用 ssh 登录到你的服务器,在用户home文件夹里创建一个文件夹,为了容易识别,最好在文件夹名字后面加一…

在家用PC里体验 FreeBSD 8.1(下)

上一章讲到如何配置 gnome 桌面环境以及 firefox 浏览器,很快你会发现上网时不能播放 flash,这是因为 Adobe Flash 没有提供 FreeBSD 版本,为了运行这类没有开源只有编译好的 Linux 版程序,我们需要安装一个 Linux 二进制兼容包。[注1]

1、安装 Linux 二进制兼容包
为了确保安装顺利,最好把 FreeBSD Ports 更新一下。[注2]
# portsnap fetch

第一次运行这个命令会下载最新的 Ports Collection,大概半小时左右下载完,然后展开安装文件:
# portsnap extract

使用 portsnap update 命令更新已安装的 Ports:
# portsnap update

这样更新就完成了。下面开始安装 Linux 二进制兼容包,[注3]先开启 Linux KLD 模块:
#kldload linux

如果希望 Linux 兼容支持在系统初始化过程中自动启用,则应在 /etc/rc.conf 中增加:
linux_enable="YES"

可以使用 kldstat 命令检查KLD模块是否已经加载成功(以百分号开头的命令表示可以用普通帐号操作,下同):
% kldstat

如果看到 linux.ko 字样则表示加载成功。下面还要安装 Linux 运行时库,

# cd /usr/ports/emulators/linux_base-f10
# make install distclean

这又是一个漫长的等待过程,运行完毕之后还要挂载 Linux 进程文件系统,使用如下命令:
# mount -t linprocfs linproc /usr/compat/linux/proc

如果希望机器启动时自动挂载,需要在文件 /etc/fstab 里面加上这一行
linproc    /usr/compat/linux/proc  linprocfs   rw  0   0

2、安装浏览器 Flash 插件 [注4]
我们开始下载安装 Flash 的 Linux 版插件:
# /usr/ports/www/linux-f10-flashplugin10
# make install clean

安装 wrapper:
# /usr/ports/www/nspl…

在家用PC里体验 FreeBSD 8.1(上)

FreeBSD (http://www.freebsd.org/) 是一个开源免费的操作系统,最早接触FreeBSD是约7年前在 @hplcsz 挂bbs的服务器,后来很少关注了,最近接触到 Apple 的 MacOS 和 iOS (基于FreeBSD衍生出来的操作系统)联想起FreeBSD项目,才发现它已经更新到8.1版了。
恰好家里多出一台电脑暂时没有用,于是尝试用FreeBSD 8.1配置一台适合家用的电脑(用来看看新闻灌灌水的那种),于是有了如下一篇文章。
(注:这里假设读者已经有一定的Linux/BSD基础)

首先访问 FreeBSD 项目的官方网站,下载 FreeBSD 8.1的安装镜像文件(ftp://ftp.freebsd.org/pub/FreeBSD/releases/i386/ISO-IMAGES/8.1/),这里提供CD版、DVD版和U盘版,考虑到我有DVD刻录机,所以下载了DVD版。

下载过程是一个漫长的等待,期间强烈推荐阅读一下官方的《FreeBSD使用手册》(中文版,以下简称《使用手册》)(http://www.freebsd.org/doc/zh_CN.GB2312/books/handbook/index.html),如果对Linux/BSD不是很熟悉,前3章是很有必要阅读的,否则会被折腾到2012年。等待DVD镜像下载完,大概已经看到第10章了。

1、安装 FreeBSD 8.1
刻录下载回来的DVD镜像文件,从光驱启动然后选择“Quick模式”即开始安装过程。结合《使用手册》一般没有多大问题,因为这篇文章重点是如何搭建家用PC的环境,所以具体的安装过程这里就省略了。小技巧:

A、FreeBSD 必须安装在主分区,在安装之前你必须腾出一个至少10来GB的主分区。
B、当安装问你是否安装“Ports(相当于软件商店、软件中心)”时,要选择“YES”。
C、当安装接近完成时,程序会问你 “Would you like to browse the collection now?“,这一步是问你是否安装DVD上附带的软件,选择Yes,然后把下面这两个大块头选中,这样能避免从网络下载桌面环境的安装文件,节省时间和网络流量,减低碳排放:
+ X11/xorg-7.5
+ gnome/gnome2-2.30.1-1

2、基础网络设置
系统安装好之后,重…

修改CentOS Linux 的 SSH服务默认设置,提高系统安全性

最近登录一台CentOS Linux(5.5)服务器发现 /var/log/secure 文件出奇巨大,查看其中的记录发现原来不断有人试图穷举服务器的帐号密码,幸好当时 root 密码设置非常复杂,否则可能早就被人攻陷了。(ps:那台服务器平时只做对内的服务,从没在公网上暴露过,看来即使这样的服务器也不能掉以轻心啊)接着使用 netstat -nat 查看网络连接发现扫描器仍在乐此不彼地工作,所以决定还是更改 ssh 服务的默认设置。

步骤如下


1、禁用 root 的 ssh 远程登录
这步我觉得很有必要,因为扫描器一般都是冲着这个帐号过来的。修改 /etc/ssh/sshd_config 文件里的 PermitRootLogin 一行的值为 no 即可。不过要注意在禁用 root 的 ssh 登录之前一定要确定服务器内还有其他帐号可以远程登录,否则你的服务器自己也别想进去了。所以比较妥当的方法是建立一个普通的帐号,并把它加入到 wheel 组,
然后在 /etc/sudoers 里启用 wheel 组的 sudo 功能,再禁用 root 的远程登录。

2、设置登录密码输入的等待时间和最大重试次数
还是修改  /etc/ssh/sshd_config 文件,找到 LoginGraceTime 和 MaxAuthTries 两行,分别设置为 30 和 3,则表示打开ssh连接之后你要在30秒内输入正确的密码否则断开连接,以及密码最多给重试 3 次。

3、重启 sshd 服务,这次 secure log 终于平静下来了

一些对安全有益的心得

1、平时 ssh 登录尽量避免密码输入方式,应该采用验证钥匙方式登录,如果客户端也是 linux 系统,则这步骤很简单,先 ssh-keygen -C 'yang@home' 创建一个验证钥匙,然后使用 ssh-copy-id somebody@host.domain 把钥匙复制到服务器上,这样以后 ssh 登录就再也不用输入密码了。对于客户端是 windows 和 mac os 系统的估计也有相类似的工具,具体的操作不太清楚。

2、审视一下 /etc/passwd 文件,看看有没有平时不会直接登录帐号,比如有时安装某些软件会自动创建一些帐号,对于这类帐号赶快把最后一段 /bin/bash 改为 /sbin/nologin 吧…