Hadoop--初学到漏洞(二)--环境搭建--本机模式
Hadoop–初学到漏洞(二)–环境搭建–本机模式
前言
有条件的买一组服务器做集群,没有条件的配置高性能机器搭建虚拟机。此处以虚拟机进行搭建集群(多个Linux主机)。
第一次首先进行本机模式的Hadoop搭建。
一、虚拟机
-
centos7, 创建新用户,具有root权限。
-
在/opt目录下创建两个文件夹,分别为modules和software
1 2
sudo mkdir modules sudo mkdir software
二、JAVA环境配置
centos7自带java环境,但自带的openjdk没有增加对java监控命令jps的支持,两种解决方案:卸载原有的openjdk进行再重装或者通过yum安装jdk开发插件。此处我们采用第一种解决方案:
-
下载Oracle版本JDK,jdk-7u67-linux-x64.tar.gz,并解压,然后配置好环境变量:
1 2 3 4
tar -zxvf jdk-7u67-linux-x64.tar.gz -C /opt/modules export JAVA_HOME=/usr/local/jdk1.7.0_67 export PATH=$JAVA_HOME/bin:$PATH
对java环境进行验证:
(务必确保java环境正确,java版本可以自行尝试,此处我使用了一个较老的版本)
三、Hadoop环境配置
- 下载Apache Hadoop,到官网下载即可,此处使用的是Hadoop-2.10.0(建议使用Binary,因为刚开始可能不熟悉源码编译):
进入,然后选择一个链接点击下载,也可以直接使用wget下载:
下载后的文件建议放在/opt/modules下面一份,然后解压到/usr/local/路径下。
-
在.bashrc文件中配置Hadoop的环境变量:
1
export HADOOP_HOME=/usr/local/hadoop-2.10.0
-
尝试运行:
hadoop version
如果不报错,说明安装没有问题,可以跳过进入下面的验证,如果此处报错:
运行其他的hadoop jar之类的命令也提示此问题,说明环境变量配置存在问题,可以尝试采用以下解决方式:
在.bashrc中添加如下内容:
|
|
然后进行 source ~/.bashrc
,此时再运行hadoop version
进行验证:
四、环境验证
验证一个简单的Hadoop示例。
Hadoop安装提供了以下示例MapReduce jar文件,它提供了MapReduce的基本功能,可用于计算,如Pi值,文件列表中的字数等。
-
新建目录:
mkdir /tmp/input
-
拷贝几个txt文件:
cp $HADOOP_HOME/*.txt input
-
检查待测文件:
1 2 3 4 5 6 7
ls -l input #输出 total 124 -rw-r--r-- 1 root root 106210 Mar 5 22:54 LICENSE.txt -rw-r--r-- 1 root root 15841 Mar 5 22:54 NOTICE.txt -rw-r--r-- 1 root root 1366 Mar 5 22:54 README.txt
-
运行命令进行每个可用文件的字数统计:
1
hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.10.0.jar wordcount input output
-
输出保存在output / part-r00000文件中,可以使用以下命令检查:
1
cat output/*
检查结果如下所示:
因为检查文件不同可能结果不同,可以正常统计文件的字数即可。
五、总结
本机模式的安装配置相对简单,遇到错误网上搜一下基本都可以解决,需要根据自身配置进行不同的修改。后续将进行伪分布式和分布式环境的配置。