配置Hadoop集群客戶(hù)端 | Coder·碼農(nóng)網(wǎng)

昵稱(chēng)25533110 2018-12-30

展開(kāi)全文

在Hadoop和Spark集群搭建好了以后，如果我們需要向集群中發(fā)送、獲取文件，或者是執(zhí)行MapReduce、Spark作業(yè)，通常是搭建一個(gè)外圍的、集群的客戶(hù)端，在這個(gè)客戶(hù)端上進(jìn)行操作。而不是直接在集群的NameNode或者DataNode上進(jìn)行。此時(shí)，集群和客戶(hù)端的結(jié)構(gòu)如下圖所示（簡(jiǎn)化圖，沒(méi)有考慮NameNode的高可用），本文將介紹如何快速搭建一個(gè)集群客戶(hù)端（有時(shí)也叫g(shù)ateway）。

在網(wǎng)絡(luò)配置方面，可以遵循集群僅開(kāi)放內(nèi)網(wǎng)訪問(wèn)，而客戶(hù)端開(kāi)放外網(wǎng)訪問(wèn)，所有對(duì)集群的訪問(wèn)和管理，均通過(guò)客戶(hù)端來(lái)完成。

Step1. 配置hosts

在這篇文章中，客戶(hù)端的主機(jī)名是dc1（DataClient1的縮寫(xiě)，192.168.0.150），Hadoop集群中的NameNode主機(jī)名是hadoop01（192.168.0.34）。首先配置hosts讓兩臺(tái)機(jī)器相互“認(rèn)識(shí)”一下。

修改hadoop01的hosts：

# vim /etc/hosts192.168.0.150 dc1

修改dc1的hosts：

# vim /etc/hosts192.168.0.34 hadoop01

當(dāng)數(shù)據(jù)中心的服務(wù)器很多時(shí)，配置hosts可能不夠方便，此時(shí)可以部署一臺(tái)DNS（Domain Name Service）服務(wù)器，用于解析主機(jī)名。

Step2. 配置ssh免密碼登錄

請(qǐng)參考： linux上配置ssh實(shí)現(xiàn)免密登錄

Step3. 復(fù)制~/.bashrc文件

接下來(lái)，還要配置一下$HADOOP_HOME、$JAVA_HOME等環(huán)境變量，實(shí)際就是拷貝一下~/.bash文件。

# scp -P 60034 ~/.bashrc dc1:~/.bashrc

Step4. 安裝 java 和hadoop

安裝java和hadoop的操作很簡(jiǎn)單，只需要將hadoop01上的Hadoop和Java文件夾復(fù)制到dc1就可以了。

# scp -P 60034 -r $HADOOP_HOME dc1:$HADOOP_HOME

# scp -P 60034 -r $JAVA_HOME dc1:$JAVA_HOME

此時(shí)，可能會(huì)疑惑，這樣不是就和安裝和配置Hadoop集群(3節(jié)點(diǎn)) 一樣了，好像又往集群中添加了一臺(tái)機(jī)器一樣。這里最大的不同是：不需要運(yùn)行hadoop進(jìn)程（DataNode、NameNode、ResourceManager、NodeManager等），即不需要執(zhí)行start-dfs.sh/start-yarn.sh。同時(shí)，也沒(méi)有修改$HADOOP_CONF_DIR/slaves文件，因此并未加入集群。而只是作為集群的客戶(hù)端使用。

因?yàn)槲覀兩厦媸菍⒄麄€(gè)$HADOOP_HOME拷貝到了dc1，其中包含了所有的配置文件，因此，也無(wú)需配置。

Step5. 驗(yàn)證安裝

因?yàn)槲以贖adoop集群上已經(jīng)放有一些測(cè)試文件，通過(guò)命令行界面，對(duì)文件進(jìn)行一下獲取和發(fā)送，可以驗(yàn)證客戶(hù)端與集群工作良好。

1.從集群下載文件到客戶(hù)端

# hdfs dfs -get /user/root/tmp/file1.txt ~/tmp

2.在客戶(hù)端重命名后上傳到集群

# mv ~/tmp/file1.txt ~/tmp/file1_2.txt# hdfs dfs -put ~/tmp/file1_2.txt /user/root/tmp

至此，一個(gè)簡(jiǎn)單的Hadoop集群客戶(hù)端就搭建好了。除了在客戶(hù)端上執(zhí)行HDFS的文件操作以外，還可以運(yùn)行Hive，Hive本身就是一個(gè)客戶(hù)端的工具。同時(shí)，也可以運(yùn)行Spark的Driver程序，它是Spark集群的客戶(hù)端。而Spark集群中的Worker通常是和HDFS的DataNode部署在同一臺(tái)服務(wù)器上，以提升數(shù)據(jù)訪問(wèn)效率。

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間，所有內(nèi)容均由用戶(hù)發(fā)布，不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買(mǎi)等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來(lái)自：昵稱(chēng)25533110 > 《待分類(lèi)1》

舉報(bào)/認(rèn)領(lǐng)