Thiết lập Multi Node Clustor trong Hadoop 2.X

Ngày đăng: 25/04/2019 - Cập nhật: 25/04/2019

Mục Lục

Multi Node Cluster trong Hadoop 2.x
Hướng dẫn 23 Bước Thiết lập Multi Node Cluster trong Hadoop

Multi Node Cluster trong Hadoop 2.x

Từ bài trước trong series Marter BigData, chúng ta đã học cách thiết lập Sigle Node Cluster trong Hadoop.

Bây giờ, mình sẽ chỉ cho bạn cách thiết lập Multi Node Cluster trong Hadoop.

Một Multi Node Cluster trong Hadoop chứa hai hoặc nhiều DataNode trong môi trường Hadoop phân tán.

Điều này thực tế được sử dụng trong các tổ chức để lưu trữ và phân tích dữ liệu Petabyte và Exabyte của họ. Học cách thiết lập Multi Node Cluster giúp bạn tiến gần hơn đến việc làm chủ Hadoop.

Ở đây, chúng ta sẽ dùng hai máy - Chính và Phụ. Trên cả hai máy, một Datanode sẽ được chạy.

Chúng ta hãy bắt đầu với việc thiết lập Multi Node Cluster trong Hadoop.

Điều kiện tiên quyết trước khi thiết lập Multi Node Cluster

Cent OS 6.5
Hadoop-2.7.3
JAVA 8
SSH

Hướng dẫn 23 Bước Thiết lập Multi Node Cluster trong Hadoop

Chúng ta có hai máy (Chính và Phụ) với IP như sau:

Chính: 192.168.56.102
Phụ: 192.168.56.103

BƯỚC 1: Check địa chỉ IP của tất cả các máy

Sử dụng lệnh bên dưới trong Command

            ip addr show

Command: ip addr show (bạn cũng có thể sử dụng lệnh ifconfig)

Cài đặt Multi Node Cluster trong Hadoop: Check IP máy chính

Check IP máy chính

Cài đặt Multi Node Cluster trong Hadoop: Check IP máy phụ

Check IP máy phụ

BƯỚC 2: Vô hiệu hóa tường lửa

Sử dụng lệnh sau trong Command

            service iptables stop

            sudo chkconfig iptables off

Vô hiệu hóa tường lửa

BƯỚC 3: Mở file hosts để thêm Master node và Data node với địa chỉ IP tương ứng của chúng

            sudo nano /etc/hosts

Các thuộc tính tương tự sẽ được hiển thị trong các tệp máy chủ chính và phụ.

Cài đặt Multi Node Cluster trong Hadoop: Mở file host và thêm data node

Mở file host và thêm data node với địa chỉ IP tương ứng
Cài đặt Multi Node Cluster trong Hadoop: Đã thêm địa chỉ IP tương ứng

Đã thêm địa chỉ IP tương ứng

BƯỚC 4: Khởi động lại sshd service.

            service sshd restart

Khởi động lại ssh service

BƯỚC 5: Tạo SSH key trong Node chính. (Nhấn nút enter khi nó yêu cầu bạn nhập tên tệp để lưu key).

            ssh-keygen -t rsa -P “”

Tạo SSH key trong node chính

BƯỚC 6: Sao chép ssh key được tạo để làm authorized key của Node chính.

            cat $HOME/.ssh/id_rsa.pub >> $HOME/.ssh/authorized_keys

Sao chép ssh key được tạo vào node chính

BƯỚC 7: Sao chép key ssh node chính sang authorized key của node phụ.

            ssh-copy-id -i $HOME/.ssh/id_rsa.pub edureka@slave

Sao chép ssh key được tạo vào node phụ

BƯỚC 8: Tải xuống Java 8 package. Lưu tập tin này trong thư mục home.

BƯỚC 9: Extra file Java Tar trên tất cả các node

            tar -xvf jdk-8u101-linux-i586.tar.gz

Giải nén file Java Tar

BƯỚC 11: Tải xuống Hadoop 2.7.3 package trên tất cả các node.

            wget https://archive.apache.org/dist/hadoop/core/hadoop-2.7.3/hadoop-2.7.3.tar.gz

Tải xuống Hadoop

BƯỚC 11: Giải nén tệp Hadoop tar trên tất cả các node.

            tar -xvf hadoop-2.7.3.tar.gz

Giải nén file Hadoop tar

BƯỚC 12: Thêm các đường dẫn Hadoop và Java trong tệp bash (.bashrc) trên tất cả các node.

Mở tập tin bashrc. Bây giờ, thêm Đường dẫn Hadoop và Java như dưới đây:

            sudo gedit .bashrc

Cài đặt Multi Node Cluster trong Hadoop: Mở file bashrc

Mở file bashrc
Cài đặt Multi Node Cluster trong Hadoop: Chỉnh sửa đường dẫn Hadoop và Java

Chỉnh sửa đường dẫn Hadoop và Java

Sau đó, lưu tệp bash và đóng nó lại.

Để áp dụng tất cả các thay đổi này cho Terminal hiện tại, hãy thực thi lệnh:

            source .bashrc

Thực thi lệnh source .bashrc

Để đảm bảo rằng Java và Hadoop đã được cài đặt đúng trên hệ thống của bạn và có thể được truy cập thông qua Terminal, hãy thực thi các lệnh java -version và hadoop version.

            java -version

            hadoop version

Bây giờ, hãy chỉnh sửa các tập tin cấu hình trong thư mục hadoop-2.7.3/etc/hadoop.

BƯỚC 13: Tạo file masters và chỉnh sửa như sau trong cả máy chính và máy phụ như sau:

            sudo gedit masters

Chỉnh sửa file masters

BƯỚC 14: Chỉnh sửa file slaves trong máy chủ như sau:

            sudo gedit /home/edureka/hadoop-2.7.3/etc/hadoop/slaves

Chỉnh sửa file slaves trong máy Chính

BƯỚC 15: Chỉnh sửa file slaves trong máy phụ như sau:

            sudo gedit /home/edureka/hadoop-2.7.3/etc/hadoop/slaves

Chỉnh sửa file slaves trong máy phụ

BƯỚC 16: Chỉnh sửa core-site.xml trên cả máy chính và máy phụ như sau:

            sudo gedit /home/edureka/hadoop-2.7.3/etc/hadoop/core-site.xml

Chỉnh sửa core-site

            <?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
<property>
<name>fs.default.name</name>
<value>hdfs://master:9000</value>
</property>
</configuration>

BƯỚC 7: Chỉnh sửa hdfs-site.xml trên master như sau:

            sudo gedit /home/edureka/hadoop-2.7.3/etc/hadoop/hdfs-site.xml

Chỉnh sửa hdfs-site

            <?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
<property>
<name>dfs.replication</name>
<value>2</value>
</property>
<property>
<name>dfs.permissions</name>
<value>false</value>
</property>
<property>
<name>dfs.namenode.name.dir</name>
<value>/home/edureka/hadoop-2.7.3/namenode</value>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>/home/edureka/hadoop-2.7.3/datanode</value>
</property>
</configuration>

BƯỚC 18: Chỉnh sửa hdfs-site.xml trên máy phụ như sau

            sudo gedit /home/edureka/hadoop-2.7.3/etc/hadoop/hdfs-site.xml

            <?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
<property>
<name>dfs.replication</name>
<value>2</value>
</property>
<property>
<name>dfs.permissions</name>
<value>false</value>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>/home/edureka/hadoop-2.7.3/datanode</value>
</property>
</configuration>

BƯỚC 19: Sao chép mapred-site từ mẫu trong thư mục configuration và chỉnh sửa mapred-site.xml trên cả máy chủ và máy phụ như sau:

            cp mapred-site.xml.template mapred-site.xml

            sudo gedit /home/edureka/hadoop-2.7.3/etc/hadoop/mapred-site.xml

Sao chép và chỉnh sửa mapred-site

            <?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>

BƯỚC 20: Chỉnh sửa yarn-site.xml trên cả máy chủ và máy phụ như sau

            sudo gedit /home/edureka/hadoop-2.7.3/etc/hadoop/yarn-site.xml

Sao chép và chỉnh sửa yarn-site

            <?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<property>
<name>yarn.nodemanager.auxservices.mapreduce.shuffle.class</name>
<value>org.apache.hadoop.mapred.ShuffleHandler</value>
</property>
</configuration>

BƯỚC 21: Định dạng tên node (Chỉ trên máy chủ).

            hadoop namenode -format

Chỉnh sửa namenode

BƯỚC 22: Start all daemons (Chỉ trên máy chủ).

            ./sbin/start-all.sh

Start all daemons

BƯỚC 23: Kiểm tra tất cả các trình tiện ích chạy trên cả máy chính và máy phụ

jps

Kiểm tra trên máy chính

Kiểm tra trên máy phụ

Cuối cùng, hãy mở trình duyệt và truy cập theo đường dẫn master:50070/dfshealth.html trên máy chủ của bạn, nó sẽ đưa bạn đến giao diện NameNode.

Cuộn xuống và xem số lượng live node, nếu là 2, bạn đã thiết lập thành công cụm Hadoop đa node.

Trong trường hợp, nó không phải là 2, bạn có thể đã làm thiếu bước nào đó mà mình đã hướng dẫn ở trên.

Nhưng không cần phải lo lắng, bạn có thể quay lại và xác minh lại các bước từ đầu.

Cài đặt Multi Node Cluster trong Hadoop: Kết quả

Ở đây, chúng tôi chỉ có 2 DataNodes. Nếu bạn muốn, bạn có thể thêm nhiều DataNodes theo nhu cầu của mình.

Mình hy vọng bạn đã cài đặt thành công Cụm đa node trong Hadoop. Nếu bạn đang gặp phải bất kỳ vấn đề nào, bạn có thể bình luận bên dưới, mình sẽ cố gắng trả lời ngay.

>>> Nếu bạn muốn được hướng dẫn đầy đủ cho team của mình. Hãy đăng ký khóa Đào tạo Big Data để được hỗ trợ đầy đủ nhất.

Về trang trước Bài tiếp theo

Gửi email in trang