Multi Node Cluster trong Hadoop 2.x
    
        Từ bài trước trong series Marter BigData, chúng ta đã học cách thiết lập Sigle Node Cluster trong Hadoop.
Bây giờ, mình sẽ chỉ cho bạn cách thiết lập Multi Node Cluster trong Hadoop.
Một Multi Node Cluster trong Hadoop chứa hai hoặc nhiều DataNode trong môi trường Hadoop phân tán.
Điều này thực tế được sử dụng trong các tổ chức để lưu trữ và phân tích dữ liệu Petabyte và Exabyte của họ. Học cách thiết lập Multi Node Cluster giúp bạn tiến gần hơn đến việc làm chủ Hadoop.
Ở đây, chúng ta sẽ dùng hai máy - Chính và Phụ. Trên cả hai máy, một Datanode sẽ được chạy.
Chúng ta hãy bắt đầu với việc thiết lập Multi Node Cluster trong Hadoop.
	Điều kiện tiên quyết trước khi thiết lập Multi Node Cluster
	- 
		Cent OS 6.5
 
	- 
		Hadoop-2.7.3
 
	- 
		JAVA 8
 
	- 
		SSH
 
     
    
 
    Hướng dẫn 23 Bước Thiết lập Multi Node Cluster trong Hadoop
    
        Chúng ta có hai máy (Chính và Phụ) với IP như sau:
	- 
		Chính: 192.168.56.102
 
	- 
		Phụ: 192.168.56.103
 
	BƯỚC 1: Check địa chỉ IP của tất cả các máy 
Sử dụng lệnh bên dưới trong Command
     
    
    
    
 
    
    
        Command: ip addr show (bạn cũng có thể sử dụng lệnh ifconfig)
	
	
	
	Check IP máy chính
	
	
	
	
	
	
	Check IP máy phụ 
	BƯỚC 2: Vô hiệu hóa tường lửa
	Sử dụng lệnh sau trong Command
     
    
    
    
 
    
    
        
	
	
	Vô hiệu hóa tường lửa 
	BƯỚC 3: Mở file hosts để thêm Master node và Data node với địa chỉ IP tương ứng của chúng
     
    
    
    
 
    
    
        Các thuộc tính tương tự sẽ được hiển thị trong các tệp máy chủ chính và phụ.
	
	
	
	Mở file host và thêm data node với địa chỉ IP tương ứng
	
	
	Đã thêm địa chỉ IP tương ứng 
	BƯỚC 4: Khởi động lại sshd service.
     
    
    
    
 
    
    
        
	
	Khởi động lại ssh service
	
	BƯỚC 5: Tạo SSH key trong Node chính. (Nhấn nút enter khi nó yêu cầu bạn nhập tên tệp để lưu key).
     
    
    
    
 
    
    
        
	
	
	Tạo SSH key trong node chính 
	BƯỚC 6: Sao chép ssh key được tạo để làm authorized key của Node chính.
     
    
    
    
 
    
    
        
	
	
	Sao chép ssh key được tạo vào node chính 
	BƯỚC 7: Sao chép key ssh node chính sang authorized key của node phụ.
     
    
    
    
 
    
    
        
	
	
	Sao chép ssh key được tạo vào node phụ 
	BƯỚC 8: Tải xuống Java 8 package. Lưu tập tin này trong thư mục home.
	BƯỚC 9: Extra file Java Tar trên tất cả các node
     
    
    
    
 
    
    
        
	
	
	Giải nén file Java Tar 
	BƯỚC 11: Tải xuống Hadoop 2.7.3 package trên tất cả các node.
     
    
    
    
 
    
    
        
	
	
	Tải xuống Hadoop 
	BƯỚC 11: Giải nén tệp Hadoop tar trên tất cả các node.
     
    
    
    
 
    
    
        
	
	
	Giải nén file Hadoop tar 
	BƯỚC 12: Thêm các đường dẫn Hadoop và Java trong tệp bash (.bashrc) trên tất cả các node.
Mở tập tin bashrc. Bây giờ, thêm Đường dẫn Hadoop và Java như dưới đây:
     
    
    
    
 
    
    
        
	
	
	Mở file bashrc
	
	
	Chỉnh sửa đường dẫn Hadoop và Java 
Sau đó, lưu tệp bash và đóng nó lại.
Để áp dụng tất cả các thay đổi này cho Terminal hiện tại, hãy thực thi lệnh:
     
    
    
    
 
    
    
        
	
	
	Thực thi lệnh source .bashrc 
Để đảm bảo rằng Java và Hadoop đã được cài đặt đúng trên hệ thống của bạn và có thể được truy cập thông qua Terminal, hãy thực thi các lệnh java -version và hadoop version.
     
    
    
    
 
    
    
        Bây giờ, hãy chỉnh sửa các tập tin cấu hình trong thư mục hadoop-2.7.3/etc/hadoop.
	BƯỚC 13: Tạo file masters và chỉnh sửa như sau trong cả máy chính và máy phụ như sau:
    
    
    
    
 
    
    
        
	
	
	Chỉnh sửa file masters 
	BƯỚC 14: Chỉnh sửa file slaves trong máy chủ như sau:
     
    
    
    
 
    
    
        
	
	
	Chỉnh sửa file slaves trong máy Chính 
	BƯỚC 15: Chỉnh sửa file slaves trong máy phụ như sau:
     
    
    
    
 
    
    
        
	
	
	Chỉnh sửa file slaves trong máy phụ 
	BƯỚC 16: Chỉnh sửa core-site.xml trên cả máy chính và máy phụ như sau:
     
    
    
    
 
    
    
        
	
	
	Chỉnh sửa core-site
	
	  
     
    
    
    
 
    
    
        
	BƯỚC 7: Chỉnh sửa hdfs-site.xml trên master như sau:
    
    
    
    
 
    
    
        
	
	
	Chỉnh sửa hdfs-site 
     
    
    
    
 
    
    
        
	BƯỚC 18: Chỉnh sửa hdfs-site.xml trên máy phụ như sau
    
    
    
    
 
    
    
        
	BƯỚC 19: Sao chép mapred-site từ mẫu trong thư mục configuration và chỉnh sửa mapred-site.xml trên cả máy chủ và máy phụ như sau:
    
    
    
    
 
    
    
        
	
	
	Sao chép và chỉnh sửa mapred-site
	
	  
     
    
    
    
 
    
    
        
	BƯỚC 20: Chỉnh sửa yarn-site.xml trên cả máy chủ và máy phụ như sau
    
    
    
    
 
    
    
        
	
	
	Sao chép và chỉnh sửa yarn-site 
     
    
    
    
 
    
    
        
	BƯỚC 21: Định dạng tên node (Chỉ trên máy chủ).
    
    
    
    
 
    
    
        
	
	
	Chỉnh sửa namenode 
	BƯỚC 22: Start all daemons (Chỉ trên máy chủ).
     
    
    
    
 
    
    
        
	
	
	Start all daemons
	  
	BƯỚC 23: Kiểm tra tất cả các trình tiện ích chạy trên cả máy chính và máy phụ
     
    
    
    
 
    
    
        
	
	
	Kiểm tra trên máy chính 
	
	
	Kiểm tra trên máy phụ 
Cuối cùng, hãy mở trình duyệt và truy cập theo đường dẫn master:50070/dfshealth.html trên máy chủ của bạn, nó sẽ đưa bạn đến giao diện NameNode.
Cuộn xuống và xem số lượng live node, nếu là 2, bạn đã thiết lập thành công cụm Hadoop đa node.
Trong trường hợp, nó không phải là 2, bạn có thể đã làm thiếu bước nào đó mà mình đã hướng dẫn ở trên.
Nhưng không cần phải lo lắng, bạn có thể quay lại và xác minh lại các bước từ đầu.
	
	
	
	Cài đặt Multi Node Cluster trong Hadoop: Kết quả 
Ở đây, chúng tôi chỉ có 2 DataNodes. Nếu bạn muốn, bạn có thể thêm nhiều DataNodes theo nhu cầu của mình.
Mình hy vọng bạn đã cài đặt thành công Cụm đa node trong Hadoop. Nếu bạn đang gặp phải bất kỳ vấn đề nào, bạn có thể bình luận bên dưới, mình sẽ cố gắng trả lời ngay.
>>> Nếu bạn muốn được hướng dẫn đầy đủ cho team của mình. Hãy đăng ký khóa Đào tạo Big Data để được hỗ trợ đầy đủ nhất.