Trong bài hướng dẫn này, mình sẽ hướng dẫn bạn từng bước, từng bước để Cài đặt Apache Hadoop trên Linux box (Ubuntu).
-
Phần 1: Hướng dẫn từng bước Tải và cài đặt Hadoop
-
Phần 2: Hướng dẫn từng bước Cấu hình Hadoop
Hướng dẫn Cài đặt và Cấu hình Hadoop
Để làm được 2 phần này thì yêu cầu bạn phải:
1. Hướng dẫn từng bước tải và cài đặt Hadoop
-
Bước 1: Thêm hadoop system user bằng lệnh bên dưới
Nhập password, name và các thông tin khác của bạn.
LƯU Ý: Có khả năng xảy ra lỗi dưới đây trong quá trình cài đặt và cài đặt này.
"hduser is not in the sudoers file. This incident will be reported."
=> Lỗi này có thể được giải quyết bằng cách Đăng nhập với tư cách root user
>>> Tất cả các lỗi phát sinh sẽ được giải đáp đầy đủ và kỹ càng hơn trong Khóa học Big Data của NIIT - ICT Hà Nội.
Gõ lệnh sau:
Để quản lý các Node trong một cụm, Hadoop yêu cầu truy cập SSH
Đầu tiên, chúng ta chuyển user, bằng cách nhập lệnh sau:
Lệnh này sẽ tạo một key mới.
Cho phép truy cập SSH vào máy cục bộ bằng:
Bây giờ hãy kiểm tra thiết lập SSH bằng cách kết nối đến localhost với tư cách là người dùng 'hduser'.
Lưu ý: Nếu bạn thấy lỗi phản hồi lại là 'ssh localhost', thì có khả năng SSH không khả dụng trên hệ thống này.
Để giải quyết vấn đề này thì,
Lọc SSH bằng cách sử dụng lệnh:
Đó là một phương án tốt để lọc trước khi bắt đầu cài đặt.
Cài đặt SSH sử dụng lệnh
-
Bước 3: Tải Hadoop (Download Hadoop)
Bạn tải Hadoop tại đây
Hướng dẫn tải Hadoop
Hướng dẫn tải Hadoop - Chọn Stable
Hướng dẫn tải Hadoop - Chọn phiên bản tar.gz
Khi quá trình tải xuống hoàn tất, bạn hãy điều hướng đến thư mục chứa tệp tar, bằng lệnh sau:
Bây giờ, đổi tên hadoop-3.2.0 thành hadoop
Tiếp tục sử dụng lệnh sau:
2: Hướng dẫn từng bước Cấu hình Hadoop (Configure Hadoop)
-
Bước 1: Sửa đổi file ~/.bashrc
Thêm các dòng sau vào cuối tệp ~/.bashrc
Bây giờ, cấu hình môi trường này bằng cách sử dụng lệnh dưới đây:
-
Bước 2: Các cấu hình liên quan đến HDFS
Đặt JAVA_HOME trong tệp $HADOOP_HOME/etc/hadoop/hadoop-env.sh bằng cách:
Đổi export JAVA_HOME=${JAVA_HOME} ở trong file trên bằng:
Đến bước này, Có hai tham số trong $HADOOP_HOME/etc/hadoop/core-site.xml cần được thiết lập.
-
"hadoop.tmp.dir": Tham số này được sử dụng để chỉ định một thư mục sẽ được Hadoop sử dụng để lưu trữ các tệp dữ liệu của nó.
-
"fs.default.name": Tham số này chỉ định hệ thống tập tin mặc định.
Để thiết lập cho 2 tham số này, ta mở core-site.xml với lệnh sau:
Sao chép dòng bên dưới ở giữa các thẻ: <configuration></configuration>
Điều hướng đến thư mục $HADOOP_HOME/etc/Hadoop
Bây giờ, hãy tạo thư mục được đề cập trong core-site.xml
-
Bước 3: Hướng dẫn Cấu hình Map Reduce (Map Reduce Configuration)
Trước khi bạn bắt đầu với các cấu hình Map Reduce này, hãy thiết lập đường dẫn HADOOP_HOME
Thoát Terminal và khởi động lại
Gõ echo $HADOOP_HOME để xác minh đường dẫn
và mở tệp mapred-site.xml
Thêm dòng thiết lập bên dưới vào giữa các thẻ <configuration> và </configuration>
Mở $HADOOP_HOME/etc/hadoop/hdfs-site.xml như câu lệnh bên dưới:
Thêm các dòng cài đặt bên dưới giữa các thẻ <configuration> và </configuration>
Tạo một thư mục được chỉ định trong cài đặt ở trên:
-
Bước 4: Trước khi chúng ta khởi động Hadoop lần đầu tiên, hãy định dạng HDFS bằng lệnh bên dưới
-
Bước 5: Khởi động Hadoop Single Node Cluster bằng lệnh bên dưới
Chúng ta sẽ nhận được yêu cầu có chắc chắn tiếp tục (yes / no)? -> Chọn yes
Tiếp tục gõ lệnh:
Sử dụng 'jps' tool/command, xác minh xem tất cả các quy trình liên quan đến Hadoop có đang chạy hay không.
Nếu Hadoop đã khởi động thành công thì một output của jps sẽ hiển thị thông tin:
-
NameNode
-
NodeManager
-
ResourceManager
-
juniorNameNode
-
DataNode
Để tạm dừng Hadoop ta sử dụng lệnh sau:
Tổng kết
Như vậy là bạn đã biết cách từng bước Cài đặt Hadoop và Cấu hình Hadoop trên Ubuntu. Nếu có bất kỳ lỗi gì trong quá trình cài đặt.
Hãy comment chi tiết vấn đề của bạn tại bài viết này để mình hỗ trợ nhé.