Hướng dẫn cài hadoop 0.18.0 năm 2024
Apache Hadoop là một dự án phần mềm nguồn mở được sử dụng để xây dựng các hệ thống xử lý dữ liệu lớn, cho phép tính toán phân tán và mở rộng trên các cụm tới hàng ngàn máy tính với khả năng sẵn sàng và chịu lỗi cao. Hiện nay Hadoop đã phát triển trở thành một hệ sinh thái với rất nhiều sản phẩm, dịch vụ khác nhau. Trước đây mình sử dụng Ambari HDP để cài đặt và quản lý Hadoop Ecosystem, công cụ này cho phép tập trung tất cả cấu hình của các dịch vụ Hadoop về một nơi, từ đó dễ dàng quản lý và mở rộng node khi cần. Tuy nhiên từ năm 2021 HDP đã đóng lại để thu phí, tất cả các repository đều yêu cầu tài khoản trả phí để có thể download và cài đặt. Gần đây mình có nhu cầu cần cài đặt hệ thống Hadoop mới, mình quyết định cài tay từng thành phần, tuy sẽ phức tạp và tốn nhiều công sức hơn nhưng mình có thể kiểm soát dễ dàng hơn không bị phụ thuộc vào bên khác, một phần cũng do hệ thống mới chỉ có 3 node nên khối lượng công việc cũng không bị thêm quá nhiều. Toàn bộ quá trình cài đặt mình sẽ ghi chép lại chi tiết trong series các bài viết thuộc chủ đề
Show 2 mọi người chú ý đón đọc nhé! Nội dungMục tiêuTrong bài viết này mình sẽ cài đặt Hadoop bản mới nhất (3.3.4 vào thời điểm viết bài này) trên 3 node Ubuntu 20.04 và OpenJdk11. Để thuận tiện cho việc setup và thử nghiệm mình sẽ sử dụng Docker để giả lập 3 node này. Cài đặt môi trườngĐầu tiên chúng ta tạo một bridge network mới trên Docker (Nếu chưa cài Docker các bạn xem hướng dẫn cài tại đây)
Tiếp theo là tạo một container trên image Ubuntu 20.04
Mình đang sử dụng MacOS nên cần binding port từ container ra máy host, bạn không cần làm điều này nếu sử dụng Linux hoặc Window. Cài đặt các package cần thiết
Tạo user hadoop
Vì lý do bảo mật, Hadoop khuyến nghị mỗi dịch vụ nên chạy trên một user khác nhau, xem chi tiết tại đây Tạo ssh-key trên mỗi user
Start ssh service Thêm hostname trong file
3 Lưu ý
Kiểm tra xem đã ssh được vào hay chưa Download hadoop và cấu hìnhTa lên trang chủ download của Hadoop tại đây để lấy link down bản mới nhất.
Tiếp theo cần cấu hình biến môi trường, ở đây chúng ta sẽ thêm các biến môi trường vào file
5 để tất cả các user trên hệ thống đều có thể sử dụng
Cập nhật biến môi trường
Cũng cần cập nhật biến môi trường trong file:
6
Thiết lập cấu hình cho Hadoop
0 Cấu hình
1 Chạy trên 1 nodeFormat file trên Name Node
2 Chạy các dịch vụ của Hadoop trên account root
3 Kết quả
Thêm node mới vào cụmĐể thêm một node mới vào cụm thì trên node đó cũng thực hiện đầy đủ các bước ở trên. Do sử dụng Docker nên mình sẽ tạo một image từ container đang có
4 Run container mới từ image vừa tạo
5 Trên node02 ta start service ssh và xoá thư mục data cũ đi
6 Cập nhật ip, hostname của Namenode cho node02
7 Trên node01 chúng ta bổ sung thêm ip và hostname của node02
8
Sau đó start all các dịch vụ của hadoop trên node01
3 Kiểm tra node02 đã được add vào chưa
Làm tương tự với node03 ta sẽ được cụm 3 node Lưu ý do mình clone node02, node03 từ node01 ban đầu nên không cần add ssh-key của các tài khoản (do đã sử dụng chung một ssh-key). Nếu cài trên hệ thống thật thì cần copy public key từ mỗi account trên namenode và add vào authorized_keys của account tương ứng trên datanode. Hướng dẫn sử dụng cơ bảnĐể start tất cả các dịch vụ trong cụm Hadoop ta cần vào master node (trong bài này là node01) sử dụng account root
3 Master node cần có ip và hostname của tất cả các slave node trong file Để tắt tất cả dịch vụ của cụm Hadoop
1 Kết luậnNhư vậy trong bài viết này mình đã giới thiệu đầy đủ về quá trình cài Hadoop của mình, các bạn làm theo có vấn đề gì thì cố gắng tự giải quyết nha :). Hẹn gặp lại trong bài viết sau. |