Hướng dẫn cài hadoop trên win 10
Hadoop là một dự án Apache mã nguồn mở cho phép tạo các ứng dụng xử lý song song trên các tập dữ liệu lớn, được phân phối trên các nodes được kết nối mạng. Nó bao gồm Hadoop Distributed File System (HDFS™) xử lý khả năng mở rộng và dự phòng dữ liệu giữa các nodes và Hadoop YARN, một khuôn khổ để lập lịch thực hiện các tác vụ xử lý dữ liệu trên tất cả các nodes. Show Kiến trúc hadoop clusterKiến trúc Hadoop Cluster gồm 2 loại node chính:
Cài đặt hadoop cluster:Chuẩn bị:Với bài hướng dẫn này sẽ được tiến hành cài đặt trên 3 VPS OS Ubuntu 20 LTS hoặc 3 Server OS Ubuntu 20 LTS với IP lần lượt là :
Trong đó VPS có IP 10.124.11.53 sẽ đóng vai trò là master trong cụm cluster. Phần môi trường cần cài đặt trên 3 máy: java jdk 1.8 trở lên. Nếu như các node chúng ta chưa có cài đặt java jdk chúng ta có thể thực thi lệnh sau:
Tiến hành chuyển sang user hadoop:
Tạo keypair xác thực cho user hadoopMaster node sẽ sử dụng giao thức ssh để kết nối tới các node khác và quản lý cluster. Thực hiện: Log in vào node-master với user hadoop , tạo 1 ssh-key gán cho user hadoop. Sau đó thử ssh bằng user hadoop vào từng node 1, nếu như hỏi password tức là đã thành công:
Tải xuống và giải nén Hadoop BinariesĐăng nhập vào node-master với user hadoop, download bộ cài hadoop từ trang chủ:
Giải nén
Đổi tên thư mục giải nén thành hadoop cho dễ quản lý
Cấu hình một số biến môi trườngChúng ta tiền hành thêm một số biến môi trường bằng cách thêm vào file “.profile” bằng cách thêm dòng sau:
Thêm Hadoop vào PATH của chúng ta cho shell. Thực hiện chỉnh sửa file “.bashrc” và thêm các dòng sau:
Cấu hình Master NodeThiết lập JAVA_HOMETìm vị trí cài đặt java, mặc định ở /usr/java/java-8-openjdk-amd64 Có thể tìm bằng cách: `apt-get update && apt-get upgrade`0 Chỉnh sửa file “~/hadoop/etc/hadoop/hadoop-env.sh” và thay thế dòng này:
sang dòng sau: `apt-get update && apt-get upgrade`1 Đặt đường dẫn NamenodeTrên mỗi node đều cần thiết đặt file core-site.xml tại “~/hadoop/etc/hadoop/core-site.xml” là thư mục chứa file cấu hình của hệ thống hdfs. Cập nhật tệp “~/hadoop/etc/hadoop/core-site.xml” của chúng ta để đặt vị trí NameNode thành node-master trên cổng 9000: `apt-get update && apt-get upgrade`2 Đặt đường dẫn cho HDFSChỉnh sửa file hdfs-site.conf để giống với cấu hình sau: `apt-get update && apt-get upgrade`3 Lưu ý: Thuộc tính cuối cùng, dfs.replication cho biết số lần dữ liệu được sao chép trong cluster. Chúng có thể đặt 2 để có tất cả dữ liệu được nhân đôi trên hai node. Không nhập giá trị cao hơn số node thực tế. Thiết lập Yarn làm Job SchedulerChỉnh sửa tệp mapred-site.xml, đặt YARN làm khung mặc định cho các hoạt động MapReduce: `apt-get update && apt-get upgrade`4 Cấu hình YARNChỉnh sửa fiber-site.xml, chứa các tùy chọn cấu hình cho YARN. Trong trường giá trị cho fiber.resourcemanager.hostname, hãy thay thế bằng địa chỉ IP public của node-master: `apt-get update && apt-get upgrade`5 Cấu hình WorkersCác Workers file được sử dụng bởi các tập lệnh khởi động để bắt đầu các daemon cần thiết trên tất cả các node. Chỉnh sửa “~/hadoop/etc/hadoop/worker” để bao gồm cả hai nút: `apt-get update && apt-get upgrade`6 `apt-get update && apt-get upgrade`7 Cấu hình phân bổ RAMViệc phân bổ ram có thể làm để những node có ram thấp có thể chạy được. Các giá trị mặc định được thiết kế cho các máy 8GB ram trở lên. Dưới đây là những tuỳ chỉnh cho những node 2GB Ram. |