Hướng dẫn khai căn trên phần mềm r

Khai báo đối tượng dạng vector. Trong đó, hàm c(concatenate), được sử dụng để gán vector cho đối tượng

numeric.data <- c(1, 2, 3, 4, 5, 6, 7)  
numeric.data + 1
## [1] 2 3 4 5 6 7 8

Lệnh cơ bản với đối tượng (objects) và hàm (functions)

Khai báo đối tượng dạng bảng. Trong đó, hàm data.frame, được sử dụng để gán bảng cho đối tượng

A <- c(1, 3, 4)  
B <- c(2, 3, 5)  
my.table <- data.frame(A, B)  
my.table # hiển thị my.table 
##   A B  
## 1 1 2  
## 2 3 3  
## 3 4 5

Lệnh cơ bản với đối tượng (objects) và hàm (functions)

Bạn đọc có thể tạo ra một hàm riêng bằng cách sử dụng những phép toán và hàm đã có bằng hàm function

my.fuction <- function(x,y)  
  {data.frame(x, y)}  
  
A <- c(1, 3, 4)  
B <- c(2, 3, 5)  
my.fuction(A,B) 
##   x y  
## 1 1 2  
## 2 3 3  
## 3 4 5

Nhập dữ liệu từ các tập tin có định dạng khác nhau

Bạn cũng có thể nhập dữ liệu từ nhiều nguồn khác nhau: (.txt), (.csv), (.xlsx), (.sav), (.rda)

Trong trường hợp dữ liệu được lưu bằng phần mềm Excel có định dạng là .xls hay .xlsx, bạn đọc nên chuyển định dạng trên thành định dạng .csv (Comma delimited) như sau:

  1. Mở tập tin excel chứa dữ liệu, chọn Save as.
  2. Chọn Save as type “CSV (Comma delimited)”.
  3. Lưu vào thư mục mong muốn.

Nhập dữ liệu từ Excel (.csv)

Bạn đọc nhập tập dữ liệu có định dạng .csv vào R bằng cách sử dụng hàm read.csv.


# Thiết lập đường link chứa tập tin .csv mong muốn  
setwd("C:/Tap tin thuc hanh R/Muc 2-Doi tuong va ham")   

# Gán tập dữ liệu cho data.csv  
data.csv <- read.csv("excelfile.csv", header = TRUE)   
data.csv
##   A  B  C  
## 1 1 32 43  
## 2 2  3  5  
## 3 3 34 32  
## 4 4  3 32

Trực quan hóa dữ liệu

Điểm mạnh tuyệt đối của R là khả năng trực quan hóa dữ liệu. Trong đó, một số các biểu đồ thông dụng:

  1. Biểu đồ thanh (bar chart)
  2. Biểu đồ tròn (pie chart)
  3. Biểu đồ hộp (box plot)
  4. Biểu đồ chấm (dot plot)
  5. Biểu đồ phân tán (scatter plot)
  6. Biểu đồ đo lường tính liên tục (strip chart)
  7. Biểu đồ tương quan nhiều cặp (pairs)
  8. Biểu đồ đường thẳng (mat plot)
  9. Biểu đồ tần suất (histogram)
  10. Vv….

Trực quan hóa dữ liệu

Biểu đồ thanh (bar chart)

## [1] 3

0

## [1] 3

1

Trực quan hóa dữ liệu

Biểu đồ thanh (bar chart)

## [1] 3

2

Trực quan hóa dữ liệu

Biểu đồ thanh (bar chart)

Trực quan hóa dữ liệu

Biểu đồ tròn (pie chart)

## [1] 3

3

Trực quan hóa dữ liệu

Biểu đồ tròn (pie chart)

Trực quan hóa dữ liệu

Biểu đồ hộp (box plot)

## [1] 3

4

Trực quan hóa dữ liệu

Biểu đồ hộp (box plot)

Trực quan hóa dữ liệu

Biểu đồ hộp (box plots)

Trực quan hóa dữ liệu

Biểu đồ Sunbrust

Thống kê ứng dụng

R tồn tại để thực hiện các bài toán thống kê ứng dụng. Một số nội dung cơ bản bao gồm:

  1. Thống kê mô tả
  2. Biến ngẫu nhiên và phân phối xác suất
  3. Kiểm định giả thuyết thống kê
  4. Phân tích phương sai
  5. Phân tích hồi quy
  6. Vv….

Thống kê mô tả

Mục đính là mô tả, tóm tắt và hiểu được khuynh hướng tập trung và phân tán của tập dữ liệu. Ví dụ như:

## [1] 3

5

## [1] 3

6

Thống kê mô tả

Bảng tóm tắt các đại lượng thống kê mô tả cho biến Score của tập dữ liệu “data”:

## [1] 3

7

Kiểm định giả thuyết thống kê

Mục đính là kểm định giả thuyết có hay không sự khác biệt một cách có ý nghĩa của tham số tổng thế: trung bình, phương sai, tỷ lệ….

Vi dụ: Người quản lý nhân sự muốn kiểm định có hay không mối liên hệ giữa kết quả học tập và mức độ hiệu quả trong việc hoàn thành các nhiệm vụ được giao. Có 3 mức độ để phân loại kết quả học tập “excellence”, “good” và “pass” đánh giá hiệu quả làm việc theo 4 mức độ “A.plus”, “A”, “B”, “C”. Dữ liệu được thu thập bằng cách khảo sát 98 nhân viên.

## [1] 3

8

Kiểm định giả thuyết thống kê

## [1] 3

9

## [1] 3

8

Kiểm định giả thuyết thống kê

numeric.data <- c(1, 2, 3, 4, 5, 6, 7)  
numeric.data + 1

1

numeric.data <- c(1, 2, 3, 4, 5, 6, 7)  
numeric.data + 1

2

Phân tích hồi quy

Phân tích hồi quy là tìm hiểu mối liên hệ (dự báo) giữa một biến phụ thuộc (response variable) với một hoặc nhiều biến độc lập (independent variable) hay còn gọi là biến giải thích (explanatory variable).

numeric.data <- c(1, 2, 3, 4, 5, 6, 7)  
numeric.data + 1

3

numeric.data <- c(1, 2, 3, 4, 5, 6, 7)  
numeric.data + 1

4

Phân tích hồi quy

Phương trình hồi quy:

response = 55.7410 + 2.1624 × indepenA + 1.5685 × indepenB

numeric.data <- c(1, 2, 3, 4, 5, 6, 7)  
numeric.data + 1

5

numeric.data <- c(1, 2, 3, 4, 5, 6, 7)  
numeric.data + 1

6

Những ứng dụng khác

Có quá nhiều các ứng dụng trong R, ví dụ như: Phương pháp Six Sigma, Khai thác văn bản, Machine learning, vv…