R for babies
R là một ngôn ngữ lập trình được phát triển bởi GS. Robert Gentleman và GS. Ross Ihaka tại Đại học Auckland1. Tên gọi R được đặt theo chữ cái đầu của tên 2 tác giả (Robert và Ross).
Robert Gentleman: “Let’s write some software.”
Ross Ihaka: “Sure, that sounds like fun.”2
Ngôn ngữ lập trình là một tập hợp các hướng dẫn để yêu cầu máy tính thực hiện một số tác vụ nhất định.3
Ngôn ngữ là phương tiện để con người giao tiếp với con người. Ngôn ngữ lập trình là phương tiện để con người giao tiếp với máy tính.3 Vì vậy, học ngôn ngữ lập trình cũng giống như học ngoại ngữ, bao gồm từ vựng, ngữ pháp, cụm từ, mệnh đề… để viết thành một câu văn mà máy tính có thể hiểu được và làm đúng những gì con người muốn.
Một số ngôn ngữ lập trình trong phân tích dữ liệu [Photo credit]
Câu lệnh (command) hoặc hàm (function) chính là những câu văn trong R để giao tiếp với máy tính. Chúng ta phải học ngữ pháp của 1 câu lệnh và ý nghĩa của nó để có thể sử dụng R để ra lệnh cho máy tính.
Một câu lệnh trong R thường có dạng như sau:
()
, thể hiện ý nghĩa câu lệnh dùng để làm gì.()
là những tham số của câu lệnh đó. Tham số là những yêu cầu nhỏ và cụ thể để máy tính hiểu rõ hơn yêu cầu của người dùng.=
: dùng để gán 1 giá trị cho tham số. Giá trị gán cho tham số có thể là một data đầu vào, hoặc một lựa chọn của người dùng (đúng/sai).Tên câu lệnh là mean
: chúng ta đang yêu cầu máy tính hãy tính giá trị trung bình của 1 biến.
Các tham số là x
và na.rm
:
x
: là data đầu vào, ở đây chúng ta viết x = df$col1
để cho máy tính biết data đầu vào là cột col1
trong bảng data df
.na.rm
: là yêu cầu cụ thể cách giải quyết khi gặp missing value (NA), ở đây chúng ta lựa chọn na.rm = TRUE
nghĩa là nếu cột col1
có NA thì bỏ những giá trị NA đi trước khi tính trung bình.Lưu ý
Để đọc hướng dẫn sử dụng về câu lệnh, gõ ?tên-câu-lệnh
.
Bài tập
Nhập ?mean
để đọc hướng dẫn sử dụng lệnh mean()
R là ngôn ngữ lập trình. Người dùng giao tiếp, đối thoại với máy tính bằng cách nhập những câu văn (code) giống như chat với máy tính, để máy hiểu và làm đúng những gì con người muốn.
SPSS, Stata, SAS là các gói phần mềm thống kê (software package) thương mại, được thiết kế giao diện người dùng kéo thả, click chọn để dễ dàng giao tiếp với máy tính hơn. Người dùng cũng có thể viết code (SPSS Syntax, Stata command, SAS program) để lưu lại các bước phân tích, nhưng đây không phải mục tiêu chính của các gói thương mại này. Người dùng không thể yêu cầu máy tính làm gì khác với những chức năng đã được quy định sẵn trong gói phần mềm. Mỗi gói phần mềm được viết bằng một ngôn ngữ lập trình: SPSS (Java), Stata (C), SAS (C)
Các gói phần mềm phổ biến trong R [Photo credit]
Một số biểu đồ vẽ bằng R [Photo credit]
R là ngôn ngữ lập trình. Sau khi cài R, chúng ta mở lên sẽ thấy giao diện giống như một khung chat trống. Khung chat này là nơi chúng ta viết code để giao tiếp với máy tính.
RStudio là một môi trường phát triển tích hợp (integrated development environment hay IDE) hay nói đơn giản là một phần mềm để viết code R hiệu quả hơn.
Vì vậy, chúng ta cần cài đặt riêng R (ngôn ngữ lập trình) và RStudio (IDE).
Truy cập https://cran.r-project.org/ và tải R cho hệ điều hành của mình.
Truy cập https://posit.co/download/rstudio-desktop/ và tải RStudio cho hệ điều hành của mình.
R packages là các gói phần mềm được viết bằng ngôn ngữ lập trình R để thực hiện một số tác vụ cụ thể.
Cài đặt R packages bằng:
Lưu ý
install.packages()
.""
.Sau khi cài đặt thì package sẽ trở thành một “thư viện” trong R. Để gọi thư viện này, dùng:
Lưu ý
""
.Các đoạn hội thoại giữa chúng ta và máy tính có thể được lưu lại bằng file R Script (.R
) hoặc R Markdown (.Rmd
). Gần đây có thêm Quarto (.qmd
) mở rộng hơn những gì R Markdown có thể làm. Vì cách viết Quarto khá giống R Markdown, nên chúng ta sẽ tập trung vào học R Markdown cơ bản.
Tạo R Script bằng cách vào menu File
> New File
> R Script
.
R Script là file chứa các câu lệnh R và những dòng chú thích ngắn gọn về câu lệnh (comments). Có 2 cách để comment:
#
đầu dòng để xác định dòng này là comment.#
ở cuối dòng lệnh.Tạo R Markdown bằng cách vào menu File
> New File
> R Markdown...
.
R Markdown là công cụ để tạo ra tài liệu tự động. Trong file R Markdown chứa code R xen kẽ với văn bản mô tả, bảng, biểu đồ… có thể xuất ra nhiều loại định dạng như .docx
, .pdf
, .html
, .pptx
.
---
. Phần này để mô tả tiêu đề tài liệu, tác giả, ngày tháng, định dạng mong muốn#
và các đề mục nhỏ hơn thì tăng thêm số dấu #
như ##
, ###
.Để tạo code chunk chúng ta nhấn tổ hợp phím tắt Ctrl
+ Alt
+ I
, hoặc nhấn vào icon này trên thanh công cụ, chọn R:
Ví dụ có file R Markdown sau:
Khi knit
file R Markdown trên sẽ tạo ra file báo cáo sau với đầy đủ tiêu đề, đề mục, bảng kết quả, biểu đồ… giống như được tạo ra từ 1 chương trình soạn thảo văn bản như Word. Để knit
file R Markdown thì chọn kí hiệu knit
trên thanh công cụ:
Kết quả knit
như sau: