Ví dụ về mô hình hồi quy tuyến tính

Full PDF PackageDownload Full PDF Package

This Paper

Nội dung chính Show

1. Mô hình hồi quy tuyến tính đơn giản
1.1. Khái niệm
1.2. Phương trình hồi quy tuyến tính tổng quát
2. Bản chất, ý nghĩa của mô hình hồi quy tuyến tính
2.1. Bản chất của biến phụ thuộc
2.2. Bản chất của các biến độc lập
2.3. Bản chất của hạng nhiễu hay sai số ngẫu nhiên
2.4. Bản chất của các hệ số hồi quy
2.5. Ý nghĩa mô hình hồi quy tuyến tính
2.6. Các loại dữ liệu thường được áp dụng trong mô hình hồi quy tuyến tính
3. Mô hình hồi quy tuyến tính đa biến
3.1. Phương pháp bình phương nhỏ nhất (OLS)
3.2. Mô hình hồi quy tuyến tính cổ điển
3.3. Phương sai và sai số chuẩn của các ước lượng OLS
3.4. Phân phối xác suất của các ước lượng OLS
4. Chạy hồi quy bằng phương pháp bình phương nhỏ nhất OLS trong Stata
Cách 1: Dùng Menu hồi quy tuyến tính trong phần mềm Stata
Cách 2: Dùng lệnh trong Stata hồi quy tuyến tính OLS
5. Giải thích ý nghĩa mô hình OLS và cách đọc bảng kết quả hồi quy trong Stata
Các mục trọng số cần chú ý khi đọc bảng hồi quy và ý nghĩa:
6. Tổng kết
Video liên quan

A short summary of this paper

37 Full PDFs related to this paper

Download

PDF Pack

Hồi quy tuyến tính (Linear Regression) được phát triển thành mô hình hồi quy tuyến tính – LRM (Liner Regression Model) là 1 trong công cụ quan trọng trong Kinh tế lượng và là phương pháp thống kê giúp hồi quy dữ liệu giữa một một giá trị liên tục với một hoặc nhiều các giá trị liên tục, định danh hay phân loại có liên quan. Hiểu 1 cách đơn giản thì Hồi quy tuyến tính là phương pháp tiếp cận tuyến tính để dự đoán biến phụ thuộc (Y) dựa trên các biến giải thích hay biến độc lập (X) trong mô hình.

1. Mô hình hồi quy tuyến tính đơn giản

1.1. Khái niệm

1.2. Phương trình hồi quy tuyến tính tổng quát

Bắt đầu bằng mô hình hồi quy tuyến tính bội (multiple regression model) với dạng mô hình hồi quy tổng thể (population regression model) với n -1 biến giải thích có dạng như sau:

Yi = β1 + β2X2i + β3X3i + … + βnXni + ui (Mô hình 1)

Trong đó:

Y là biến phụ thuộc (dependent variable) hoặc còn gọi là regressand;
X là các biến giải thích hay biến độc lập (explanatory variables | independent variables). Các tên gọi khác như predictors, covariates, hoặc regressors;
βn là hệ số của các biến độc lập trong đó B1 là hệ số tự do
u là hạng nhiễu hay sai số ngẫu nhiên (random hay stochastic error term)
i là ký hiệu cho quan sát thứ i trong tổng thể.

Phương trình trên có thể rút gọn thành mô hình tổng thể (population model hay true model) như sau:

Yi = βX + ui (Mô hình 2)

với βX = β1 + β2X2i + β3X3i + … + βnXni
\

Trong đó:

βX được gọi là thành phần tất định (deterministic component) và được giải thích như 1 trung bình có điều kiện (conditional mean) của Yi, tức là E(Yi|X): giá trị trung bình của Y khi X là giá trị được cho trước;
ui là thành phần phi hệ thống (nonsystematic component) hoặc thành phần ngẫu nhiên (random component)

Khái niệm mô hình tổng thể (population) nghĩa là tổng quát (general) đề cập đến một chủ thể được xác định rõ (ví dụ như các công ty, các quốc gia, con người…) là trọng tâm trong phân tích kinh tế lượng hoặc xác xuất thống kê.

Ví dụ phương trình hồi quy tuyến tính trong thực tế:

Xét một mẫu gồm 5 đứa trẻ có tuổi và chiều cao khác nhau theo bảng:

Giả sử ta dữ đoán chiều cao theo tuổi của từng bé và mô phỏng rằng phương trình hồi quy tuyến tính sẽ là:

Y = β0 + β1*X

Trong mô hình này β1 là độ dốc (slope); β0 là chặn (intercept)); Y đại diện chiều cao và X đại diện cho tuổi của các bé.

5 đứa trẻ	Tuổi (X)	Chiều cao (cm) (Y)	Predict (Y- Chiều cao)
Vinh	6	80	*β0 + β16**
Đăng	7	100	*β0 + β17**
Long	8	120	*β0 + β18**
Khoa	9	130	*β0 + β19**
Hân	10	140	*β0 + β110**

Bảng 1.1. Mẫu phương trình hồi quy tuyến tính

Ta có thể đơn giản sử dụng công cụ thống kê ví dụ như Excel, SAS, R, Stata, Spss … để tìm kiếm ra được các hằng số β0 và β1 là kết quả dự đoán (predict) của hàm hồi quy tuyến tính.

Độ lệch chuẩn của X	1,5811	Dùng hàm =STDEV (giá trị X) trong excel
Độ lệch chuẩn của Y	24,0831	Dùng hàm =STDEV (giá trị Y) trong excel
Trung bình X	8	Dùng hàm Average=(X) trong excel
Trung bình Y	114	Dùng hàm Average=(Y) trong excel
Tương quan giữa X và Y	0,9847	Dùng hàm=CORREL(tuổi,chiềucao) trong excel
R2 (R – Square)	0.9698 ~ 0.97	Dùng hàm =RSQ(tuổi,chiều cao) trong excel

Bảng 1.2. Tìm các giá trị cần thiết để áp dụng vào công thức từ RSS trong Excel

Công thức tổng bình phương của phần dư RSS (Residual Sum of Squares): ∑(ei) =∑(Yi– βX – α)2

Ta tìm β1 và β0 từ kết quả và công thức trên như sau:

β1 = Tương quan * ( Độ lệch chuẩn của Y / Độ lệch chuẩn của X) = 0,9847 * (24,0831/1,5811) = 14,9988

β0 = Trung bình (Y) – B1 * Trung bình (X) = 114 – 14,9988 * 8 = -5,9904

Bảng 1.3. Kết quả áp dụng công thức của β1 và β0

Vậy ta có phương trình hồi quy tuyến tính bậc 1 với cách viết như sau: Y = -5,9904 + 14,9988X (trong đó . Chúng ta sẽ thay X là tuổi vào để tính các giá trị cần dự đoán ở Bảng 1.1 với kết quả là:

5 đứa trẻ	Tuổi (X)	Chiều cao (cm) (Y)	Predict (Y- Chiều cao)
Đăng	6	80	84,0024
Vinh	7	100	99,0012
Long	8	120	114
Khoa	9	130	128,9988
Hân	10	140	143,9976

Bảng 1.4. Kết quả dự đoán bằng Excel hoặc có thể đơn giản bấm máy tính CASIO

Từ kết quả trên ta vẽ được biểu đồ với đường mô hình hồi quy tuyến tính như sau:

Vẽ biểu đồ mô hình đường hồi quy tuyến tính trong phần mềm Excel

Có thể để ý từ kết quả dự đoán tại đứa trẻ Long là 114 có sự thay đổi hướng lên hoặc cùng 1 đường thẳng với các đứa trẻ còn lại vì mối quan hệ này không còn đúng chính xác 100% nữa mà chỉ đúng 97% theo như kết quả R-Square hay R2 trả về từ bảng 4.2 phía trên. Sự sai lệch này trong thống kê gọi là (residual) hoặc sai số (errors) là ước lượng của hạng nhiễu.

Xem thêm: Hồi quy tuyến tính trong machine learning

Độ mạnh của mô hình hồi quy tuyến tính

Độ mạnh của mô hình được đo lường thông qua hệ số xác định r2 (coefficient of determination) hay R-Square (R2) với sự dao động từ 0 đến 1. Thường bạn sẽ hy vọng mô hình của mình trên mức 0.5 nghĩa là khoảng trên 50% của phương sai biến phụ thộc Y dự đoán được từ biến độc lập X là tốt, còn lại là sai số mà Y không thể dự đoán được trong X. Nói 1 cách đơn giản ngược lại là các biến độc lập giải thích được bao nhiu phần trăm sự thay đổi hay biến thiên trong biến phụ thuộc.

Công thức tính R-Square (R2) là:

R2 = (TSS – RSS)/TSS

Trong đó:

Tổng các diện tích (TSS): TSS là một phép đo tổng hợp biến thiên trong tỷ lệ đáp ứng / biến phụ thuộc và có thể được coi là số lượng biến thiên vốn có trong đáp ứng trước khi hồi qui được thực hiện.
Sum of Squares (RSS): RSS đo lường lượng biến đổi còn lại không giải thích được sau khi thực hiện hồi quy.
Hiệu số TSS – RSS đo lường mức độ thay đổi trong đáp ứng được giải thích (hoặc loại bỏ) bằng cách thực hiện hồi quy.

Thang đo định danh (nominal scale): thường được dùng với các biến giả (dummy variables) hoặc biến phân loại (categorical variables) được lượng hoá thành 1 và 0 tuỳ theo sở thích người định danh. Các biến ví dụ như giới tính (gender), hôn nhân (marriage), tuổi dưới hay trên 20 (old), vùng miền (regions), tôn giáo (religion),…

Hãy xem hết các mục trên để các bạn tìm kiếm lời giải để áp dụng làm bài tập về hồi quy tuyến tính nhé!

2. Bản chất, ý nghĩa của mô hình hồi quy tuyến tính

2.1. Bản chất của biến phụ thuộc

Biến phụ thuộc được xem như 1 biến ngẫu nhiên có giá trị liên tục và được đo lường bằng một trong 4 thang đo thông dụng thường được nhắc đến trong phần mềm SPSS sau đây:

Thang đo khoảng (interval scale): ví dụ về thang đo khoảng cách giữa thu nhập người nghèo với người giàu, năm này với năm kia,….
Thang đo định danh: thường đo các biến giả có giá trị được lượng hoá thành 0 và 1 tuỳ theo sở thích người đặt. Ví dụ như giới tính, tôn giáo, hôn nhân…
Thang đo thứ bậc (ordinal scale): khá tương tự với thang đo định danh chỉ thêm vào vài biến giả và xếp hạng thứ bậc cho biến. Ví dụ như: Phân chia 4 mức thu nhập từ thấp -> cao; xếp hạng từ A ->D…
Thang đo tỷ lệ (ratio scale): là tỷ lệ, khoảng cách giữa hai biến số. Ví dụ nếu như biến phụ thuộc là tỷ số từ hai biến khác, thứ tự là các đại lượng có ý nghĩa (meaningful quantities) có thể so sánh được như đo lường so sánh GDP năm nay và năm ngoài hay Lạm phát (Inflation)…

Funfact: Trong kinh tế lượng căn bản, mô hình hồi quy tuyến tính ước lượng theo phương pháp OLS (sẽ đề cập trong mục bên dưới) thì biến Y chỉ ở dạng thang đo tỷ lệ hoặc thang đo khoảng (gọi chung là biến ngẫu nhiên liên tục). Lý do đơn giản là sự thay đổi thang đo và phân phối xác xuất của Y sẽ thay đổi luôn thang đo của sai số hay hạng nhiễu u, mà sai số u thì không thể là thang đo thứ bậc và định danh được.

2.2. Bản chất của các biến độc lập

Các biến độc lộc hay biến giải thích cũng có thể được đo lường theo bất kỳ các thang đo như biến phụ thuộc đã nêu trên. Biến độc lập trong mô hình hồi quy tuyến tính cổ điển (CLRM – classical linear regression model) được xem là biến phi ngẫu nhiên (nonrandom); nghĩa là các giá trị của biến độc lập được giữ cố định khi lấy mẫu lặp đi lặp lại (repeated sampling).

Vì vậy khi phaân tích hồi quy tuyến tính có điều kiện (conditional) thì bản chất là tính giá trị trung bình của biến phụ thuộc khi cho trước các giá trị của biến độc lập (conditional on the given value of the regressors).

Lưu ý: Bạn có thể cho phép các biến độc lập là ngẫu nhiên giống như biến biến phụ thuộc, nhưng cần phải lưu ý về cách giải thích các kết quả hồi quy.

2.3. Bản chất của hạng nhiễu hay sai số ngẫu nhiên

Hạng nhiễu hay sai số ngẫu nhiên sẽ đại diện cho tất cả các biến mà bạn bỏ sót hay không được đưa vào mô hình vì những lý do khác nhau gồm:

Không có sẵn dữ liệu (lack of data availability): ví dụ bạn đang điều tra các nhân tố ảnh hưởng đến thu nhập của gia đình như công việc, tuổi thì có thể thu thập được nhưng tinh thần của thành viên tạo ra thu nhập trong gia đình có tác động đến thu nhập thì rất khó để thu thập khi tiến hành điều tra hộ gia đình (household survey).
Lỗi đo lường trong dữ liệu (errors of measurement in the data): ví dụ bạn đã đo lường sai về thu nhập trung bình người dân TPHCM khi chỉ xét từ mức 100tr/ tháng trở xuống chẳng hạn… hoặc đánh giá về thời gian làm việc trong tuần của người dân TPHCM nhưng chưa xét đến việc có những công dân họ làm việc là giờ bạn đi ngủ,…

Funfact: Cho dù bạn có nguồn tạo ra hạng nhiễu u là gì thì vẫn có giả định cho rằng ảnh hưởng trung bình của hạng nhiễu ngẫu nhiên lên biến phụ thuộc là không đáng kể (whatever the source of the random term u, it is assumed that the average effect of the error term on the regressand is marginal at best).

2.4. Bản chất của các hệ số hồi quy

Các hệ số hồi quy là những con số cố định (fixed numbers) và không ngẫu nhiên (not random), mặc dù ta không thể biết giá trị thực của các hệ số này là bao nhiêu vì hệ số này tuỳ thuộc vào hoàn cảnh, đề tài và dữ liệu bạn thu thập.

Mục đích của phân tích hồi quy (regression test analysis) là ước lượng (estimate) các giá trị hệ số hồi quy (bias) dựa trên dữ liệu mẫu (on the basis of sample data), và các ước lượng (estimators) của hệ số hồi quy là các biến ngẫu nhiên vì giá trị của từng hệ số sẽ thay đổi khi mẫu thay đổi (vary from sample to sample when estimation).

Chú ý: Các hệ số hồi quy có phân phối chuẩn nên khi kiểm định từng hệ số hồi quy ta thường sử dụng thống kê t thay vì thống kê z. Một nhánh của thống kê được biết là thống kê Bayes (Bayesian statistics) xử lý các hệ số hồi quy (tổng thể) là ngẫu nhiên. À quên nhớ tìm hiểu thêm phương pháp đồng nhất hệ số nữa nhé!

2.5. Ý nghĩa mô hình hồi quy tuyến tính

Khi dịch từ tên hồi quy tuyến tính ta có thể thấy thuật ngữ tuyến tính (linear) trong mô hình hồi quy tuyến tính ở đây chính là tổ hợp tuyến tính ở các số hồi quy (linearity in the regression coefficients) mà không phải là tuyến tính ở biến phụ thuộc và độc lập.

Có thể bạn sẽ cần: Khi biến phụ thuộc Y và độc lập X ở dạng mô hình phi tuyến tính (nonlinear) thì 1 trong 2 biến có thể ở dạng logarit cơ số e tự nhiên như ln(X) (natural logarithm), hay dạng bình phương X2 (square), dạng tỷ lệ nghịch 1/X (reciprocal) hay 1 số dạng khác.

2.6. Các loại dữ liệu thường được áp dụng trong mô hình hồi quy tuyến tính

Có ba loại dữ liệu thường được sử dụng trong mô hình hồi quy tuyến tính gồm:

Dữ liệu chuỗi thời gian (time series): là loại dữ liệu tập hợp qua các thời gian khác nhau có thể được phân loại theo ngày, quý, tháng, năm và các biến thể trong thời gian khác. Ví dụ như chỉ số giá tiêu dùng (the consumer price index); giá chứng khoán (stock prices) theo ngày; GDP theo năm hoặc quý, tỷ giá hồi đoái (exchange rage),…

Chú ý: Trong dữ liệu thời gian thường có 2 đặc trưng vì các quan sát liên tục (successive observations) theo thời gian nên tương quan với nhau từ đó dẫn đến hiện tượng tự tương quan (autocorrelation) xảy ra trong mô hình và các chuỗi thời gian thường là chuỗi không dừng (nonstationarity) vì đa phần liên quan đến thời gian trong tài chính, mô hình kinh tế (financial and economic time series) nên có thể làm xuất hiện hiện tượng hồi quy giả mạo (spurious regression).

Tìm hiểu thêm: Hồi quy giả mạo (spurious regression) là gì?

Xem thêm: Hiệp phương sai (covariance) là gì?

Dữ liệu bảng (panel data) (một loại đặc biệt của dữ liệu gộp, pooled data): Là kết hợp từ dữ liệu thời gian và dữ liệu chéo vì vậy nó là sẽ kết hợp giữa các đặc trưng trong cả hai dữ liệu. Ví dụ như nghiên cứu ảnh hưởng của COVID lên các ngân hàng (cross-sectional aspect) trên sàn HOSE trong giai đoạn 5 năm (time-series aspect).

>>> Xem thêm: Hồi quy dữ liệu bảng trong phần mềm Stata

3. Mô hình hồi quy tuyến tính đa biến

Ở trên chúng ta đã thảo luận về mô hình tuyến tính đơn chỉ có một biến độc lập. Nếu xét nhiều hơn một biến độc lập trở thành 1 đa thức thì phương pháp phù hợp nhất là hồi quy tuyến tính đa biến (Multiple Regression Linear).

Xét về cơ bản thì không có sự khác biệt giữa hồi quy tuyến tính ‘đơn giản’ và ‘đa biến’. Cả hai mô hình đều tuân theo nguyên tắc OLS và thuật toán để có được đường hồi quy tối ưu nhất. Vậy đến đây bạn sẽ thắc mắc rằng mô hình hay phương pháp OLS là gì?

3.1. Phương pháp bình phương nhỏ nhất (OLS)

Khái niệm

Mô hình hồi quy bằng phương pháp bình phương nhỏ nhất hay bé nhất hoặc tối thiểu | cực tiểu viết tắt là OLS (Tiếng anh là Ordinary Least Square) hay còn gọi là mô hình Pooled OLS (Pool) là một trường hợp đặc biệt của phương pháp bình phương nhỏ nhất tổng quát (generalized least squares method – GLS) sử dụng để tìm đường hồi quy gần nhất với giá trị liên tục của biến phụ thuộc hay nói cách khác là làm sao để tổng bình phương các hạng nhiễu hay sai số (∑u2i ) nhỏ nhất như tên gọi của chính phương pháp này.

>>> Xem thêm: Mô hình GLS là gì?

Ý nghĩa

Xét mô hình hồi quy mẫu (sample regression model) với dạng như sau:

Yi = b1 + b2X2i+ b3X3i +…+ bkXki+ui (Mô hình 3)

Rút gọn thành mô hình tổng thể (population model) như sau:

Yi = bX + ui (Mô hình 4)

với bX = b1 + b2X2i + b3X3i + … + bnXni

Cũng như BX trong mô hình tổng thể ở Mô hình 2 [tức là E(Y|X)] được giải thích như một hàm hồi quy tổng thể (population regression function, PRF) thì ta có thể nói bX trong Mô hình 4 như hàm hồi quy mẫu (sample regression function, SRF).

Phương pháp OLS sẽ lựa chọn các hệ số beta hồi quy từ B1 đến Bk sao cho bình phương sai số của mô hình (u) ước lượng là nhỏ nhất.

Các vấn đề trong dự báo mô hình hồi quy tuyến tính như các biến giải thích định tính, xác định dạng mô hình, kiểm định wald, chi bình phương, mô hình logistic, logit, probit, arch, garch, tính dừng, sai phân, đồng liên kết, arima, vector tự hồi quy Var, nội sinh, GMM, Phương pháp ước lượng hợp lý tối đa (ML)… sẽ được MOSL trình bày trong phần sau các bạn nhớ đón xem nhé!

3.2. Mô hình hồi quy tuyến tính cổ điển

Mô hình hồi quy tuyến tính cổ điển (Classic Linear Regression Model – CLRM) là mô hình phổ biến nhất trong các nghiên cứu hiện nay, đặc biệt là trong các đề tài luận văn thạc sĩ và mô hình này có đến 8 giả định (assumptions) khác nhau theo (Gujarati, 2004). Tất nhiên, không phải giả định nào chúng ta cũng cần phải kiểm định vì nó dường như là hiển nhiên đúng.

Theo định lý Gauss-Markov: Ước lượng của OLS là ước lượng tuyến tính không thiên lệch, có tính nhất quán và hiệu quả nhất (BLUE) nên không cần thiết phải thực hiện các kiểm định khác như trong sách của Gujarati.

Tham khảo 8 giả định của Gujarati, 2004: Tại đây

3.3. Phương sai và sai số chuẩn của các ước lượng OLS

Phương sai (Variance) là thước đo để tiến hành tìm ra sự biến thiên của hệ số ước lượng khi mẫu thay đổi (Như đã nhắc ở trên hệ số ước lượng không thể là duy nhất vì luôn có sự thay đổi khi chúng ta đổi mẫu), Tương tự căn bậc hai của phương sai, tức độ lệch chuẩn 𝜎̂ (Standard Deviation) hay kí hiệu là SE.

Lưu ý: Trong quá trình phân tích hồi quy tuyến tính thì độ lệch chuẩn của 1 ước lượng được gọi là sai số chuẩn (standard error, ký hiệu là se(bk)), khi xét về mặt khái niệm thì hoàn toàn giống với độ lệch chuẩn.

Trong mô hình hồi quy tuyến tính, một giá trị ước lượng của phương sai của hạng nhiễu ui được tính như sau:

Xem thêm: Phương sai là gì? | Độ lệch chuẩn là gì? | Ý nghĩa độ lệch chuẩn trong Spss

Phương sai trên là tỷ lệ của tổng bình phương phần dư (RSS) chia cho (n – k) với bậc tự do (df), n là cỡ mẫu và k là số tham số hồi quy ước lượng; bao gồm một hệ số cắt (b1) và (k – 1) hệ số độ dốc (slope coefficients).

Xem thêm: Giải thích cách tính cỡ mẫu cho mô hình hồi quy

Và 𝜎̂ là sai số chuẩn của hồi quy (standard error of the regression, SER). Nó đơn giản là độ lệch chuẩn của các giá trị Y xoay quanh đường hồi quy và thường được xem như một thước đo về “mức độ phù hợp” (goodness of fit) của đường hồi quy ước lượng.

3.4. Phân phối xác suất của các ước lượng OLS

Mỗi ước lượng của các hệ số hồi quy trong mô hình theo phương pháp OLS được phân theo phân phối chuẩn cho nên trong các nghiên cứu thường hay sử dụng phân phối t (t probability distribution) thay vì phân phối chuẩn, nhưng khi cỡ mẫu tăng lên thì phân phối t tiến về phân phối chuẩn.

Cách tính phân phối t trong phần mềm Eviews hoặc Stata với giả thuyết H0 (zero conditional): Bk=0 tức là kiểm tra từng hệ số hồi quy có khác 0 theo mức ý nghĩa thống kê (significance level) hay không. Có 3 cách để kiểm định giả thuyết này:

Cách 1: Xây dựng khoảng tin cậy 99%, 95%, hoặc 90% theo các mức ý nghĩa 1%, 5%,10% và xem hệ số Bk nằm trong hay nằm ngoài khoảng tin cậy đó (nếu khoảng tin cậy chứa số 0 thì chúng ta chấp nhận giả thuyết H0, ngược lại thì bác bỏ H0);

Xem thêm: bài viết Khoảng tin cậy là gì? nếu như bạn không biết nhé!

Cách 2: So sánh trị tuyệt đối |t| với giá trị t phê phán (critical t value) hoặc hay quen gọi là tra bảng t, tra bảng độ tin cậy ở một mức ý nghĩa được chọn (thường là 5%). Nếu |t| < t tra bảng, thì chúng ta chấp nhận H0, ngược lại thì bác bỏ H0;
Cách 3: Chúng ta so sánh giá trị xác suất p trên 2 phần mềm Stata và Eviews (p-value trên Stata là p > |t|, và Eviews là prob.) với mức ý nghĩa α trong 3 mức 1%,5%,10% được chọn, nếu p > α thì chúng ta chấp nhận H0, ngược lại thì bác bỏ H0. (p-value có thể tính tay nha các bạn)

Tóm lại cả 3 cách trên đều ra được chung 1 kết quả tuy nhiên ngày nay người ta thường sử dụng phần mềm Stata hay Eviews, Spss,… để ra kết quả nhanh và chính xác nhất có thể.

Cần hỗ trợ chạy Stata tham khảo bài viết: Dịch vụ chạy Stata của MOSL

4. Chạy hồi quy bằng phương pháp bình phương nhỏ nhất OLS trong Stata

Trước khi chạy hồi quy bằng phương pháp bình phương nhỏ nhất OLS các bạn phải xác định được dữ liệu của mình thuộc bộ dữ liệu bảng (panel data) hay dữ liệu thời gian (time-series) để khai báo cho phần mềm Stata hiểu nhé!

Nếu chưa biết cách xác định dữ liệu tham khảo bài viết: Các dạng dữ liệu trong nghiên cứu

MOSL sử dụng bộ dữ liệu mosl.dta để tiến hành chạy mô phỏng hồi quy gồm hai cách chạy hồi quy OLS trong Stata như sau:

MOSL xin tặng các bạn bộ dữ liệu, tải xuống bộ dữ liệu của MOSL bằng link dưới đây:

Đầu tiên bấm vào thanh menu chọn Statistics > Linear models and related > Linear regression

Hồi quy OLS trong Stata

Sau đó chọn biến phụ thuộc của vào ô Dependent Variable (ở đây là CASH) và các biến độc lập vào ô Independent Variables.

Sau đó chọn tab Reporting và tick vào ô Standardized beta coefficients để hiển thị hệ số hồi quy chuẩn hóa như hình dưới.

Cuối cùng, nhấn OK và kết quả là:

Xem thêm: Cách chạy mô hình tuyến tính trong phần mềm R

Cách 2: Dùng lệnh trong Stata hồi quy tuyến tính OLS

Lệnh rất đơn giản dùng để hồi quy OLS là regress hay bạn có thể ghi tắt thành reg

Vẫn sử dụng bộ dữ liệu mosl.dta như trên ta có kết quả:

Kết quả vẫn không khác cách 1 tuy nhiên với cách 2 thì thao tác sẽ nhanh hơn.

Xem thêm: Cách chạy hồi quy mô hình tuyến tính trong SPSS

5. Giải thích ý nghĩa mô hình OLS và cách đọc bảng kết quả hồi quy trong Stata

Các mục trọng số cần chú ý khi đọc bảng hồi quy và ý nghĩa:

Prob > F = 0.0000: Thể hiện mức ý nghĩa kiểm định F với giả thuyết H0: Các biến độc lập đồng thời bằng 0, ở đây ta bác bỏ H0 và kết luận mô hình có ý nghĩa thống kê

R – squared = 0.1100: R bình phương – R2 mà chúng ta học trong KTL

Adj R-squared = 0.1018: Gọi là R bình phương hiệu chỉnh tức thể hiện các biến độc lập trong mô hình đang giải thích được khoảng 10.18% sự biến thiên của biến phụ thuộc CASH trong mô hình.

Chỉ số R hiệu chỉnh (Adj R-squared) là chỉ số quan trọng đánh giá độ mạnh yếu của mô hình và tốt nhất chúng ta kỳ vọng nó lớn hơn 50% nhé!

Coef. : là hệ số hồi quy của mỗi biến độc lập trong mô hình hồi quy (Còn gọi là Beta)

Ngoài ra bên phải cột này là cột Std. Err. tức sai số chuẩn và cột giá trị t

P > |t| : Hay p – value thể hiện mức ý nghĩa của mỗi biến độc lập trong mô hình.

P-value thường được so sánh với mức ý nghĩa 5% nếu dưới mức này ta kết luận biến độc lập có mối quan hệ với biến phụ thuộc và ngược lại. (Lưu ý: Có thể so sánh với mức ý nghĩa 10% và 1% lun bạn nhé!)

Ta có phương trình hồi quy truyến tính như sau:

CASH = 0.1754 – 0.0155*SIZE + 0.0090*PB -0.0345*LEV + 2.23e-06*CF + 0.0004*TANG

Có thể thấy trong bảng hồi quy biến SIZE; PB và CF đạt ý nghĩa thống kê tại mức 1% (vì p-value = 0.0000 < 5%) và biến LEV đạt ý nghĩa thống kê tại mức 5% (Vì p-value = 0.039 < 5%).

Kết luận:

Biến SIZE và LEV có tương quan âm với biến phụ thuộc CASH (Vì hệ số hồi quy của 2 biến này < 0).

Biến PB và CF có tương quan dương với biến phụ thuộc CASH (Vì hệ số hồi quy của 2 biến này > 0).

Biến TANG không có mối quan hệ với biến phụ thuộc CASH. (Vì p-value=0.850 > 5%)

Diễn giải ý nghĩa:

Khi SIZE( quy mô công ty) giảm đi 1 thì CASH (lượng tiền mặt) của công ty giảm đi 0.0155 lần trong đk các yếu tố khác không đổi (Tương tự với LEV).

Khi giá trị sổ sách trên thị trường (PB) của công ty tăng 1 thì lượng tiền mặt (CASH) của công ty sẽ tăng lên 0.0090 lần trong đk các yếu tố khác không đổi (Tương tự với CF)

Biến TANG (Tỷ trọng tài sản cố định hữu hình) không đạt ý nghĩa thống kê nên mối quan hệ giữa TANG và CASH là không xác định được.

Sau khi hồi quy xong mô hình các bạn có thể tiếp tục thực hiện các kiểm định khuyết tật như đa cộng tuyến vif, phương sai thay đổi, tự tương quan, hệ số tương quan…

Tham khảo: Cách kiểm định đa cộng tuyến (multicollinearity) trong Stata và trong SPSS

6. Tổng kết

Như vậy MOSL đã giới thiệu cho các bạn các phần chính gồm:

Thế nào là Mô hình hồi quy tuyến tính đơn giản?
Bản chất, ý nghĩa của hồi quy tuyến tính
Mô hình hồi quy tuyến tính đa biến
Chạy hồi quy bằng phương pháp bình phương nhỏ nhất OLS trong Stata
Giải thích ý nghĩa mô hình OLS và cách đọc bảng kết quả hồi quy trong Stata

Trong phần tiếp theo tại kho tài liệu của MOSL sẽ giới thiệu các bạn một số kiểm định khuyết tật cho mô hình OLS này.

MOSL xin chúc các bạn học tập và làm việc hiệu quả!

Xem thêm: Dịch vụ chạy Stata của Mosl.vn

Hỏi Đáp Ví dụ