Ví dụ về mô hình hồi quy tuyến tính
Full PDF PackageDownload Full PDF Package This Paper Show
A short summary of this paper 37 Full PDFs related to this paper Download PDF Pack
Hồi quy tuyến tính (Linear Regression) được phát triển thành mô hình hồi quy tuyến tính – LRM (Liner Regression Model) là 1 trong công cụ quan trọng trong Kinh tế lượng và là phương pháp thống kê giúp hồi quy dữ liệu giữa một một giá trị liên tục với một hoặc nhiều các giá trị liên tục, định danh hay phân loại có liên quan. Hiểu 1 cách đơn giản thì Hồi quy tuyến tính là phương pháp tiếp cận tuyến tính để dự đoán biến phụ thuộc (Y) dựa trên các biến giải thích hay biến độc lập (X) trong mô hình. 1. Mô hình hồi quy tuyến tính đơn giản1.1. Khái niệm1.2. Phương trình hồi quy tuyến tính tổng quátBắt đầu bằng mô hình hồi quy tuyến tính bội (multiple regression model) với dạng mô hình hồi quy tổng thể (population regression model) với n -1 biến giải thích có dạng như sau: Yi = β1 + β2X2i + β3X3i + … + βnXni + ui (Mô hình 1) Trong đó:
Phương trình trên có thể rút gọn thành mô hình tổng thể (population model hay true model) như sau: Yi = βX + ui (Mô hình 2) với βX = β1 + β2X2i + β3X3i + … + βnXni Trong đó:
Khái niệm mô hình tổng thể (population) nghĩa là tổng quát (general) đề cập đến một chủ thể được xác định rõ (ví dụ như các công ty, các quốc gia, con người…) là trọng tâm trong phân tích kinh tế lượng hoặc xác xuất thống kê. Ví dụ phương trình hồi quy tuyến tính trong thực tế:Xét một mẫu gồm 5 đứa trẻ có tuổi và chiều cao khác nhau theo bảng: Giả sử ta dữ đoán chiều cao theo tuổi của từng bé và mô phỏng rằng phương trình hồi quy tuyến tính sẽ là: Y = β0 + β1*X Trong mô hình này β1 là độ dốc (slope); β0 là chặn (intercept)); Y đại diện chiều cao và X đại diện cho tuổi của các bé.
Ta có thể đơn giản sử dụng công cụ thống kê ví dụ như Excel, SAS, R, Stata, Spss … để tìm kiếm ra được các hằng số β0 và β1 là kết quả dự đoán (predict) của hàm hồi quy tuyến tính.
Công thức tổng bình phương của phần dư RSS (Residual Sum of Squares): ∑(ei) =∑(Yi– βX – α)2 Ta tìm β1 và β0 từ kết quả và công thức trên như sau:
Vậy ta có phương trình hồi quy tuyến tính bậc 1 với cách viết như sau: Y = -5,9904 + 14,9988X (trong đó . Chúng ta sẽ thay X là tuổi vào để tính các giá trị cần dự đoán ở Bảng 1.1 với kết quả là:
Từ kết quả trên ta vẽ được biểu đồ với đường mô hình hồi quy tuyến tính như sau: Vẽ biểu đồ mô hình đường hồi quy tuyến tính trong phần mềm Excel Có thể để ý từ kết quả dự đoán tại đứa trẻ Long là 114 có sự thay đổi hướng lên hoặc cùng 1 đường thẳng với các đứa trẻ còn lại vì mối quan hệ này không còn đúng chính xác 100% nữa mà chỉ đúng 97% theo như kết quả R-Square hay R2 trả về từ bảng 4.2 phía trên. Sự sai lệch này trong thống kê gọi là (residual) hoặc sai số (errors) là ước lượng của hạng nhiễu. Xem thêm: Hồi quy tuyến tính trong machine learning Độ mạnh của mô hình hồi quy tuyến tínhĐộ mạnh của mô hình được đo lường thông qua hệ số xác định r2 (coefficient of determination) hay R-Square (R2) với sự dao động từ 0 đến 1. Thường bạn sẽ hy vọng mô hình của mình trên mức 0.5 nghĩa là khoảng trên 50% của phương sai biến phụ thộc Y dự đoán được từ biến độc lập X là tốt, còn lại là sai số mà Y không thể dự đoán được trong X. Nói 1 cách đơn giản ngược lại là các biến độc lập giải thích được bao nhiu phần trăm sự thay đổi hay biến thiên trong biến phụ thuộc. Công thức tính R-Square (R2) là: R2 = (TSS – RSS)/TSS Trong đó:
Hãy xem hết các mục trên để các bạn tìm kiếm lời giải để áp dụng làm bài tập về hồi quy tuyến tính nhé! 2. Bản chất, ý nghĩa của mô hình hồi quy tuyến tính2.1. Bản chất của biến phụ thuộcBiến phụ thuộc được xem như 1 biến ngẫu nhiên có giá trị liên tục và được đo lường bằng một trong 4 thang đo thông dụng thường được nhắc đến trong phần mềm SPSS sau đây:
Funfact: Trong kinh tế lượng căn bản, mô hình hồi quy tuyến tính ước lượng theo phương pháp OLS (sẽ đề cập trong mục bên dưới) thì biến Y chỉ ở dạng thang đo tỷ lệ hoặc thang đo khoảng (gọi chung là biến ngẫu nhiên liên tục). Lý do đơn giản là sự thay đổi thang đo và phân phối xác xuất của Y sẽ thay đổi luôn thang đo của sai số hay hạng nhiễu u, mà sai số u thì không thể là thang đo thứ bậc và định danh được. 2.2. Bản chất của các biến độc lậpCác biến độc lộc hay biến giải thích cũng có thể được đo lường theo bất kỳ các thang đo như biến phụ thuộc đã nêu trên. Biến độc lập trong mô hình hồi quy tuyến tính cổ điển (CLRM – classical linear regression model) được xem là biến phi ngẫu nhiên (nonrandom); nghĩa là các giá trị của biến độc lập được giữ cố định khi lấy mẫu lặp đi lặp lại (repeated sampling). Vì vậy khi phaân tích hồi quy tuyến tính có điều kiện (conditional) thì bản chất là tính giá trị trung bình của biến phụ thuộc khi cho trước các giá trị của biến độc lập (conditional on the given value of the regressors). Lưu ý: Bạn có thể cho phép các biến độc lập là ngẫu nhiên giống như biến biến phụ thuộc, nhưng cần phải lưu ý về cách giải thích các kết quả hồi quy. 2.3. Bản chất của hạng nhiễu hay sai số ngẫu nhiênHạng nhiễu hay sai số ngẫu nhiên sẽ đại diện cho tất cả các biến mà bạn bỏ sót hay không được đưa vào mô hình vì những lý do khác nhau gồm:
Funfact: Cho dù bạn có nguồn tạo ra hạng nhiễu u là gì thì vẫn có giả định cho rằng ảnh hưởng trung bình của hạng nhiễu ngẫu nhiên lên biến phụ thuộc là không đáng kể (whatever the source of the random term u, it is assumed that the average effect of the error term on the regressand is marginal at best). 2.4. Bản chất của các hệ số hồi quyCác hệ số hồi quy là những con số cố định (fixed numbers) và không ngẫu nhiên (not random), mặc dù ta không thể biết giá trị thực của các hệ số này là bao nhiêu vì hệ số này tuỳ thuộc vào hoàn cảnh, đề tài và dữ liệu bạn thu thập. Mục đích của phân tích hồi quy (regression test analysis) là ước lượng (estimate) các giá trị hệ số hồi quy (bias) dựa trên dữ liệu mẫu (on the basis of sample data), và các ước lượng (estimators) của hệ số hồi quy là các biến ngẫu nhiên vì giá trị của từng hệ số sẽ thay đổi khi mẫu thay đổi (vary from sample to sample when estimation). Chú ý: Các hệ số hồi quy có phân phối chuẩn nên khi kiểm định từng hệ số hồi quy ta thường sử dụng thống kê t thay vì thống kê z. Một nhánh của thống kê được biết là thống kê Bayes (Bayesian statistics) xử lý các hệ số hồi quy (tổng thể) là ngẫu nhiên. À quên nhớ tìm hiểu thêm phương pháp đồng nhất hệ số nữa nhé! 2.5. Ý nghĩa mô hình hồi quy tuyến tínhKhi dịch từ tên hồi quy tuyến tính ta có thể thấy thuật ngữ tuyến tính (linear) trong mô hình hồi quy tuyến tính ở đây chính là tổ hợp tuyến tính ở các số hồi quy (linearity in the regression coefficients) mà không phải là tuyến tính ở biến phụ thuộc và độc lập. Có thể bạn sẽ cần: Khi biến phụ thuộc Y và độc lập X ở dạng mô hình phi tuyến tính (nonlinear) thì 1 trong 2 biến có thể ở dạng logarit cơ số e tự nhiên như ln(X) (natural logarithm), hay dạng bình phương X2 (square), dạng tỷ lệ nghịch 1/X (reciprocal) hay 1 số dạng khác. 2.6. Các loại dữ liệu thường được áp dụng trong mô hình hồi quy tuyến tínhCó ba loại dữ liệu thường được sử dụng trong mô hình hồi quy tuyến tính gồm:
Chú ý: Trong dữ liệu thời gian thường có 2 đặc trưng vì các quan sát liên tục (successive observations) theo thời gian nên tương quan với nhau từ đó dẫn đến hiện tượng tự tương quan (autocorrelation) xảy ra trong mô hình và các chuỗi thời gian thường là chuỗi không dừng (nonstationarity) vì đa phần liên quan đến thời gian trong tài chính, mô hình kinh tế (financial and economic time series) nên có thể làm xuất hiện hiện tượng hồi quy giả mạo (spurious regression). Tìm hiểu thêm: Hồi quy giả mạo (spurious regression) là gì? Xem thêm: Hiệp phương sai (covariance) là gì?
>>> Xem thêm: Hồi quy dữ liệu bảng trong phần mềm Stata 3. Mô hình hồi quy tuyến tính đa biếnỞ trên chúng ta đã thảo luận về mô hình tuyến tính đơn chỉ có một biến độc lập. Nếu xét nhiều hơn một biến độc lập trở thành 1 đa thức thì phương pháp phù hợp nhất là hồi quy tuyến tính đa biến (Multiple Regression Linear). Xét về cơ bản thì không có sự khác biệt giữa hồi quy tuyến tính ‘đơn giản’ và ‘đa biến’. Cả hai mô hình đều tuân theo nguyên tắc OLS và thuật toán để có được đường hồi quy tối ưu nhất. Vậy đến đây bạn sẽ thắc mắc rằng mô hình hay phương pháp OLS là gì? 3.1. Phương pháp bình phương nhỏ nhất (OLS)Khái niệmMô hình hồi quy bằng phương pháp bình phương nhỏ nhất hay bé nhất hoặc tối thiểu | cực tiểu viết tắt là OLS (Tiếng anh là Ordinary Least Square) hay còn gọi là mô hình Pooled OLS (Pool) là một trường hợp đặc biệt của phương pháp bình phương nhỏ nhất tổng quát (generalized least squares method – GLS) sử dụng để tìm đường hồi quy gần nhất với giá trị liên tục của biến phụ thuộc hay nói cách khác là làm sao để tổng bình phương các hạng nhiễu hay sai số (∑u2i ) nhỏ nhất như tên gọi của chính phương pháp này. >>> Xem thêm: Mô hình GLS là gì? Ý nghĩaXét mô hình hồi quy mẫu (sample regression model) với dạng như sau: Yi = b1 + b2X2i+ b3X3i +…+ bkXki+ui (Mô hình 3) Rút gọn thành mô hình tổng thể (population model) như sau: Yi = bX + ui (Mô hình 4) với bX = b1 + b2X2i + b3X3i + … + bnXni Cũng như BX trong mô hình tổng thể ở Mô hình 2 [tức là E(Y|X)] được giải thích như một hàm hồi quy tổng thể (population regression function, PRF) thì ta có thể nói bX trong Mô hình 4 như hàm hồi quy mẫu (sample regression function, SRF). Phương pháp OLS sẽ lựa chọn các hệ số beta hồi quy từ B1 đến Bk sao cho bình phương sai số của mô hình (u) ước lượng là nhỏ nhất. Các vấn đề trong dự báo mô hình hồi quy tuyến tính như các biến giải thích định tính, xác định dạng mô hình, kiểm định wald, chi bình phương, mô hình logistic, logit, probit, arch, garch, tính dừng, sai phân, đồng liên kết, arima, vector tự hồi quy Var, nội sinh, GMM, Phương pháp ước lượng hợp lý tối đa (ML)… sẽ được MOSL trình bày trong phần sau các bạn nhớ đón xem nhé! 3.2. Mô hình hồi quy tuyến tính cổ điểnMô hình hồi quy tuyến tính cổ điển (Classic Linear Regression Model – CLRM) là mô hình phổ biến nhất trong các nghiên cứu hiện nay, đặc biệt là trong các đề tài luận văn thạc sĩ và mô hình này có đến 8 giả định (assumptions) khác nhau theo (Gujarati, 2004). Tất nhiên, không phải giả định nào chúng ta cũng cần phải kiểm định vì nó dường như là hiển nhiên đúng. Theo định lý Gauss-Markov: Ước lượng của OLS là ước lượng tuyến tính không thiên lệch, có tính nhất quán và hiệu quả nhất (BLUE) nên không cần thiết phải thực hiện các kiểm định khác như trong sách của Gujarati. Tham khảo 8 giả định của Gujarati, 2004: Tại đây 3.3. Phương sai và sai số chuẩn của các ước lượng OLSPhương sai (Variance) là thước đo để tiến hành tìm ra sự biến thiên của hệ số ước lượng khi mẫu thay đổi (Như đã nhắc ở trên hệ số ước lượng không thể là duy nhất vì luôn có sự thay đổi khi chúng ta đổi mẫu), Tương tự căn bậc hai của phương sai, tức độ lệch chuẩn 𝜎̂ (Standard Deviation) hay kí hiệu là SE. Lưu ý: Trong quá trình phân tích hồi quy tuyến tính thì độ lệch chuẩn của 1 ước lượng được gọi là sai số chuẩn (standard error, ký hiệu là se(bk)), khi xét về mặt khái niệm thì hoàn toàn giống với độ lệch chuẩn. Trong mô hình hồi quy tuyến tính, một giá trị ước lượng của phương sai của hạng nhiễu ui được tính như sau: Xem thêm: Phương sai là gì? | Độ lệch chuẩn là gì? | Ý nghĩa độ lệch chuẩn trong Spss
Xem thêm: Giải thích cách tính cỡ mẫu cho mô hình hồi quy
3.4. Phân phối xác suất của các ước lượng OLSMỗi ước lượng của các hệ số hồi quy trong mô hình theo phương pháp OLS được phân theo phân phối chuẩn cho nên trong các nghiên cứu thường hay sử dụng phân phối t (t probability distribution) thay vì phân phối chuẩn, nhưng khi cỡ mẫu tăng lên thì phân phối t tiến về phân phối chuẩn. Cách tính phân phối t trong phần mềm Eviews hoặc Stata với giả thuyết H0 (zero conditional): Bk=0 tức là kiểm tra từng hệ số hồi quy có khác 0 theo mức ý nghĩa thống kê (significance level) hay không. Có 3 cách để kiểm định giả thuyết này:
Xem thêm: bài viết Khoảng tin cậy là gì? nếu như bạn không biết nhé!
Tóm lại cả 3 cách trên đều ra được chung 1 kết quả tuy nhiên ngày nay người ta thường sử dụng phần mềm Stata hay Eviews, Spss,… để ra kết quả nhanh và chính xác nhất có thể. Cần hỗ trợ chạy Stata tham khảo bài viết: Dịch vụ chạy Stata của MOSL 4. Chạy hồi quy bằng phương pháp bình phương nhỏ nhất OLS trong StataTrước khi chạy hồi quy bằng phương pháp bình phương nhỏ nhất OLS các bạn phải xác định được dữ liệu của mình thuộc bộ dữ liệu bảng (panel data) hay dữ liệu thời gian (time-series) để khai báo cho phần mềm Stata hiểu nhé! Nếu chưa biết cách xác định dữ liệu tham khảo bài viết: Các dạng dữ liệu trong nghiên cứu MOSL sử dụng bộ dữ liệu mosl.dta để tiến hành chạy mô phỏng hồi quy gồm hai cách chạy hồi quy OLS trong Stata như sau: MOSL xin tặng các bạn bộ dữ liệu, tải xuống bộ dữ liệu của MOSL bằng link dưới đây: Cách 1: Dùng Menu hồi quy tuyến tính trong phần mềm Stata
Xem thêm: Cách chạy mô hình tuyến tính trong phần mềm R Cách 2: Dùng lệnh trong Stata hồi quy tuyến tính OLS
Kết quả vẫn không khác cách 1 tuy nhiên với cách 2 thì thao tác sẽ nhanh hơn. Xem thêm: Cách chạy hồi quy mô hình tuyến tính trong SPSS 5. Giải thích ý nghĩa mô hình OLS và cách đọc bảng kết quả hồi quy trong StataCác mục trọng số cần chú ý khi đọc bảng hồi quy và ý nghĩa:
Ta có phương trình hồi quy truyến tính như sau:CASH = 0.1754 – 0.0155*SIZE + 0.0090*PB -0.0345*LEV + 2.23e-06*CF + 0.0004*TANG Có thể thấy trong bảng hồi quy biến SIZE; PB và CF đạt ý nghĩa thống kê tại mức 1% (vì p-value = 0.0000 < 5%) và biến LEV đạt ý nghĩa thống kê tại mức 5% (Vì p-value = 0.039 < 5%). Kết luận:
Diễn giải ý nghĩa:
Sau khi hồi quy xong mô hình các bạn có thể tiếp tục thực hiện các kiểm định khuyết tật như đa cộng tuyến vif, phương sai thay đổi, tự tương quan, hệ số tương quan… Tham khảo: Cách kiểm định đa cộng tuyến (multicollinearity) trong Stata và trong SPSS 6. Tổng kếtNhư vậy MOSL đã giới thiệu cho các bạn các phần chính gồm:
Trong phần tiếp theo tại kho tài liệu của MOSL sẽ giới thiệu các bạn một số kiểm định khuyết tật cho mô hình OLS này. MOSL xin chúc các bạn học tập và làm việc hiệu quả! Xem thêm: Dịch vụ chạy Stata của Mosl.vn Tag: hoi quy tuyen tinh la gi | phuong phap binh phuong toi thieu – toi thieu | mo hinh hoi quy tuyen tinh | phuong trinh hoi quy tuyen tinh | hoi quy tuyen tinh tieng anh | phan tich hoi quy tuyen tinh da bien | bai tap mo hinh hoi quy tuyen tinh boi | hoi quy tuyen tinh bang excel | machine learning co ban | linear programming equation | tai lieu pdf mosl economic order quantity | mean square error – mse | goc alpha | huong dan su dung stata | phan tich tuong quan | bieu do luong du lieu | inferential statistics | giao trinh cong thuc kinh te luong | phuong phap ols | how to run pooled ols in stata | cach chay mo hinh ols | fully modified ols eviews | phuong phap pool ols | ma tran hiep phuong sai la gi | do lech chuan la gi |