Tiến trình xử lý dữ liệu trong nghiên cứu khoa học
Show
Trong tài liệu hướng dẫn này, chúng tôi xin giới thiệu hai hình thức đo lường
Trong tài liệu hướng dẫn này, chúng tôi xin giới thiệu hai hình thức đo lường Mục đích của phân tích dữ liệu ban đầu là xử lý dữ liệu để có thể đánh giá chất lượng của nó trước khi tiến hành bất kỳ phân tích nào khác. Có ba bước cơ bản trong phân tích dữ liệu gồm: i) xử lý dữ liệu (data processing), ii) làm sạch dữ liệu (data cleaning), và iii) mô tả dữ liệu (data description). Xử lý dữ liệu bao gồm việc mã hóa và nhập dữ liệu vào tập dữ liệu có định dạng phù hợp cho các bài kiểm tra thống kê. Làm sạch dữ liệu là kiểm tra chất lượng và cấu trúc của dữ liệu và sửa chữa bất kỳ sai sót nào do quá trình mã hóa và xử lý. Mô tả dữ liệu liên quan đến việc tóm tắt và hiển thị các đặc điểm chính của phân phối dữ liệu. 1. Các xem xét của xử lí dữ liệuSau khi đã thu thập, các cân nhắc sơ bộ nên bao gồm:
Giải thích rõ hơn thuật ngữ “hiệp biến” Chúng ta biết rằng với một biến X hay Y, có ba thông số thống kê mô tả: số cỡ mẫu, số trung (mean), và phương sai (variance). Nhưng để mô tả mối quan hệ giữa hai biến X và Y, chúng ta cần đến hiệp biến. Có thể hiểu hiệp biến qua hình học lượng giác như sau. Chúng ta biết rằng cho một tam giác vuông, nếu gọi cạnh huyền là c và hai cạnh còn lại là a và b, Định lí Pythagoras cho biết bình phương cạnh huyền bằng tổng bình phương hai cạnh kia: c2 = a2 + b2 Nhưng cho một tam giác thường, thì mối liên hệ giữa c và hai cạnh a và b phức tạp hơn với mối liên hệ được định lượng bằng hàm cosine của góc C như sau: c2 = a2 + b2 – 2ab × Cos (C) Tương tự như vậy, cho hai biến X và Y, và nếu hai biến này hoàn toàn độc lập với nhau, chúng ta có thể phát biểu rằng phương sai của biến X + Y bằng phương sai của X cộng với phương sai của Y: var(X+Y) = var(X) + var(Y) . trong đó, “var” là viết tắt của phương sai (tức variance). Chú ý rằng X+Y là một biến mới. Nếu hai biến X và Y có tương quan nhau, thì công thức trên được thay thế bằng một công thức khác với hiệp biến: var(X+Y) = var(X) + var(Y) + 2×Cov(X,Y) . trong đó, “Cov” là viết tắt của hiệp biến (covariance). Ví dụ, trong phân tích tương quan Pearson (r), hiệp biến đối với mỗi cá nhân của xi và yi được cho bởi công thức: Nhưng ở đây chúng ta có n đối tượng, cho nên cần phải cộng tất cả lại và chia cho số đối tượng: Công thức trên chính là định nghĩa của hiệp biến. Từ hai công thức trên, chúng ta có thể rút ra vài nhận xét:
Tương quan Pearson (r) là lấy tỉ số của hai chỉ số này: Nếu giá trị của r là dương, hai biến x và y cùng biến thiên theo một hướng; nếu giá trị của r là âm, x và y liên hệ đảo ngược: tức khi khi x tăng thì y giảm, và ngược lại. 2. Mã hóa dữ liệuSau khi xem xét sơ bộ, chúng ta tiến hành mã hóa dữ liệu để có thể phân tích thống kê. Chúng ta nên suy nghĩ về sự lựa chọn của định dạng biến, cụ thể là định dạng số học hay kí tự của mỗi biến, và con số của các cột khi biến là số thập phân. Đối với mỗi biến, thông tin sau là bắt buộc:
Sau khi dữ liệu đã được mã hóa, nó sẽ được nhập vào tệp dữ liệu máy tính của chương trình thống kê bạn sử dụng, chẳng hạn SPSS. 3. Hướng dẫn nhập dữ liệu trong SPSSVí dụ 1, chúng ta có dữ liệu về giới tính, nhóm ngành học, số giờ ôn tập toán, điểm thi cuối kì toán (thang điểm 100) của 10 sinh viên tham gia khảo sát và muốn nhập vào SPSS. Số liệu thu thập được thể hiện trong bảng dưới đây:
Giai đoạn 1: Mã hóa dữ liệuChúng ta cần mã hóa tên biến và các lựa chọn cho biến trước khi thực hiện thao tác trên SPSS. Không có quy định ràng buộc cho việc mã hóa này, tuy nhiên chúng ta mã hoá sao cho khi phân tích dễ nhận biết tên biến cũng như những lựa chọn của biến. Ở ví dụ trên, chúng ta có thể mã hóa như sau: Bảng 1: Mã hóa biến và dữ liệu
Lưu ý rằng các biến giờ ôn tập, điểm cuối kì Toán là một giá trị định lượng cụ thể nên chúng ta không cần mã mà nhập trực tiếp vào SPSS. Giai đoạn 2: Nhập dữ liệu trong SPSS– Bước 1: Mở phần mềm SPSS và khai báo biến Chương trình SPSS sau khi được mở có hai khu vực làm việc là Data View và Variable View. Bước 1 khai báo biến là được thực hiện ở khu vực Variable View. Chúng ta tiến hành đặt tên từng biến cũng như vào tất cả các cột để khai báo cho biến.
Kết quả khai báo biến trong ví dụ trên được thể hiện trong hình dưới đây: – Bước 2: Nhập dữ liệu Sau khi thực hiện xong bước 1, chúng ta chuyển qua làm việc ở khu vực Data View để tiến hành nhập liệu. Sau đó, chúng ta tiến hành nhập số liệu vào SPSS cho từng biến. Cuối cùng, chúng ta phải nhấp lưu dữ liệu thường xuyên để tránh trường hợp máy bị treo hoặc cúp điện đột ngột gây mất dữ liệu đã nhập. Kết quả nhập dữ liệu trong ví dụ trên được thể hiện trong hình dưới đây: Tài liệu tham khảo
|