Kurtosis and skewness là gì
Trong thống kê mô tả, bên cạnh những con số cho biết các giá trị về mặt "trung tâm" hay "độ phân tán" của tập dữ liệu, ta cũng cần biết những đại lượng cũng như hình dạng mô tả tập dữ liệu đó. Ngoài 2 giá trị số thể hiện đặc trưng của hình dáng của phân phối: Độ lệch – Skewness và Độ nhọn – Kurtosis, biểu đồ Histogram thường được sử dụng để biểu diễn hình dáng phân phối cũng được giới thiệu qua bài viết này. 1. Biểu đồ HistogramBiểu đồ Histogram là một dạng biểu đồ cột được sử dụng để mô tả trực quan sự phân bố tần suất cho tập dữ liệu. Theo nguyên tắc, biểu đồ Histogram thường được dùng cho tập dữ liệu từ 100 giá trị trở lên (Illowsky et al., 2013). Biểu đồ Histogram có thể cung cấp các thông tin:
Các yếu tố này cung cấp dấu hiệu về mô hình phân phối thích hợp cho tập dữ liệu. Đối với một biến rời rạc, biểu đồ thường có một thanh riêng biệt cho mỗi giá trị. Đối với một biến liên tục, cần chia khoảng các giá trị thành các khoảng nhỏ, với các giá trị được nhóm lại với nhau. Cũng có thể thực hiện như vậy, khi một biến rời rạc có một lượng lớn các giá trị (chẳng hạn như điểm của một bài kiểm tra). Ví dụ: Có một danh sách thống kê 756 người theo độ tuổi. Ta có thể muốn biết có bao nhiêu người theo từng nhóm tuổi (tức là có bao nhiêu trẻ em, thanh niên, trung niên, cao niên). Sự phân bố độ tuổi của nhóm người này được thực hiện bằng cách nhóm tất cả vào các biến phân tổ theo độ tuổi và sau đó đếm số người trong mỗi biến, ví dụ như bảng phân tổ theo 5 năm, như sau: Bảng số liệu này cũng có thể biểu diễn trực quan với các hình chữ nhật có chiều cao tương ứng với số lượng và độ rộng tương ứng với phân tổ theo độ tuổi. Nguồn: Fundamentals of Data VisualizationBiểu đồ Histogram được tạo ra bằng cách phân loại dữ liệu, hình thức trực quan chính xác của chúng phụ thuộc vào việc lựa chọn độ rộng cột tương ứng với cách phân tổ mà biến phân loại đang sử dụng. Hầu hết các phần mềm trực quan hóa tạo biểu đồ sẽ chọn độ phân tổ theo mặc định, nhưng có thể đó không phải là phân tổ thích hợp nhất. Do đó, cần xác định cách phân tổ phù hợp với tập dữ liệu để kết quả trực quan phản ánh chính xác. Nếu độ rộng của phân tổ quá nhỏ thì biểu đồ sẽ xuất hiện nhiều đỉnh hơn và khó nhận thấy các xu hướng chính trong tập dữ liệu. Mặt khác, nếu phân tổ quá rộng thì các yếu tố nhỏ hơn trong phân phối dữ liệu, chẳng hạn như giảm khoảng 10 tuổi trong ví dụ này, có thể không nhìn thấy được. Hình dưới đây là 4 cách phân tổ theo 1 năm (a), 3 năm (b), 5 năm (c) và 10 năm (d). Có thể thấy, phân tổ theo 1 năm quá nhỏ nhưng có thể giúp quan sát chính xác một số giá trị ngoại lệ ở 2 đầu, trong khi 10 năm quá rộng, còn 3-5 năm là mức phân tổ tối ưu hơn vừa có thể thấy rõ phân phối và độ lệch, cũng như các giá trị ngoại lệ[1] trong tập dữ liệu. Nguồn: Fundamentals of Data VisualizationTrong phân tích dữ liệu, đặc biệt khi kiểm tra giả định phân phối chuẩn của phần dư trong mô hình hồi quy tuyến tính, biểu đồ Histogram thường được sử dụng. Nếu giá trị trung bình gần bằng 0, độ lệch chuẩn gần bằng 1, đường cong phân phối có dạng hình chuông, ta có thể khẳng định phân phối là xấp xỉ chuẩn, giả định phân phối chuẩn của phần dư không bị vi phạm. 2. Giá trị số thể hiện đặc trưng của hình dáng của phân phốiMột nhiệm vụ cơ bản trong nhiều phân tích thống kê là xác định đặc điểm của vị trí và sự biến đổi của một tập dữ liệu. Tập dữ liệu có thể được phân phối theo nhiều cách, như trải rộng hơn ở bên trái hoặc bên phải hoặc trải đều. Độ lệch và độ nhọn là hai đại lượng số thể hiện đặc trưng của hình dáng phân phối và cung cấp nhiều thông tin hơn để đánh giá rủi ro hơn là chỉ sử dụng độ lệch chuẩn. Trong đó, biểu đồ Histogram là một kỹ thuật đồ họa hiệu quả để biểu diễn 2 đại lượng này. ĐỘ LỆCH Độ lệch (skewness) là thước đo mức độ đối xứng, bất đối xứng của một phân phối. Một phân phối, hoặc tập dữ liệu được xem là đối xứng nếu nó giống nhau ở bên trái và bên phải điểm trung tâm. – Độ lệch có nhiều cách tính khác nhau:
Trong đó: x ̅ là giá trị trung bình, s là độ lệch chuẩn và N là số điểm dữ liệu Lưu ý: khi tính toán hệ số skewness, s được tính bằng N ở mẫu số thay vì N-1.
Trong đó Q1 là tứ phân vị thứ nhất (hay phân vị dưới), Q3 là tứ phân vị thứ 3 (hay phân vị trên) và Q2 là trung vị.
Trong đó: x ̅ là giá trị trung bình, x ̂ là yếu vị, x ̃ là trung vị, s là độ lệch chuẩn – Biểu diễn trực quan độ lệch thông qua đồ thị: Hình trên cho thấy 3 tình huống xảy ra khi quan sát độ lệch được biểu diễn bằng đồ thị:
Lưu ý: Độ lệch không liên quan trực tiếp đến mối quan hệ giữa giá trị trung bình và giá trị trung vị: một phân phối với độ lệch âm có thể có giá trị trung bình lớn hơn hoặc nhỏ hơn giá trị trung vị và tương tự đối với độ lệch dương. – Ứng dụng trong phân tích dữ liệu
ĐỘ NHỌN Độ nhọn (kurtosis) là là một đại lượng thống kê mô tả đo mức độ tập trung của các quan sát ở phần đuôi hoặc đỉnh của phân phân phối. Đỉnh là phần cao nhất của phân phối và đuôi là phần cuối của phân phối. Các tập dữ liệu có hệ số kurtosis cao có xu hướng dữ liệu tập trung về phần đuôi hoặc phần dữ liệu ngoại lệ, các tập dữ liệu có hệ số kurtosis thấp có xu hướng dữ liệu tập trung quanh vị trí trung tâm và có thể không có dữ liệu ngoại lệ. – Công thức tính độ nhọn như sau: Trong đó: x ̅ là giá trị trung bình, slà độ lệch chuẩn và N là số điểm dữ liệu Lưu ý: khi tính toán hệ số kurtosis, s được tính bằng N ở mẫu số thay vì N-1. Hệ số kurtosis cho phân phối chuẩn nếu tính theo công thức trên sẽ là 3. Tuy nhiên, trong nhiều phần mềm tính toán, quy ước tính hệ số có thể sẽ khác nhau. Vì lý do này, một số nguồn sử dụng công thức sau để tính hệ số kurtosis (thường được gọi là "excess kurtosis"): Khi đó, hệ số kurtosis cho phân phối chuẩn sẽ có giá trị là 0. Quy ước này được sử dụng để giải thích cho các nội dung tiếp theo. Hệ số Kurt dương cho biết tập dữ liệu phân bố "theo đuôi nặng" (heavy-tailed) và hệ số Kurt âm cho biết phân bố "theo đuôi nhẹ" (light-tailed) và được chia thành 3 loại: Mesokurtic, Leptokurtic và Platykurtic tương ứng với 3 trường hợp xảy ra được biểu diễn như đồ thị bên dưới:
– Ứng dụng trong phân tích dữ liệu Hệ số kurtosis là một thước đo hữu ích để đánh giá có những vấn đề nào liên quan đến các giá trị ngoại lệ trong tập dữ liệu hay không. Hệ số kurtosis lớn (trường hợp Leptokurtic) cho thấy tập dữ liệu gặp vấn đề nghiêm trọng đối với các giá trị ngoại lệ và có thể khiến nhà nghiên cứu lựa chọn các phương pháp thống kê thay thế. Duy Sang tổng hợp Chú thích: ---------------------------------------- Tài liệu tham khảo: ---------------------------------------- Các bài viết liên quan: Thống kê mô tả trong nghiên cứu – Các đại lượng về trung tâm Thống kê mô tả trong nghiên cứu – Các đại lượng về độ phân tán Thống kê mô tả trong nghiên cứu – Các đại lượng về sự tương quan --------------------------------------------------------------------------------------------------- QUÝ ANH/CHỊ CẦN HỖ TRỢ XỬ LÝ, PHÂN TÍCH DỮ LIỆU VUI LÒNG GỬI THÔNG TIN QUA FORM DƯỚI ĐÂYCHÚNG TÔI SẼ LIÊN HỆ VÀ PHÚC ĐÁP TRONG THỜI GIAN SỚM NHẤT |