Kurtosis and skewness là gì

Trong thống kê mô tả, bên cạnh những con số cho biết các giá trị về mặt "trung tâm" hay "độ phân tán" của tập dữ liệu, ta cũng cần biết những đại lượng cũng như hình dạng mô tả tập dữ liệu đó. Ngoài 2 giá trị số thể hiện đặc trưng của hình dáng của phân phối: Độ lệch – Skewness và Độ nhọn – Kurtosis, biểu đồ Histogram thường được sử dụng để biểu diễn hình dáng phân phối cũng được giới thiệu qua bài viết này.

1. Biểu đồ Histogram

Biểu đồ Histogram là một dạng biểu đồ cột được sử dụng để mô tả trực quan sự phân bố tần suất cho tập dữ liệu. Theo nguyên tắc, biểu đồ Histogram thường được dùng cho tập dữ liệu từ 100 giá trị trở lên [Illowsky et al., 2013]. Biểu đồ Histogram có thể cung cấp các thông tin:

  • Trung tâm về mặt vị trí của tập dữ liệu;
  • Độ phân tán của tập dữ liệu;
  • Độ lệch của tập dữ liệu;
  • Sự hiện diện của các giá trị ngoại lệ [outliers];
  • Sự hiện diện của các yếu vị [mode] trong tập dữ liệu.

Các yếu tố này cung cấp dấu hiệu về mô hình phân phối thích hợp cho tập dữ liệu. Đối với một biến rời rạc, biểu đồ thường có một thanh riêng biệt cho mỗi giá trị. Đối với một biến liên tục, cần chia khoảng các giá trị thành các khoảng nhỏ, với các giá trị được nhóm lại với nhau. Cũng có thể thực hiện như vậy, khi một biến rời rạc có một lượng lớn các giá trị [chẳng hạn như điểm của một bài kiểm tra].

Ví dụ: Có một danh sách thống kê 756 người theo độ tuổi. Ta có thể muốn biết có bao nhiêu người theo từng nhóm tuổi [tức là có bao nhiêu trẻ em, thanh niên, trung niên, cao niên]. Sự phân bố độ tuổi của nhóm người này được thực hiện bằng cách nhóm tất cả vào các biến phân tổ theo độ tuổi và sau đó đếm số người trong mỗi biến, ví dụ như bảng phân tổ theo 5 năm, như sau:

Bảng số liệu này cũng có thể biểu diễn trực quan với các hình chữ nhật có chiều cao tương ứng với số lượng và độ rộng tương ứng với phân tổ theo độ tuổi.

Nguồn: Fundamentals of Data Visualization

Biểu đồ Histogram được tạo ra bằng cách phân loại dữ liệu, hình thức trực quan chính xác của chúng phụ thuộc vào việc lựa chọn độ rộng cột tương ứng với cách phân tổ mà biến phân loại đang sử dụng.

Hầu hết các phần mềm trực quan hóa tạo biểu đồ sẽ chọn độ phân tổ theo mặc định, nhưng có thể đó không phải là phân tổ thích hợp nhất. Do đó, cần xác định cách phân tổ phù hợp với tập dữ liệu để kết quả trực quan phản ánh chính xác. Nếu độ rộng của phân tổ quá nhỏ thì biểu đồ sẽ xuất hiện nhiều đỉnh hơn và khó nhận thấy các xu hướng chính trong tập dữ liệu. Mặt khác, nếu phân tổ quá rộng thì các yếu tố nhỏ hơn trong phân phối dữ liệu, chẳng hạn như giảm khoảng 10 tuổi trong ví dụ này, có thể không nhìn thấy được.

Hình dưới đây là 4 cách phân tổ theo 1 năm [a], 3 năm [b], 5 năm [c] và 10 năm [d]. Có thể thấy, phân tổ theo 1 năm quá nhỏ nhưng có thể giúp quan sát chính xác một số giá trị ngoại lệ ở 2 đầu, trong khi 10 năm quá rộng, còn 3-5 năm là mức phân tổ tối ưu hơn vừa có thể thấy rõ phân phối và độ lệch, cũng như các giá trị ngoại lệ[1] trong tập dữ liệu.

Nguồn: Fundamentals of Data Visualization

Trong phân tích dữ liệu, đặc biệt khi kiểm tra giả định phân phối chuẩn của phần dư trong mô hình hồi quy tuyến tính, biểu đồ Histogram thường được sử dụng. Nếu giá trị trung bình gần bằng 0, độ lệch chuẩn gần bằng 1, đường cong phân phối có dạng hình chuông, ta có thể khẳng định phân phối là xấp xỉ chuẩn, giả định phân phối chuẩn của phần dư không bị vi phạm.

2. Giá trị số thể hiện đặc trưng của hình dáng của phân phối

Một nhiệm vụ cơ bản trong nhiều phân tích thống kê là xác định đặc điểm của vị trí và sự biến đổi của một tập dữ liệu. Tập dữ liệu có thể được phân phối theo nhiều cách, như trải rộng hơn ở bên trái hoặc bên phải hoặc trải đều. Độ lệch và độ nhọn là hai đại lượng số thể hiện đặc trưng của hình dáng phân phối và cung cấp nhiều thông tin hơn để đánh giá rủi ro hơn là chỉ sử dụng độ lệch chuẩn. Trong đó, biểu đồ Histogram là một kỹ thuật đồ họa hiệu quả để biểu diễn 2 đại lượng này.

ĐỘ LỆCH

Độ lệch [skewness] là thước đo mức độ đối xứng, bất đối xứng của một phân phối. Một phân phối, hoặc tập dữ liệu được xem là đối xứng nếu nó giống nhau ở bên trái và bên phải điểm trung tâm.

– Độ lệch có nhiều cách tính khác nhau:

  • Đối với dữ liệu đơn biến x1, x2, ..., xN, công thức dưới đây được gọi là độ lệch Fisher-Pearson [Fisher-Pearson coefficient of skewness]

Trong đó: x ̅   là giá trị trung bình, s là độ lệch chuẩn và N là số điểm dữ liệu

Lưu ý: khi tính toán hệ số skewness, s được tính bằng N ở mẫu số thay vì N-1.

  • Công thức tính độ lệch Galton [còn được gọi là độ lệch của Bowley] theo các giá trị của tứ phân vị như sau:

Trong đó Q1 là tứ phân vị thứ nhất [hay phân vị dưới], Q3 là tứ phân vị thứ 3 [hay phân vị trên] và Q2 là trung vị.

  • Công thức tính độ lệch đơn giản do Karl Pearson đề xuất theo yếu vị [SPearson 1] và trung vị [SPearson 2] như sau:

  

Trong đó: x ̅   là giá trị trung bình, x ̂   là yếu vị, x ̃   là trung vị, s là độ lệch chuẩn

– Biểu diễn trực quan độ lệch thông qua đồ thị:

Hình trên cho thấy 3 tình huống xảy ra khi quan sát độ lệch được biểu diễn bằng đồ thị:

  1. Giá trị trung bình > Giá trị trung vị: lúc này Sk>0, được gọi là độ lệch tích cực hay Positive Skewness]: đuôi bên PHẢI dài hơn đuôi bên trái; giá trị LỚN [outliers] đẩy giá trị trung bình về phía CUỐI [Ví dụ như đo lường thu nhập cá nhân, điều này chỉ ra 1 số ít người thu nhập quá cao trong tập dữ liệu]
  2. Giá trị trung bình = Giá trị trung vị = Yếu vị: lúc này Sk=0, được gọi là phân phối đối xứng hay Symetrical distribution
  3. Giá trị trung bình < Giá trị trung vị: lúc này Sk 0]: "Lepto-" có nghĩa là "mảnh mai", phân phối này có đỉnh cao hơn và đuôi to hơn so với phân phối chuẩn.
  4. – Ứng dụng trong phân tích dữ liệu

    Hệ số kurtosis là một thước đo hữu ích để đánh giá có những vấn đề nào liên quan đến các giá trị ngoại lệ trong tập dữ liệu hay không. Hệ số kurtosis lớn [trường hợp Leptokurtic] cho thấy tập dữ liệu gặp vấn đề nghiêm trọng đối với các giá trị ngoại lệ và có thể khiến nhà nghiên cứu lựa chọn các phương pháp thống kê thay thế.

    Duy Sang tổng hợp

    Chú thích:
    [1] Dữ liệu ngoại lệ [Outliers] là một điểm dữ liệu có sự khác biệt đáng kể so với các quan sát khác. Dữ liệu ngoại lệ có thể xuất hiện do sự thay đổi thang đo hoặc do lỗi từ dữ liệu thu thập [thông thường dữ liệu ngoại lệ dạng này sẽ bị loại khỏi tập dữ liệu]. Một giá trị ngoại lệ có thể gây ra vấn đề nghiêm trọng trong quá trình phân tích dữ liệu.

    ----------------------------------------

    Tài liệu tham khảo:
    Agresti A., Franklin C. [2013]. Exploring Data with Graphs and Numerical Summaries. In F. C. Agresti A., Statistics: The Art and Science of Learning from Data [pp. 23-88]. Pearson.
    Evans, J. R. [2017]. Business Analytics. Pearson.
    Illowsky et al. [2013]. Introductory Statistics. Houston: OpenStax.
    Wikipedia. [2021, April 20]. Kurtosis. Retrieved from Wikipedia: //en.wikipedia.org/wiki/Kurtosis
    Wikipedia. [2021, May 7]. Skewness. Retrieved from Wikipedia: //en.wikipedia.org/wiki/Skewness
    Wilke, C. O. [2019]. Fundamentals of Data Visualization. O’Reilly Media.

    ----------------------------------------

    Các bài viết liên quan:

    Thống kê mô tả trong nghiên cứu – Các đại lượng về trung tâm

    Thống kê mô tả trong nghiên cứu – Các đại lượng về độ phân tán

    Thống kê mô tả trong nghiên cứu – Các đại lượng về sự tương quan

    ---------------------------------------------------------------------------------------------------

    QUÝ ANH/CHỊ CẦN HỖ TRỢ XỬ LÝ, PHÂN TÍCH DỮ LIỆU VUI LÒNG GỬI THÔNG TIN QUA FORM DƯỚI ĐÂY

    CHÚNG TÔI SẼ LIÊN HỆ VÀ PHÚC ĐÁP TRONG THỜI GIAN SỚM NHẤT

Chủ Đề