Sai số trong nghiên cứu thị trường

Các loại sai số trong nghiên cứu dịch tễ học.Mục tiêu học tậpSau khi học xong bài học này, sinh viên có khả năng: 1. Trình bày được định nghĩa, phân loại và cách khống chế sai số ngẫu nhiên.2. Trình bày được định nghĩa, phân loại và cách khống chế sai số hệ thống3. Trình bày được định nghĩa và cách khống chế yếu tố nhiễuNội dung1. Sai số ngẫu nhiên và vai trò của các yếu tố may rủi1.1. Định nghĩaTrong nghiên cứu, xác định tính giá trị của kết quả nghiên cứu là một công việc rất quantrọng. Đó là việc cân nhắc xem kết quả có phải là do ảnh hưởng của yếu tố may rủi, sai sốhệ thống hay nhiễu hay không. Sai số ngẫu nhiên là do các yếu tố may rủi gây nên. Trongviệc đánh giá vai trò của may rủi có hai công việc riêng rẽ nhưng có liên quan chặt chẽ vớinhau, phải làm là:• Kiểm định giả thuyết, tức là tiến hành một trắc nghiệm thống kê để xác định liệu biếnnghiên cứu của mẫu có thể được coi là một giải thích phù hợp của kết quả quan sát.• Ước lượng một khoảng tin cậy, tức là xác định một khoảng dao động nào đó, mà trongđó ước lượng thật của kết quả sẽ rơi vào khoảng đó với một độ tin cậy nhất định.1.2. Khái niệm suy luậnĐể hiểu được tại sao phải đánh giá vai trò của may rủi, trước hết chúng ta phải tìmhiểu khái niệm suy luận kết quả. Đó là việc khái quát hóa kết quả nghiên cứu từ một mẫunhỏ cho một quần thể lớn hơn Khi đó, luôn có một khả năng là sự suy luận đó là khôngchính xác, là do may rủi hay do biến thiên mẫu. Khả năng sai số này sẽ giảm đi khi cỡ mẫunghiên cứu tăng lên. Ví dụ, giả sử chúng ta có một cái túi có 100 hòn đá cẩm thạch, mộtnửa đỏ và một nửa xanh, chúng ta muốn suy luận tỷ lệ của các loại đá màu bằng cáchnghiên cứu một mẫu nhỏ. Nếu chúng ta lấy ra 2 viên, sẽ có khả năng là một phần tư (1/2)2là cả hai viên đá là màu xanh. Điều đó có nghĩa là 25% chúng ta sẽ kết luận sai rằng tất cảcác viên đá có mà u xanh dựa trên kết quả cỡ mẫu nghiên cứu là 2, trong khi đó trên thựctế, một nửa số đá là màu xanh. Nếu chúng ta rút ra 5 viên đá, khả năng cả 5 viên đá đều làmàu xanh là 3 phần 100. Do đó khi cỡ mẫu tăng lên, khả năng suy luận sai từ kết quả mẫunghiên cứu sẽ giảm đi.Tương tự như vậy trong dịch tễ học, các nhà nghiên cứu ít khi nghiên cứu tất cả cáccá thể của một quần thể mà thường nghiên cứu một mẫu, đo lường sự kết hợp giữa mộtphơi nhiễm và bệnh và từ đó suy luận cho quần thể. Ví dụ, trong một nghiên cứu bệnhchứng về mức độ kết hợp giữa bệnh béo phì và nhồi máu cơ tim, người ta không thể đochiều cao và cân nặng của tất cả mọi người trong cộng đồng, kể cả có hay không có nhồimáu cơ tim. Thông thường, người ta chọn một mẫu những người bị bệnh và không bị bệnhnhồi máu cơ tim, rồi đo chiều cao và cân nặng của họ, sau đó so sánh 2 nhóm người đó.Giống như ví dụ về các viên đá nêu ở trên, luôn có một khả năng rằng kết quả ước lượng sẽkhác với mức độ kết hợp thật giữa béo phì và nhồi máu cơ tim do may rủi hay do biếnthiên mẫu. Cỡ mẫu càng nhỏ thì độ biến thiên của ước lượng càng lớn và càng ít có khảnăng rằng kết quả sẽ phản ánh đúng tình trạng của toàn bộ quần thể. Ngược lại, cỡ mẫunghiên cứu càng lớn, độ biến thiên càng nhỏ và suy luận càng đáng tin cậy. Trong mọitrường hợp, vai trò của may rủi phải đươc đề cập đến khi đánh giá tính giá trị của các kếtquả nghiên cứu.1.3. Kiểm định giả thuyết Kiểm định giả thuyết là tiến hành một trắc nghiệm thống kê và xác định mức độbiến thiên mẫu ảnh hưởng đến kết quả nghiên cứu.Để kiểm định giả thuyết, bao giờ cũng phải đặt ra giả thuyết để kiểm định hay giảthuyết Ho. Ở kết hợp nhân-quả, giả thuyết Ho đồng nghĩa với sự không có kết hợp giữayếu tố phơi nhiễm và bệnh. Đối lập với giả thuyết Ho là giả thuyết H1, nói lên rằng có sựkết giữa yếu tố phơi nhiễm và bệnh.Thí dụ trong nghiên cứu thuần tập tương lai nếu ta gọi po là tỷ lệ xuất hiện bệnh ởnhóm không phơi nhiễm và p1 là tỷ lệ xuất hiện bệnh ở nhóm có phơi nhiễm với yếu tốnguy cơ, thì giả thuyết Ho có nghĩa là không có sự liên quan giữa phơi nhiễm và bệnh haynguy cơ tương đối RR=1. Điều đó được thể hiện như sau:Ho: po = p1 Hoặc Ho RR= 1Ngược lại, trong trường hợp này, giả thuyết H1 là có sự kết hợp giữa phơi nhiễm vàbệnh, và điều đó sẽ được biểu hiện như sau:Ho: po ≠ p1 :hay Ho: RR ≠1 Sau khi xác định giả thuyết H0 và H1 cần phải tiến hành làm một trắc nghiệm thống kê. Vì Ho và H1 là khác biệt nhau. Có nhiều công thức trắc nghiệm thống kê ứng dụngcho từng trường hợp cụ thể. Nhưng tất cả các trắc nghiệm thống kê đều có một chức nănglà đánh giá sự khác biệt giữa kết quả quan sát và kết quả mong đợi (xem lại phần các trắcnhiệm thống kê trong các sách thống kê, đặc biệt là các sách thống kê y học).Sau khi đã tính được các giá trị của các trắc nghiệm thống kê, chúng ta sẽ dựa vàocác bảng tính sẵn các giá trị của từng trắc nghiệm (thí dụ bảng χ 2, bảng t) để tra tìm ýnghĩa xác suất (giá trị p) tương ứng của các giá trị đó ở các bậc tự do khác nhau. Giá trị psẽ chỉ ra xác suất trị số quan sát được xảy ra là do các yếu tố may rủi, có nghĩa là không cósự kết hợp thật sự giữa phơi nhiễm và bệnh, có ngĩa là H 0 đúng. Giá trị của ý nghĩa thốngkê càng lớn, giá tri p càng nhỏ. Ngưỡng của giá tri p xác định sự kết hợp có ý nghĩa thốngkê là không cố định và tùy thuộc vào từng lĩnh vực nghiên cứu. Trong các nghiên cứu yngười ta thường lấy ngưỡng là 0,05. Nếu giá tri p nhỏ hơn hay bằng 0,05, có nghĩa rằng5% các kết hợp quan sát được có giá trị lớn hơn kết quả của nghiên cứu là do may rủi vàrằng có sự kết hợp giữa phơi nhiễm và bệnh, và may rủi không đóng vai trò trong nghiêncứu. Do đó chúng ta bác bỏ giả thuyết H 0 và kết luận rằng có sự kết hợp có ý nghĩa thốngkê giữa phơi nhiễm và bệnh. Tương tự, nếu giá trị p lớn hơn 0,05 (p>0,05), may rủi khôngbị loại trừ là có ảnh hưởng đến kết quả nghiên cứu, giả thuyết H0 không bị bác bỏ, chúng takết luận rằng sự khác biệt là không có ý nghĩa thống kê ở ngưỡng xác suất đó.Thông thường giá trị p trình bày trong các nghiên cứu so sánh sự khác biệt giữa cácnhóm mà không xác định rõ chiều hướng của sự khác biệt. Trong những trường hợp đó, gíatrị p hai phía thường được sử dụng trong các phân tích dịch tễ học. Tuy nhiên giá trị p mộtphía, phản ánh cả xác suất khác biệt giữa hai nhóm về mức độ cũng như chiều hướng. Giátrị p một phía chỉ được sử dụng khi có một giả thuyết rõ ràng và mục tiêu của nghiên cứulà tăng tính chính xác của ước lượng khi biết rõ chiều hướng hay khi nghiên cứu nhằm bácbỏ kết quả của các nghiên cứu trước.Mặc dầu các trắc nghiệm thống kê có khái niệm giống nhau, việc áp dụng chúngkhông phải giống nhau trong mọi tình huống. Việc lựa chọn trắc nghiệm thống kê phụthuộc vào giả thuyết nghiên cứu cũng như đặc tính của số liệu thu thập được trong nghiêncứu. Nhìn chung, trong các nghiên cứu y học, trắc nghiệm t dùng cho các biến liên tục, trắcnghiệm χ2 dùng cho các biến rời rạc 1.4. Ước lượng khoảng tin cậyTrong các trắc nghiệm thống kê, giá trị p có chức năng phản ánh 2 yếu tố: Mức độkhác nhau giữa các nhóm hay độ mạnh của sự kết hợp và cỡ mẫu. Ngay cả khi sự khác biệtnhỏ cũng có thể có ý nghĩa thống kê, có thể là do may rủi, nếu cỡ mẫu lớn. Ngược lại, sựkhác biệt lớn giữa các nhóm so sánh có thể không có ý nghĩa thống kê, nếu có sự biếnthiên mẫu do cỡ mẫu nhỏ. Do đó giá trị p phải được coi như là chỉ dẫn cho hành động hơnlà một sự áp dụng máy móc và cứng nhắc để đưa ra kết luận về ảnh hưởng của một yếu tố.Trong các báo cáo bao giờ cũng nên ghi lại giá trị p của kết hợp bên cạnh kết quả,chứ không đơn thuần chỉ nêu là kết quả có hay không có ý nghĩa thống kê ở một ngưỡngxác suất nào đó. Thí dụ trong hai kết quả nghiên với p = 0,6 và p = 0,06 thì cả hai giá trị đóđều không đạt ý nghĩa thống kê ở mức qui định p = 0,05. Tuy nhiên giá trị p = 0,06 là rấtgần đạt ý nghĩa thống kê và có thể sẽ có ý nghĩa thống kê nếu cỡ mẫu nghiên cứu lớn hơn.Để khẳng định kết luận, cần phải tiếp tục làm một nghiên cứu khác với cỡ mẫu thích hợp.Để khắc phục những khó khăn nảy sinh vì giá trị p phản ánh cả độ lớn của sự khácbiệt giữa các nhóm (độ mạnh của kết hợp) cả độ lớn của cỡ mẫu, một chỉ số đánh giá tốthơn vai trò của may rủi là khoảng tin cậy của kết quả nghiên cứu. Khoảng tin cậy(confidence interval: CI) biểu thị một khoảng số trong đó trị số thật của kết quả chắc chắnsẽ rơi vào nội trong khoảng này. Ví dụ, trong việc đánh giá sự kết hợp giữa ung thư bàngquang và hút thuốc lá ở nam giới, thay vì chỉ báo cáo rằng những người hút thuốc lá cónguy cơ cao có ý nghĩa thống kê (RR=1,9) mắc ung thư bàng quang so với người khônghút thuốc lá, người ta cũng trình bày khoảng tin cậy 95% của nguy cơ tương đối là 1,3-2,8.Điều đó có nghĩa là ước lượng tốt nhất của sự kết hợp giữa hút thuốc lá và ung thư bàngquang là 1,9, tuy nhiên chúng ta 95% tin rằng nguy cơ tương đối thật không nhỏ hơn 1,3 vàkhông lớn hơn 2,8.Khoảng tin cậy có thể cung cấp tất cả những thông tin về giá trị p liên quan tới kếtluận rằng liệu có sự kết hợp có ý nghĩa thống kê ở một ngưỡng xác suất nào đó. Nếukhoảng tin cậy 95% của nguy cơ tương đối bao gồm cả giá trị 0, lúc đó, giá trị p tương ứnglớn hơn 0,05. Nếu khoảng tin cậy 95% của nguy cơ tương đối không bao gồm cả giá trị 0,lúc đó, giá trị p tương ứng nhỏ hơn 0,05 và sự kết hợp là có ý nghĩa thống kê. Trong ví dụnêu trên 95% khoảng tin cậy của nguy cơ tương đối là 1,3-2,8. Khoảng tin cậy không baogồm giá trị 1, do đó chúng ta có thể kết luận là giá trị P sẽ nhỏ hơn 0,05 và có sự kết hợpcó ý nghĩa thống kê giữa hút thuốc lá và ung thư bàng quang.Ngoài ra, khoảng tin cậy phản ánh mức độ biến thiên của giá trị ước lượng và ảnhhưởng của cỡ mẫu. Cỡ mẫu càng lớn, ước lượng càng ổn định và khoảng tin cậy càng hẹp.Khoảng tin cậy càng lớn, độ biến thiên của ước lượng càng lớn, và cỡ mẫu càng nhỏ.Thông tin do khoảng tin cậy cung cấp là rất quan trọng khi phiên giải kết quả nghiên cứukhi nó không có ý nghĩa thống kê. Một khoảng tin cậy hẹp sẽ hỗ trợ cho kết luận rằngkhông có sự tăng nguy cơ thật sự, trái lại khoảng tin cậy rộng gợi ý rằng số liệu có thể nóilên có nguy cơ tăng lên (hay giảm đi) thực sự, nhưng cỡ mẫu không đủ để đạt lực thống kêđể loại trừ may rủi. Do đó, giá trị p và khoảng tin cậy cùng cung cấp thông tin về may rủi. 1.5 Phiên giải kết quả của trắc nghiệm thống kê.Có nhiều vấn đề chúng ta phải chú ý đến khi phiên giải kết quả của trắc nghiệmthống kê. Trước hết, không được áp dụng máy móc và cứng nhắc giá trị p trong việc đánhgiá vai trò của may rủi, mà nó chỉ là chỉ dẫn về khả năng may rủi ảnh hưởng đến kết quảnghiên cứu. Giá trị p dù nhỏ cũng không thể loại trừ hoàn toàn may rủi. Ngay cả khi giá trịp là 0,0001, có nghĩa là xác suất không có sự kết hợp giữa phơi nhiễm và bệnh là do mayrủi và là 1/1000.Thứ hai là, ý nghĩa thống kê về sự kết hợp giữa phơi nhiễm và bệnh phải được phânbiệt ý nghĩa sinh học hay lâm sàng. Ngay cả khi sự khác biệt là rất nhỏ và không có ýnghĩa lâm sàng, nó có thể vẫn có ý nghĩa thông kê, mà không phải là do may rủi, nếu cỡmẫu lớn. Ngược lại, sự khác biệt lớn và có ý nghĩa lâm sàng có thể không đạt ý nghĩathống kê nếu cỡ mẫu nhỏ.Thứ ba là, người nghiên cứu thường thu thập số liệu về nhiều yếu tố nguy cơ tiềmtàng quan trọng. Trong những trường hợp đó, người ta tiến hành nhiều trắc nghiệm thốngkê để xác định xem có biến số nào có sự kết hợp có ý nghĩa thống kê với bệnh. Tuy nhiênkhi số biến số được trắc nghiệm tăng lên, có khả năng rằng sự khác biệt có ý nghĩa thốngkê đó chỉ là do may rủi. Khi đó, bất kỳ một kết hợp có ý nghĩa thống kê nào cũng phảiđược phân tích và giải thích một cách thận trọng. Ví dụ, trong nghiên cứu bệnh chứng vềung thư tụy với hút thuốc lá và uống rượu người ta tiến hành trắc nghiệm thống kê nhằmxác định yếu tố nguy cơ. Ngoài ra người ta cũng thu thập thông tin về uống cà phê và uốngnước chè và thấy rằng uống cà phê có sự kết hợp có ý nghĩa thống kê với ung thư tụy. Vìngười ta không mong đợi kết quả này, giải thích phù hợp nhất là số liệu này cung cấp bằngchứng để hình thành giả thuyết rằng uống cà phê kết hợp với ung thư tụy và dẫn đễn việctiến hành một nghiên cứu khác. Tương tự người ta tiến hành một nghiên cứu bệnh chứngđể kiểm tra giả thuyết rằng uống cà phê làm tăng tỷ lệ tử vong bệnh mạch vành tim chothấy không có sự kết hợp nhưng phân tích sau lại cho thấy có sự liên quan giữa về hưu vàtử vong do bệnh động mạch vành. Vì nghiên cứu đó không được thiết kế để kiểm tra giảthuyết sau, do đó người nghiên cứu kết luận rằng số liệu đã làm nảy sinh một giả thuyếtmới và cần phải tiến hành một nghiên cứu khác với thiết kế nghiên cứu khác.Cuối cùng cần phải luôn nhớ rằng ý nghĩa thống kê và khoảng tin cậy chỉ đánh giávai trò của may rủi ảnh hưởng đến sự kết hợp giữa phơi nhiễm và bệnh. Khi tính toán giátrị p và khoảng tin cậy có thể dẫn đến kết luận rằng may rủi không ảnh hưởng đến kết quả,nhưng nó hoàn toàn không cung cấp thông tin về ảnh hưởng của các sai số hệ thống vànhiễu đến sự kết hợp. Tất cả ba yếu tố này cần phải được xem xét khi phiên giải kết quảcủa bất kỳ một nghiên cứu nào.1.6. Các loại sai số trong kiểm định giả thuyếtTrong khi lập kế hoạch nghiên cứu, người nghiên cứu luôn tự hỏi rằng, cỡ mẫunghiên cứu phải là bao nhiêu để phát hiện ảnh hưởng có ý nghĩa thống kê (cỡ mẫu). Nếuchỉ nghiên cứu trên một nhóm nhỏ các cá thể, xác suất phát hiện ảnh hưởng có ý nghĩathống kê trong nhóm các thể đó là bao nhiêu nếu ảnh hưởng đó là có thật (lực mẫu). Ngượclại với kiểm tra giả thuyết là dựa trên giả định rằng giả thuyết H0 là đúng, trong việc tínhtoán cỡ mẫu và lực mẫu, người ta bắt đầu với giả định rằng giả thuyết H0 là sai. Trên cơ sở của các số liệu thu thập được, chúng ta có thể kết luận là chấp nhận haybác bỏ giả thuyết H0. Có hai quyết định và mỗi quyết định sẽ có hai khả năng có thể xảy.Những khả năng này sẽ được trình bày trong bảng dưới đây:Kết quả kiểm định thống kê Trên thực tếGiả thuyết H0 đúng Giả thuyết H1 đúngChấp nhận giả thuyết H0(không có ý nghĩa thống kê)Bác bỏ giả thuyết H0 (có ýnghĩa thống kê)Đúng: Giả thuyết H0 đúngvà chúng ta Chấp nhận giảthuyết H0.Sai số loại I hay sai số α:Giả thuyết H0 đúng vàchúng ta bác bỏ giả thuyếtH0Sai số loại II hay sai sốβ: Giả thuyết H1 đúng vàchúng ta Chấp nhận giảthuyết H0Đúng: Giả thuyết H1đúng và chúng ta bác bỏgiả thuyết H0.Nếu chúng ta bác bỏ giả thuyết H0 khi giả thuyết H1 đúng, hoặc nếu chúng ta khôngbác bỏ H0 khi H0 đúng, thì trong những trường hợp đó, sai số sẽ xảy ra. Có 2 loại tìnhhuống xảy ra sai số trong việc chấp nhận hay bác bỏ giả thuyết H0. Sai số loại I xảy ra khigiả thuyết H0 bị bác bỏ nhưng trên thực tế nó đúng. Xác suất mắc sai số loại I (sai số α)tương đương với giá trị p. Ví dụ mức anpha là 0,05 chỉ ra rằng khả năng chúng ta bác bỏsai giả thuyết H0 là 5% hay P=0,05. Ngược lại, sai số loại II là sự chấp nhận giả thuyết H0khi thực tế là đúng và có sự khác nhau thật sự giữa các nhóm nghiên cứu. Khả năng mắcsai số loại II còn gọi là sai số bê ta (β). Lực mẫu được định nghĩa là khả năng bác bỏ giảthuyết H0 và kết luận rằng có sự khác nhau có ý nghĩa thống kê giữa các nhóm nghiên cứunếu sự khác nhau đó là có thực và bằng 1- β. Do đó nếu bêta là 0,20 có nghĩa là có khảnăng 20% mắc sai số loại II và thất bại trong việc bác bỏ giả thuyết H0 , và H1 là đúng, thìlực mẫu sẽ là 1-0,20=0,80. Điều này có nghĩa là khả năng phát hiện sự khác nhau giữa hainhóm nếu sự khác nhau đó tồn tại là 80%.2. Sai số hệ thống Sai chệch (bias) còn gọi là sai số hệ thống là bất kỳ sai số nào trong quá trìnhnghiên cứu làm sai lệch ước lượng sự kết hợp giữa phơi nhiễm và bệnh như cách chọnngười vào nghiên cứu, cách thu nhập thông tin, ghi chép, tập hợp và phiên giải các thôngtin đó. Khác với sai số ngẫu nhiên và nhiễu được đánh giá về lượng, ảnh hưởng của các saisố hệ thống là rất khó đánh giá, thậm chí là không thể đánh giá được khi phân tích kết quảnghiên cứu. Cho nên một việc rất quan trọng khi thiết kế và tiến hành thực thi nghiên cứulà làm sao lường trước được các sai số hệ thống có thể nảy sinh và tiến hành các bước đểhạn chế chúng. Điều đó có nghĩa là, khác với sai số ngẫu nhiên và nhiễu, hậu quả của saisố hệ thống là không thể điều chỉnh được một khi đã hoàn thành kết quả của nghiên cứu.Tuy nhiên, dù có lường trước ở trong mọi khâu của quá trình nghiên cứu, sai số hệ thốngvẫn có thể xảy ra, mặc dù ở một mức thấp. Cho nên trong quá trình phiên giải kết quảnghiên cứu ta vẫn phải coi trọng việc đánh giá vai trò của các sai số hệ thống đó, cũng nhưxác định chiều hướng và mức độ ảnh hưởng của chúng đến kết quả nghiên cứu.2.1. Các loại sai số hệ thống Có nhiều cách phân loại và gọi tên các loại sai số hệ thống làm sai lệch ước lượngcủa kết hợp quan sát được giữa yếu tố nguy cơ và bênh trạng tuỳ theo loại nghiên cứu. Cómột cách phân loại đơn giản, đó là gộp lại thành hai nhóm chung nhất và trong mỗi nhómcó những thể loại sai số hệ thống có thể xảy ra :- Sai số chọn: bao gồm tất cả bất kỳ sai số nào nảy sinh trong quá trình xác định cáccá thể trong nghiên cứu.- Sai số quan sát (hoặc sai số thông tin): bao gồm mọi sai số xuất hiện trong quátrình thu thập thông tin cả về yếu tố phơi nhiễm cả về bệnh trạng nghiên cứu.2.1.1. Sai số chọnSai số chọn sẽ có thể nảy sinh khi việc xác định những cá thể là đối tương nghiêncứu vào trong các nhóm nghiên cứu, dựa trên phơi nhiễm (trong nghiên cứu thuần tập) haydựa trên bệnh (nghiên cứu bệnh chứng). Nói một cách khác, nếu trong nghiên cứu bệnhchứng, sự lựa chọn các trường hợp bệnh và đối chứng dựa trên những tiêu chuẩn khácnhau, có liên quan ảnh hưởng đến tình trạng phơi nhiễm thì sai số hệ thống sẽ nảy sinh.Tương tự như thế, trong nghiên cứu thuần tập, nếu chọn các cá thể có phơi nhiễm và khôngphơi nhiễm có liên quan đến hậu quả bệnh thì sai số chọn sẽ nảy sinh. Sai số chọn có tầm quan trọng đặc biệt trong các nghiên cứư bệnh chứng và nghiêncứu thuần tập hồi cứu vì ở loại nghiên cứu này, cả hai sự kiện phơi nhiễm và bệnh đều đãxảy ra trước khi các cá thể được chọn vào nghiên cứu. Còn đối với các nghiên cứu thuầntập tương lai, sai số chọn hình như ít hoặc không xảy ra, vì tình trạng phơi nhiễm đã đượcbiết chắc chắn trước khi bệnh xuất hiện. Trong tất cả các trường hợp, sai số chọn có thểxảy ra nếu có sự khác nhau đáng kể giữa các cá thể được chọn vào nghiên cứu hơn vànhững người đủ tư cách nhưng không được chọn vào nghiên cứu. Các loại sai số chọn cóthể là sai số chẩn đoán, giám sát và sắp xếp cá thể vào nghiên cứu.Sai số chẩn đoán. Thí dụ kinh điển về thể loại sai số này được thấy trong nghiêncứu bệnh chứng để tìm sự kết hợp giữa việc sử dụng viên tránh thai với bệnh tắc mạchphổi. Nghiên cứu này dựa trên các dữ kiện của bệnh viện về các trường hợp tắc mạch máuvà tiền sử sử dụng viên tránh thai của họ. Có một sự lo ngại rằng các thầy thuốc ở phòngkhám đã biết trước về sự kết hợp dương tính giữa sử dụng viên tránh thai với tắc mạchmáu, nên có một số phụ nữ vào viện và được chẩn đoán bệnh tắc mạch phổi vì đã sử dụngthuốc tránh thai. Do đó sự tăng số phụ nữ dùng thuốc tránh thai trong số phụ nữ nhập việnvì tắc mạch phổi có thể là do sự nhập viện và chẩn đóan bị ảnh hưởng bởi tiền sử sử dụngthuốc tránh thai. Do đó nghiên cứu này đã có một ước lượng trội rất cao sự kết hợp giữaviệc sử dụng viên tránh thai với bệnh nhồi tắc mạch máu. Một ví dụ khác về sai số chọn là nghiên cứu về sự kết hợp giữa dùng oestrogenngoại sinh với ung thư tử cung, đã cho thấy sự gia tăng giả tạo nguy cơ ung thư tử cung ởphụ nữ dùng oestrogen, vì các phụ nữ có dùng oestrogen thường bị nên thường đến bệnhviện khám và được chẩn đoán là ung thư cao hơn hẳn ở phụ nữ không dùng oestrogen. Sai số từ chối hoặc sai số không trả lời. Cũng trong các nghiên cứu bệnh chứng,nhiều sai số chọn khác lại nảy sinh từ sự từ chối hoặc không trả lời của những cá thể trongbất kỳ nhóm nào ở hai nhóm nghiên cứu, hoặc tỷ lệ trả lời lại dựa theo tình trạng phơinhiễm, thì sai số chọn cũng xuất hiện và làm ảnh hưởng tới sự kết hợp giữa phơi nhiễm vàbệnh. Thí dụ, nếu nhóm đối chứng được chọn bằng cách đi điều tra ở các hộ gia đình, thìrất có thể có những người không trả lời, hoặc từ chối không trả lời. Điều đó sẽ liên quanđến các biến số về dân số, về lối sống, về nghề nghiệp mà một số hoặc tất cả những biếnđó lại có thể chính là những yếu tố nguy cơ phát triển bệnh. Trong những trường hợp ấy,sai số chọn sẽ là một vấn đề lớn trong phiên giải kết quả nghiên cứu. 2.1.2. Sai số quan sát (hoặc sai số thông tin) Sai số quan sát sẽ xảy ra nếu có những sự khác nhau một cách có hệ thống trongviệc thu nhập những thông tin về phơi nhiễm hoặc về bệnh từ hai nhóm trong nghiên cứu. Sai số nhớ lại: Sai số nhớ lại xảy ra khi các cá thể ở nhóm đã nhớ sai hoặc báo cáotình trạng phơi nhiễm trước đây của họ khác với nhóm cá thể không bị bệnh đó. Hoặcnhững cá thể phơi nhiễm với một yếu tố nguy cơ nào đó báo cáo mức độ bệnh khác vớinhững cá thể không phơi nhiễm. Loại sai số này là vấn đề đặc biệt lớn trong các nghiêncứu bệnh chứng và các nghiên cứu thuần tập hồi cứu, vì cả hai sự kiện phơi nhiễm và bệnhđã xảy ra trước khi nghiên cứu. Và một trong những phương pháp phổ biến để thu thập cácthông tin trong nghiên cứu bệnh chứng lại là phương pháp phỏng vấn những người thamgia nghiên cứu, hoặc những người thân của họ như mẹ của đứa trẻ, hoặc vợ chồng của họ.Những người này thường có khuynh hướng nghĩ về những "nguyên nhân" và tiền sử phơinhiễm khác với người không bị bệnh. Sai số nhớ lại có thể làm khuếch đại hơn hoặc giảmhơn sự kết hợp giữa phơi nhiễm và bệnh tùy thuộc sự nhớ lại về tình trạng phơi nhiễm củanhóm bệnh là lớn hơn hay nhỏ hơn so với nhóm chứng.Sai số thu thập thông tin hay sai số phỏng vấn . Nó bao gồm bất cứ một sai kháchệ thống nào trong việc khai thác thu thập, ghi chép, hoặc phiên giải thông tin từ các cá thểnghiên cứu và xảy ra trong tất cả các loại thiết kế nghiên cứu hoặc thái độ khai thác thôngtin Sai số thu thập thông tin thường xảy ra trong các nghiên cứu bệnh chứng, cũng nhưtrong các nghiên cứu thuần tập hồi cứu, đặc biệt có liên quan đến việc đánh giá tình trạngphơi nhiễm vì sự hiểu biết rõ về tình trạng bệnh có thể đẫn đến việc khai thác sai lệch vềtiền sử phơi nhiễm. Còn trong các nghiên cứu thuần tập tương lai thì loại sai số này ít xảyra, hoặc không thành vấn đề vì bệnh chưa xảy ra khi chúng ta xác định tình trạng phơinhiễm. Nhưng dù sao trong các nghiên cứu thuần tập, cả hồi cứu và tương lai, cũng tiềmtàng sai số quan sát trong việc giám sát đánh giá đầu ra của nghiên cứu nghĩa là việc pháthiện bệnh sau này. Vì thông tin về tình trạng phơi nhiễm đã biết rõ tại thời điểm xác địnhbệnh và người nghiên cứu đã biết về giả thuyết nghiên cứu, nên thường ghi chép thiên vềdương tính có phơi nhiễm. Loại sai số này cũng có thể làm sai lệch kết quả nghiên cứu canthiệp, nhất là các nghiên cứu can thiệp không sử dụng placebo và kỹ thuật "mù" trongquan sát. Trong tất cả các trường hợp đó, sự kết hợp giữa phơi nhiễm và bệnh có thể bị sailệch. Sai số bỏ cuộc. Sai số loại này chỉ xảy ra trong các nghiên cứu thuần tập tương lai.Nguồn gốc của sai số này là do sự bỏ cuộc của đối tượng nghiên cứu sau một thời gian dàihoặc ngắn đến khi xuất hiện hậu quả bệnh. Đặc biệt là khi số người bỏ cuộc không theo dõiđược này lại có tình trạng khác với những người tham dự nghiên cứu về cả phơi nhiễm vàbệnh thì bất kỳ một sự kết hợp nào quan sát được đều bị sai lệch. Ví dụ như trong mộtnghiên cứu thuần tập tiến hành bằng cách gửi bộ câu hỏi qua đường bưu điện để đánh giákết hợp giữa thuốc lá và nhồi máu cơ tim, người ta đã thấy rằng những người có hút thuốcmà bị bệnh có tỉ lệ trả lời khác hẳn ở những người không hút thuốc mà bị bệnh. Sai số bỏcuộc luôn luôn xảy ra chừng nào tỉ lệ bỏ cuộc có liên quan đến cả tình trạng phơi nhiễm vàbệnh.Sai số phân loại: Một thể loại sai số đặc biệt khác trong các sai số quan sát là sai sốphân loại, nó xảy ra khi người nghiên cứu phân loại nhầm lẫn hoặc về tình trạng phơinhiễm hoặc về tình trạng bệnh của những người tham gia nghiên cứu. Ở trong bất kỳnghiên cứu nào, vì mức độ không chính xác cả trong việc báo cáo và thu thập thông tin làkhó tránh khỏi, nên sai số phân loại luôn luôn là vấn đề cần chú ý. •nh hưởng của sai sốphân loại phụ thuộc vào sự xếp lẫn phơi nhiễm (hay bệnh) có độc lập với bệnh (hay phơinhiễm) hay không. Nếu xếp lẫn là ngẫu nhiên (hay không khác biệt) thì tỷ lệ các cá thể bịxếp lẫn về một sự kiện có thể xấp xỉ bằng nhau. Do sai số phân loại ngẫu nhiên làm tăng sựgiống nhau giữa các nhóm phơi nhiễm và không phơi nhiễm nên nó làm lu mờ sự kết hợp.Sai số phân loại ngẫu nhiên về phơi nhiễm và bệnh có thể xảy ra ở tất cả các nghiên cứudịch tễ học. Nghiên cứu tuần tập hồi cứu về tiếp xúc nghề nghiệp thường thu thập thông tintừ hồ sơ được điền từ nhiều năm trước đó. Ngoài ra chúng phải sử dụng các biến số nhưnghề nghiệp và tính chất công việc như là các chỉ số về phơi nhiễm với một yếu tố nào đó.Tuy nhiên, tính chính xác và đầy đủ của các hồ sơ sức khỏe giống nhau ở cả những ngườibị bệnh và không bị bệnh. Tương tự như vậy, các nghiên cứu sử dụng phương pháp các tựbáo cáo cũng hay gặp sai số phân loại, phụ thuộc vào bản chất của quần thể và những phơinhiễm đặc biệt. Sai số phân loại ngẫu nhiên thường làm loãng bất kỳ một kết hợp thật nàogiữa phơi nhiễm và bệnh.Sai số phân loại ngẫu nhiên sẽ trở thành nghiêm trọng khi phân loại khác nhau giữacác nhóm, xảy ra khi tỉ lệ người bị xếp lẫn khác nhau trong hai nhóm của nghiên cứu. Hậuquả của sai số phân loại khác biệt hay không ngẫu nhiên này làm thay đổi cả chiều hướngcủa kết hợp, tuỳ từng tình huống cụ thể, làm tăng hay giảm sự ước lượng về sự kết hợp thậtsự2.2. Các biện pháp khống chế sai số hệ thốngViệc loại trừ các sai số hệ thống tiềm ẩn cần phải được tiến hành qua việc thiết kếnghiên cứu một cách cẩn thận. Một vài loại sai số hệ thống có thể phòng và kiểm soát đượcmột phần khi phân tích kết quả. Tuy nhiên các sai số hệ thống khác, đặc biệt là sai số chọn,thì không thể chỉnh lý và loại trừ một khi chúng đã xảy ra. Việc phòng và khống chế cácsai số hệ thống trong giai đoạn thiết kế nghiên cứu là rất quan trọng để bảo đảm tính giá trịcủa kết quả nghiên cứu. Có nhiều cách thiết kế nghiên cứu có thể làm giảm khả năng xảyra sai số hệ thống, từ việc lựa chọn quần thể nghiên cứu, đến nguồn thông tin và phươngpháp thu thập thông tin.2.2.1. Chọn quần thể nghiên cứu Có nhiều cách chọn quần thể nghiên cứu để làm giảm sai số chọn đến mức nhỏnhất. Thí dụ, lựa chọn các cá thể đối chứng ở bệnh viện trong các nghiên cứu bệnh chứngsẽ làm tăng tính so sánh của nhóm này so với nhóm bệnh về mong muốn tham gia nghiêncứu, các yếu tố ảnh hưởng đến sự nhập viện, nhận thức về nguy cơ và bệnh. Đồng thời nósẽ làm giảm tỷ lệ không trả lời, sai số chọn và sai số nhớ lại.Đối với các nghiên cứu thuần tập tương lai và các thử nghiệm lâm sàng thì khảnăng theo dõi đối tượng nghiên cứu suốt cuộc nghiên cứu là rất quan trọng nhằm làm giảmtỷ lệ bỏ cuộc, thì người nghiên cứu phải chọn quần thể dễ xác định về nghề nghiệp, nơi làmviệc, nơi thường trú và những tính chất tương tự khác, để thu thập nhanh chóng được cácthông tin. Một yếu tố khác cần phải cân nhắc khi lựa chọn quần thể nghiên cứu nhằm làmgiảm sai số không trả lời và sai số bỏ cuộc, đặc biệt là đối với các nghiên cứu thử nghiệmlâm sàng, là việc lựa chọn quần thể nghiên cứu nào có nguy cơ phát triển hậu quả nghiêncứu. Những người đó thường quan tâm tham gia nghiên cứu hơn là những người có nguycơ phát triển bệnh thấp và do đó họ dễ thực hiện cam kết và tuân thủ nghiên cứu hơn. 2.2.2 Các phương pháp thu thập số liệu nghiên cứu. Trong bất kỳ một nghiên cứu phân tích nào, các phương pháp thu thập số liệu đềucó những tác động ảnh hưởng rõ rệt đến giá trị của kết quả nghiên cứu. Thường có nhiềuphương pháp để thu thập cùng loại thông tin như nhau. Đứng trên quan điểm thực tế, cóhai cách chủ yếu trong thiết kế để thu thập số liệu có ít sai số:• Xây dựng những phương pháp và công cụ thu thập thông tin, bao gồm bộ câu hỏi,phương pháp thăm khám, cách phỏng vấn, các biểu mẫu tổng hợp từ các sổ sách • Huấn luyện các điều tra viên về thực hiện các phương pháp và sử dụng các công cụ thuthập thông tin.Một điểm cần nhớ là phương pháp và công cụ thu thập thông tin phải được sử dụngnhư nhau ở hai nhóm nghiên cứu. 2.2.2.1. Về công cụ thu thập số liệu Một trong những biện pháp tốt nhất để làm giảm sai số hệ thống là sử dụng các câuhỏi đóng có tính khách quan cao. Ví dụ, nếu biến số nghiên cứu là huyết áp, thông tin cóthể được thu thập bằng các cách khác nhau như hỏi về tiền sử tăng huyết áp, sử dụng bộcâu hỏi tự điền, tính huyết áp trung bình qua nhiều lần đo sử dụng phương pháp chuẩn mựcvà thống nhất. Câu hỏi về tiền sử tăng huyết áp rõ ràng là chủ quan và có nhiều khả năngxảy ra sai số (sai số nhớ lại nếu phỏng vấn hay sai số thông tin do thiếu thông tin ghi tronghồ sơ). Đo huyết áp sẽ loại trừ các vấn đề trên, nhưng vẫn xảy ra sai số do tính biến thiênvề đo lường hay ảnh hưởng chủ quan ở phía người nghiên cứu. Do đó trong ví dụ này, cáchtốt nhất để có thông tin có giá trị là tính số đo huyết áp trung bình qua các lần đo theo mộtphương pháp chuẩn. Một điểm quan trọng khác là , câu hỏi càng rõ ràng, càng ít sai số xảyra. Thay vì hỏi: “Anh chị cảm thấy thế nào?”, về mặt dịch tễ học , nên hỏi “Anh chị có mắcmột trong những triệu chứng nào sau đây không?” và dưới đó liệt kê các triệu chứng.2.2.2.2. Cách tiến hành thu thập số liệu Cách thu thập quan trọng duy nhất để làm giảm sai số là duy trì được kỹ thuật"mù" trong phạm vi tối đa có thể được. Điều đó có nghĩa là người ghi hồ sơ, phỏng vấnhay khám bệnh phải không biết gì về tình trạng phơi nhiễm của các cá thể trong quần thểnghiên cứu khi xác hậu quả trong nghiên cứu can thiệp hoặc trong nghiên cứu thuần tậptương lai, hoặc không biết gì về bệnh của các cá thể khi xác định tình trạng phơi nhiễmtrong các nghiên cứu bệnh chứng. Và đặc biệt là họ không được biết tí gì về những giảthuyết mà họ đang nghiên cứu. 2.2.2.3. Huấn luyện cán bộ nghiên cứuĐể làm giảm sai số tiềm tàng trong việc thu thập số liệu, cần phải tiến hành huấnluyện kỹ lưỡng và chuẩn mực người tham gia nghiên cứu và sử dụng quy trình nghiên cứuđã được soạn thảo rõ ràng. Để làm giảm sai số quan sát, một điều rất quan trọng là tất cảnhững người điều tra viên điền phiếu, khám sức khỏe, phỏng vấn phải tuân thủ nghiêmchỉnh quy trình nghiên cứu như nhau ở tất cả các đối tượng nghiên cứu. Nội dung huấnluyện phải bao gồm các câu trả lời chuẩn mực đối với các câu hỏi về nghiên cứu, áp dụngcùng một kĩ thuật khai thác thông tin và các kĩ thuật chuẩn mực loại trừ sai số và bỏ sótthông tin.2.2.3. Các nguồn thông tin về phơi nhiễm và bệnhCùng với các biện pháp thu thập số liệu, số lượng và chất lượng của các nguồnthông tin về phơi nhiễm và bệnh trong nghiên cứu cũng dễ ảnh hưởng bởi các sai số.Thông tin có thể được thu lượm từ nhiều nguồn khác nhau như bộ câu hỏi, số liệu thống kêsinh tử, hồ sơ sức khỏe, hồ sơ bệnh án hoặc đo lường trực tiếp các biến số cần thiết. Sửdụng những số liệu có sẵn, nếu được lưu giữ đầy đủ và ghi chép nghiêm túc, thì thường lànguồn không chứa nhiều sai số, vì những thông tin đó được ghi chép trước khi có sự xuấthiện hậu quả nghiên cứu. Nhưng tiếc rằng, những số liệu có sẵn như thế thường không cóthông tin đầy đủ về những biến cần thiết cho nghiên cứu, đặc biệt là những biến số về lốisống như hút thuốc lá, tập thể thao, ăn kiêng Hơn nữa, sự thiếu hụt thông tin lại khác nhauở các nhóm nghiên cứu khác nhau. Một cách để làm giảm khả năng xảy ra sai số là sửdụng nhiều nguồn số liệu để cung cấp thông tin độc lập về phơi nhiễm và bệnh. Các số liệuphỏng vấn trực tiếp hoặc qua các bảng câu hỏi có thể được bổ sung thêm bằng cách xemxét các sổ khám sức khỏe. Tự báo cáo các yếu tố nguy cơ và chẩn đoán thường được bổxung bằng các sổ tổng hợp ra viện của bệnh viện và các hồ sơ sức khoẻ khác. Các chẩnđoán ghi trong giấy chứng tử có thể được đối chiếu với những thông tin từ hồ sơ bệnh án ởbệnh viện hoặc khai thác thêm các thông chi tiết bổ xung quanh cái chết đó từ họ hàng củabệnh nhân. Các chẩn đoán xác định bệnh từ sổ ra viện trong các nghiên cứu bệnh chứngđược xác định qua việc xem xét độc lập bởi một người nghiên cứu không biết gì về tìnhtrạng phơi nhiễm. Ở các nghiên cứu can thiệp cũng vậy, nên cố gắng xác minh việc tự báocáo tuân thủ nghiên cứu bằng cách xem xét các xét nghiệm sinh hóa hoặc các chỉ thị khác.Trong tất cả các ví dụ nêu trên, mục tiêu là nhằm cung cấp bằng chứng về tình trạng phơinhiễm hoặc bệnh mà không bị sai lệch do điều tra viên và người tham gia nghiên cứu. Tất cả các thông tin về phơi nhiễm và bệnh đều phải được định nghĩa thống nhấtchuẩn mực và rõ ràng, sử dụng các tiêu chuẩn thống nhất để loại trừ ảnh hưởng chủ quancủa người nghiên cứu. Thí dụ nghiên cứu về nhồi máu cơ tim đã dùng tiêu chuẩn chẩnđoán của TCYTTG, trong đó rất quan trọng là người chẩn đoán bệnh phải không được biếtgì về tình trạng phơi nhiễm của bệnh nhân.Trong hầu hết các nghiên cứu khi đánh giá vai trò của các sai số hệ thống, cần phảilưu ý đến các loại hình nghiên cứu với những thiết kế đặc thù của chúng và đến bản chấtcủa các kết quả. Trong khi tất cả các nghiên cứu phân tích đều có khả năng chứa sai số hệthống, thì mỗi loại thiết kế nghiên cứu đều có thể có những sai số làm ảnh hưởng đến kếtquả nghiên cứu. Ví dụ, trong các nghiên cứu bệnh chứng, cần chú ý đến 2 khả năng xảy ra:do sự hiểu biết nhất định về tình trạng bệnh có ảnh hưởng đến sự xác định tình trạng phơinhiễm (sai số nhớ lại) và những hiểu biết về phơi nhiễm lại có ảnh hưởng đến sự xác địnhbệnh và không bệnh (sai số lựa chọn). Ở các nghiên cứu thuần tập tương lai thì hay gặp saisố hệ thống về sự thiếu hụt theo dõi, còn đối với nghiên cứu thuần tập hồi cứu lại hay gặpsai số chọn. Mặt khác, nếu nghiên cứu là thuần tập tương lai thì sai số chọn lại là vấn đề ítquan trọng. Ở các nghiên cứu can thiệp, mức độ ảnh hưởng của các sai số quan sát nhiềukhi lại phụ thuộc bản chất của nhóm đối chứng, việc dùng placebo và mức độ khách quantrong việc xác định hậu quả nghiên cứu.Ngoài ra trong mọi loại nghiên cứu dịch tễ, cần chú ý đến khả năng xảy ra sai sốphân loại ngẫu nhiên hay không ngẫu nhiên. Vấn đề quan trọng nhất khi xác định loại saisố này là liệu có sự không chính xác trong việc phân loại hoặc về phơi nhiễm hoặc về bệnhtrạng hay không. Nếu sai số phân loại khác nhau chúng sẽ gây ra những ước lượng quá trộihoặc quá non của kết hợp, tuỳ thuộc chiều hướng của sai số xếp lẫn này. Ví dụ trongnghiên cứu bệnh chứng, liệu nhóm bệnh sẽ báo cáo tiền sử phơi nhiễm nhiều hơn nhómchứng hay không. Mặt khác sự không chính xác trong việc đánh giá phơi nhiễm và bệnh làkhông tránh khỏi trong tất cả các nghiên cứu dịch tễ học. Nếu sai số phân loại là ngẫunhiên, nếu không có lý do tin rằng mức độ sai số khác nhau ở các nhóm nghiên cứu, thì saisố chỉ làm ước lượng non kết quả nghiên cứu.Tóm lại, trong mọi nghiên cứu dịch tễ học, sai số hệ thống phải luôn luôn được đềcập đến khi giải thích bất kỳ một kết hợp thống kê quan sát nào. Tuy nhiên không giốngnhư sai số do may rủi và nhiễu, ở đây chúng gắn liền với việc thiết kế nghiên cứu và thựchiện nghiên cứu. Một khi một nguồn tiềm ẩn nào đó của sai số hệ thống đã xảy ra thì sẽcực kỳ khó khăn trong việc loại bỏ chúng, nếu không muốn nói là không thể loại bỏ đượcchúng. Cho nên ngay từ khi thiết kế một nghiên cứu bao giờ chúng ta cũng phải lườngtrước đầy đủ những sai số hệ thống có thể xảy ra và ảnh hưởng của chúng đến chiều hướngcủa sự kết hợp. Trong các báo cáo, người nghiên cứu phải đề cập đến các sai số để ngườiđọc có thể đánh giá tốt hơn kết quả nghiên cứu. Tuy nhiên cho dù người nghiên cứu cóthực hiện điều này hay không, thì độc giả phải luôn luôn cân nhắc các sai số hệ thống cóthể xảy ra để giải thích kết quả nghiên cứu.3. Sai số do các yếu tố gây nhiễu3.1. Định nghĩa Nhiễu định nghĩa là một yếu tố làm sai lệch ảnh hưởng của phơi nhiễm đối vớibệnh như là vai trò của một yếu tố thứ ba. Nhiễu cũng là một yếu tố nguy cơ đối với bệnh,đồng thời nhiễu phải có liên quan với phơi nhiễm nhưng lại không phụ thuộc vào phơinhiễm nghiên cứu.3.2. Bản chất của nhiễuTrong những nghiên cứu về sự kết hợp giữa một yếu tố nguy cơ với bệnh mà khôngloại bỏ được vai trò của nhiễu thì kết hợp quan sát được giữa phơi nhiễm và bệnh sẽ bị ảnhhưởng một phần, có khi toàn bộ. Nhiễu làm tăng hay giảm ước lượng sự kết hợp thật giữaphơi nhiễm và bệnh (ước lượng trội hay non) và đôi khi làm thay đổi cả chiều hướng củakết hợp quan sát được. Thí dụ, trong nghiên cứu về kết hợp giữa yếu tố rèn luyện thể lựcvà giảm nguy cơ nhồi máu cơ tim, một yếu tố có thể làm sai lệch mức độ của sự kết hợp làtuổi đời. Những người rèn luyện thể lực tốt thường là nhóm tuổi trẻ hơn những ngườikhông rèn luyện thể lực. Do đó không phụ thuộc vào rèn luyện thể lực, những người trẻ cónguy cơ mắc nhồi máu cơ tim thấp hơn hẳn những người có tuổi. Những người rèn luyệnthể lực có nguy cơ thấp đối với nhồi máu cơ tim, một phần do ảnh hưởng của rèn luyện thểlực, một phần do họ thuộc nhóm tuổi trẻ hơn. Tuổi có thể làm nhiễu kết hợp quan sát giữarèn luyện thể lực và nhồi máu cơ tim và gây ra một ước lượng trội của sự kết hợp này.Tương tự, sự khác nhau về phân bố nam và nữ cũng có thể ảnh hưởng đến mức độ kết hợpgiữa rèn luyện thể lực và nhồi máu cơ tim. Mức độ rèn luyện ở nam nhiều hơn nữ. Cũngđộc lập với rèn luyện thể lực, nam lại có nguy cơ mắc nhồi máu cơ tim cao hơn nữ. Do đósự kết hợp nghịch chiều giữa rèn luyện thể lực và nhồi máu cơ tim sẽ bị ước lượng non nếukhông cân nhắc đến giới.Yếu tố nguy cơ BệnhYếu tố nhiễuNhư trên đã nhấn mạnh, một yếu tố nhiễu phải liên quan đến cả yếu tố phơi nhiễmvà bệnh. Nếu không có sự kết hợp giữa phơi nhiễm và nhiễu hay ngược lại, nếu không cómối liên quan với bệnh, thì nhiễu không xảy ra. Ví dụ, những ngưòi rèn luyện thể lực vàkhông rèn luyện thể lực khác nhau về lượng nước uống hàng ngày. Tăng uống nước sẽkhông làm tăng (hay giảm) nguy cơ nhồi máu cơ tim. Do đó sự khác nhau về mức độ uốngnước giữa các nhóm rèn luyện thể lực không làm giảm nguy cơ nhồi máu cơ tim và khôngphải là yếu tố nhiễu của sự kết hợp này. Để mô tả đặc tính của các yếu tố nhiễu, chúng taphải xem xét các khía cạnh sau. Một là, trong khi yếu tố nhiễu có liên quan với bệnh, sự kết hợp không phải là kếthợp nguyên nhân. Nhiễu tiềm ẩn phải có liên quan đến nguy cơ của bệnh nhưng sự liênquan đó không phải là một kết hợp căn nguyên quan trọng so với yếu tố phơi nhiễm cầnnghiên cứu và nếu nó lại là yếu tố không kết hợp căn nguyên với nguy cơ của bệnh thìcàng tốt. Trên thực tế, các yếu tố gây nhiễu liên quan rõ rệt với yếu tố nguy cơ khác Thí dụtuổi và giới thường liên quan đến hầu hết các bệnh và liên quan tới sự xuất hiện và mức độcủa nhiều phơi nhiễm. Cho nên, tuổi và giới phải luôn luôn được coi là nhiễu tiềm ẩn củamọi kết hợp ở những mức độ khác nhau. Song những biến này thường không có liên quanvề nguyên nhân của bệnh, mà là một chỉ số quan trọng về các yếu tố bệnh căn. Ví dụ tỷ lệthấp của bệnh mạch vành của nữ so với nam có thể không phải là do giới tính, mà là doyếu tố có liên quan đến giới như nồng độ nội tiết tố là biến khó xác định cả về định tính vàđịnh lượng.Thứ hai là, các yếu tố nhiễu tiềm ẩn cần phải được coi là có liên quan với bệnhnhưng độc lập với phơi nhiễm nghiên cứu. Nói khác đi yếu tố gây nhiễu này không có liênquan với nguy cơ của bệnh thông qua kết hợp giữa nó và phơi nhiễm nghiên cứu. Điều đócó nghĩa là phải có sự kết hợp giữa yếu tố nhiễu và bệnh ở nhóm không phơi nhiễm. Nhưtrong ví dụ đã nêu ở trên, nếu rèn luyện thể lực làm giảm nguy cơ nhồi máu cơ tim thì mứcđộ uống nước sẽ làm tăng nguy cơ nhồi máu cơ tim đơn giản chỉ là vì uống nước có liênquan với rèn luyện thể lực. Tuy nhiên không có sự kết hợp giữa uống nước và nguy cơnhồi máu cơ tim ở những người không có rèn luyện thể lực. Do đó, biến số này không phảilà yếu tố nhiễu. Một điều rõ ràng là các yếu tố nhiễu tiềm ẩn như tuổi, giới, hút thuốc lákhông chỉ kết hợp với rèn luyện thể lực mà còn là yếu tố nguy cơ nhồi máu cơ tim ngay cảở những người không rèn luyện thể lực. Như trong thí dụ trước đã nêu vấn đề tiêu thụthuốc lá với nhồi máu cơ tim, người ta cũng gợi ý là việc uống cà phê cũng có ảnh hưởngnhất định tới nhồi máu cơ tim, không thông qua việc hút thuốc lá. Vì một mặt, nhữngngười chỉ uống cà phê cũng có thể mắc nhồi máu cơ tim, không cần vừa hút thuốc vừauống cà phê mới mắc. Mặt khác cũng có những người uống cà phê mà không có nguy cơmắc nhồi máu cơ tim. Như vậy mới có thể coi cà phê là nhiễu của sự kết hợp giữa thuốc lávà nhồi máu cơ tim. Cuối cùng là, yếu tố nhiễu không thể chỉ là yếu trung gian của chuỗi nguyên nhângiữa phơi nhiễm và bệnh. Sự phân biệt này không phải luôn rõ ràng và đòi hỏi phải có kiếnthức về cơ chế sinh học về mối liên quan giữa phơi nhiễm và bệnh. Như trình bày ở hìnhdưới đây, yếu tố nhiễu là một biến số có kết hợp với phơi nhiễm và độc lập với phơinhiễm. Nó là yếu tố nguy cơ của bệnh. Tuy nhiên, phơi nhiễm làm thay đổi yếu tố nhiễurồi yếu tố nhiễu lại tác động hay làm ảnh hưởng đến yếu tố bệnh, trong trường hợp đó, yếutố này không phải là nhiễu mà là một bước trung gian trong chuỗi nguyên nhân giữa phơinhiễm và bệnh. Thí dụ trong nghiên cứu đánh giá ảnh hưởng của việc uống rượu ở mứcvừa phải làm giảm nguy cơ nhồi máu cơ tim, một biến số mới thoạt nhìn tưởng như mộtyếu tố gây nhiễm tiềm ẩn, đó là nồng độ cao cholesterol lipoprotein (HDL). Nhiều nghiêncứu cho thấy rằng chính rượu đã làm tăng nồng độ HDL, và nồng độ HDL cao này lại làmgiảm nguy cơ mắc nhồi máu cơ tim, độc lập với uống rượu. Điều này đã tạo nên một giảthuyết rằng cơ chế của uống rượu vừa phải đối với nguy cơ nhồi máu cơ tim này có thể làtrung gian toàn bộ hay một phần là do sự thay đổi của HDL. Nếu cơ chế này được chứngminh, thì HDL cũng không coi được là nhiễu và không cần kiểm soát trong quá trình phântích kết quả nghiên cứu. Do đó, nồng độ HDL, phải được xem xét bằng những cách khácnhau trong những phân tích khác nhau, phụ thuộc vào câu hỏi nghiên cứu và vào sự hiểubiết về cơ chế sinh học. Sự xác định một yếu tố nào đó được coi là yếu tố nhiễu tiềm ẩn làrất khó. Một phương pháp xác định một yếu tố nhiễu là phân tích số liệu, tính toán đolường sự kết hợp rồi kiểm soát sự ảnh hưởng của biến số đó và quan sát xem sự kết hợpgiữa phơi nhiễm và bệnh có thay đổi không. Như vậy việc coi một yếu tố xuất hiện trongquá trình trung gian từ phơi nhiễm đến bệnh có là nhiễu hay không, để trong quá trình phântích kết quả có cần kiểm soát nó hay không, tuỳ thuộc vào các cơ chế sinh học đã biết. Mộtyếu tố nhiễu tiềm ẩn được xác định là nhiễu thực sự nếu ta điều chỉnh biến này thì chắcchắn sẽ gây ra một thay đổi ước lượng của sự kết hợp giữa phơi nhiễm và bệnh nghiên cứu.Một điều quan trọng cần ghi nhớ là ảnh hưởng của bất kì yếu tố nhiễu nào phải được xemxét trong mối quan hệ lẫn nhau giữa các yếu tố nhiễu khác nhau trong nghiên cứu. Tuynhiên, nếu chưa xác định được các yếu tố nhiễu trong giai đoạn thiết kế cần phải lựa chọncác biến số được coi là nhiễu tiềm ẩn và thu thập đầy đủ thông tin về các biến số đó. Vìkhông thể khống chế các ảnh hưởng của biến số nếu không có thông tin về biến số đó.Công việc này đỏi hỏi có nhiều kinh phí.Để có thể làm được điều đó trước hết là ngay từ giai đoạn thiết kế nghiên cứu phảitìm ra được toàn bộ các biến liên quan để có thể chọn ra những biến có thể coi là nhiễutiềm ẩn và những dữ kiện về nhiễu tiềm ẩn đó đều phải được khai thác, thu thập. Việc xácđịnh các yếu tố nhiễu tiềm ẩn phụ thuộc rất nhiều vào kiến thức hiện có về bệnh trongnghiên cứu, và những đánh giá trước đó về vấn đề nghiên cứu đó và vào lập luận của ngườinghiên cứu.3.3. Các biên pháp khống chế nhiễu trong thiết kế nghiên cứu Có 3 biện pháp loại bỏ nhiễu trong các thiết kế nghiên cứu tích dịch tễ: chọn mẫungẫu nhiên, thu hẹp phạm vi nghiên cứu và ghép cặp. Chọn ngẫu nhiên chỉ áp dụng trongcác nghiên cứu can thiệp, trong khi đó thu hẹp phạm vi nghiên cứu và ghép cặp được ápdụng trong tất cả các nghiên cứu phân tích.3.3.1. Chọn ngẫu nhiên Chọn ngẫu nhiên có một ưu điểm lớn là loại trừ được các yếu tố nhiễu. Với một cỡmẫu vừa đủ lớn thì kỹ thuật ngẫu nhiên có thể đảm bảo rằng tất cả các yếu tố nhiễu, baogồm những yếu tố hiện đã biết, không biết hoặc không nghĩ đến được phân phối đều trongcác nhóm nghiên cứu. Nếu các yếu tố nhiễu biết đến hay nghi ngờ không được phân đềutrong các nhóm nghiên cứu, vì mẫu cỡ nhỏ, hoặc vì vai trò của may rủi, thì chúng ta sẽ cóthể áp dụng một số kỹ thuật khác trong phân tích để kiểm soát chúng. Tuy nhiên nếu có sựphân phối không đồng đều các yếu tố nhiễu tiềm ẩn mà ta không biết thì chúng ta khôngthể kiểm soát được chúng trong giai đoạn phân tích. Cho nên khi dùng kỹ thuật chọn ngẫunhiên để kiểm soát được các yếu tố nhiễu thì điều quan trọng là cỡ mẫu phải đủ lớn.3.3.2. Thu hẹp phạm vi nghiên cứuNhư ta nói ở trên hậu quả của nhiễu sẽ không xảy ra khi các yếu tố nhiễu tiềm ẩnđược phân phối đều hoặc ở nhóm phơi nhiễm hoặc ở nhóm bệnh. Để làm được như vậy, cóthể áp dụng phương pháp giới hạn tiêu chuẩn chọn đối tượng nghiên cứu vào các nhóm đặcbiệt có liên quan đến nhiễu. Thí dụ, nếu giới tính và chủng tộc là những yếu tố nhiễu tiềmẩn thì ta nên chọn vào nghiên cứu chỉ gồm nam da mầu hoặc nữ da trắng. Đối với tuổicũng vậy, việc khống chế tuổi có thể được thực hiện bằng cách giới hạn đối tượng nghiêncứu ở nhóm tuổi nào đó tương ứng với tỷ lệ mắc bệnh tương đối đồng nhất.Thu hẹp phạm vi nghiên cứu là một biện pháp đơn giản, thuận tiện dễ làm, ít tốnkém để kiểm soát nhiễu tiềm ẩn. Tuy nhiên, phương pháp này cũng có một số hạn chế cầnchú ý đến sau đây:• Thu hẹp phạm vi nghiên cứu có thể làm giảm khá nhiều số người đủ tiêu chuẩn thamgia nghiên cứu, nên có thể gây nhiều khó khăn trong việc đạt được cỡ mẫu cần thiết vớilực mẫu thống kê mong muốn trong một khoảng thời gian hợp lý.• Thu hẹp phạm vi nghiên cứu vẫn có thể còn tồn tại yếu tố nhiễu nếu tiêu chuẩn giớihạn chưa đủ hẹp. Ví dụ trong một nghiên cứu về rèn luyện thể lực và nhồi máu cơ tim,một yếu tố nhiễu quan trọng cần phải khống chế là tuổi. Nếu chỉ hạn chế nghiên cứu ởlứa tuổi 40-65 vẫn còn nhiễu tiềm ẩn bởi vì tỉ lệ nhồi máu cơ tim và rèn luyện thể lựcthay đổi trong khoảng tuổi quá rộng đó. Tương tự, nếu giới hạn quần thể nghiên cứu ởnhững người đã từng hút thuốc lá không thôi sẽ không đủ để khống chế nhiễu là hútthuốc lá, vì nguy cơ nhồi máu cơ tim có liên quan đến hút thuốc lá hiện tại chứ khôngliên quan đến hút thuốc lá trong quá khứ. • Nhược điểm lớn nhất của việc thu hẹp phạm vi nghiên cứu là không cho phép đánh giásự kết hợp giữa phơi nhiễm và bệnh ở các mức độ khác nhau. Ví dụ, trong nghiên cứuvề rèn luyện thể lực và nhồi máu cơ tim, hạn chế quần thể nghiên cứu chỉ ở nam hoặc ởnữ chắc chắn sẽ khống chế được ảnh hưởng nhiễu của yếu tố giới. Nhưng người takhông thể biết được sự khác nhau về mức độ kết hợp giữa rèn luyện thể lực và nhồimáu cơ tim giữa nam và nữ. Thu hẹp phạm vi nghiên cứu có thể làm giảm tính kháiquát hóa kết quả nghiên cứu nhưng không ảnh hưởng đến tính giá trị của kết hợp quansát được, thậm chí càng làm tăng giá trị do loại trừ ảnh hưởng của yếu tố nhiễu.3.3.3. Biện pháp ghép cặpKhông giống như các phương pháp chọn ngẫu nhiên và thu hẹp phạm vi nghiêncứu thường dùng để khống chế nhiễu trong giai đoạn thiết kế nghiên cứu, ghép cặp đượccân nhắc đến cả khi thiết kế và phân tích nghiên cứu. Trong nghiên cứu ghép cặp, các yếutố nhiễu được đưa vào nghiên cứu, nhưng các đối tựong nghiên cứu được chọn sao cho cácyếu tố nhiễu được phân bố đề trong các nhóm nghiên cứu. Ví dụ trong nghiên cứu bệnhchứng về rèn luyện thể lực và nhồi máu cơ tim, trong đó tuổi, giới và hút thuốc lá là cácyếu tố nhiễu tiềm ẩn, mỗi trường hợp bệnh được ghép cặp với một trường hợp đối chứngcùng tuổi, giới và mức độ hút thuốc lá. Ví dụ, một bệnh nhân nhồi máu cơ tim nữ 65 tuổihiện đang hút thuốc lá nặng được ghép cặp với một phụ nữ cùng tuổi hút thuốc lá nặngnhưng chưa bao giờ bị nhồi máu cơ tim. Bằng cách này, ghép cặp làm cho các yếu tố nhiễutiềm ẩn được phân bố đều như nhau ở cả hai nhóm nghiên cứu. Các biện pháp ghép cặp vàtính toán kết quả nghiên cứu từ kỹ thuật ghép cặp này được trình bày ở một bài riêng, ởđây chỉ nêu một số ưu điểm và hạn chế của nó.• Ưu điểm: Ghép cặp, như đã nêu ở trên là một kỹ thuật khống chế nhiễu rất hiệu quả, đã đượcsử dụng rộng rãi trong nhiều năm qua. Đối với một số biến số, nếu không sử dụng ghépcặp trong thiết kế nghiên cứu sẽ không có đủ số cá thể ở các nhóm nghiên cứu giống nhauvề các yếu tố nhiễu để khống chế nó trong giai đoạn phân tích. Nói cách khác, ghép cặp làcần thiết đối với bất kì yếu tố nhiễu nào mà chúng không đủ chung nhau giữa các nhóm. Những biến phức tạp như hàng xóm, anh em ruột có nhiều yếu tố khác nhau về môitrường hay di truyền là rất khó định lượng và kiểm soát bằng các phương pháp khác. Bằngcách ghép cặp anh em ruột người ta có thể kiểm soát được nhiều yếu tố có liên quan đếngia đình như di truyền, môi trường, ăn kiêng, tình trạng kinh tế xã hội, sử dụng dịch vụ ytế. Tương tự như vậy, người ta thường ghép cặp những người hàng xóm có cùng phơinhiễm với môi trường và các yếu tố tầng lớp xã hội, dân tộc. Nếu nhóm chứng được chọnngẫu nhiên từ một đến hai người hàng xóm tham gia vào nghiên cứu do đó rất khó phântích. Mỗi cá thể ở nhóm đối chứng phải được chọn ghép cặp với những bệnh nhân để bảođảm các thông tin thu thập được có thể so sánh được với nhau. Ngoài ra, ghép cặp có thểcó ích khi số trường hợp bệnh nhỏ. Trong trường hợp này, các đặc trưng cơ bản khác nhaugiữa các nhóm nghiên cứu do sự biến thiên ngẫu nhiên và do cỡ mẫu không đủ để tạo racác nhóm nhỏ có chung yếu tố nhiễu để kiểm soát chúng khi phân tích. • Hạn chế: Những hạn chế của kỹ thuật ghép cặp là: - Ghép cặp là kỹ thuật khó, tốn kém về kinh phí và thời gian. - Rất khó chọn ra được những cặp ghép chặt chẽ theo đúng và đủ tiêu chuẩn về từng biếnsố nhiễu. Do đó về nguyên lý nó được sử dụng trong nghiên cứu phân tích, nhưng nó ítđược áp dụng trong nghiên cứu thuần tập trên phạm vi lớn. Trong nghiên cứu đó, đểđạt được tính giá thành hiệu quả là phải chấp nhận sự đa dạng của các cá thể nghiêncứu và sử dụng các phương pháp khống chế nhiễu khác như phân tầng hay phân tích đabiến. Do đó, ghép cặp thường được sử dụng trong các nghiên cứu bệnh chứng với cỡmẫu nhỏ. Ngay cả trong trường hợp đó, cần phải cân nhắc đến giá thành thu thập cácthông tin về các yếu tố nhiễu tiềm ẩn và lựa chọn các cá thể ở nhóm đối chứng đề ghépcặp.- Ghép cặp khó đạt được cỡ mẫu cần thiết vì cỡ mẫu sẽ phải bao gồm nhiều khả năng kếthợp. Thí dụ trong một nghiên cứu chỉ có 3 yếu tố phải ghép cặp như giới (2 nhóm), tuổi(5 nhóm) và chủng tộc (3 nhóm) thì sẽ phải có tới 30 (2x5x3) khả năng kết hợp phảiđược xem xét trong việc tìm ra một cá thể đối chứng thích hợp. Khi đủ số người nghiêncứu ở nhóm bệnh thì ghép cặp theo tỉ lệ 1/1 là một thiết kế có ý nghĩa thống kê nhất.Khi số người ở nhóm bệnh ít, lực thống kê có thể tăng lên bằng cách ghép nhiều cá thểđối chứng cho một cá thể bị bệnh, nhưng không nên quá tỉ lệ 4/1. - Ghép cặp không có khả năng đánh gía được hậu quả của một yếu tố được ghép cặp.Với những ưu và nhược điểm trên, ghép cặp không phải là một kĩ thuật thườngxuyên được áp dụng mà phải cân nhắc kĩ lưỡng khi sử dụng. Có nhiều kĩ thuật khống chếnhiễu khi phân tích sẽ khắc phục những nhược điểm của ghép cặp. Trong hầu hết cáctrường hợp, người ta thường chọn cỡ mẫu phù hợp các nhóm nghiên cứu rồi phân tích phântầng hay phân tích đa biến để hạn chế yếu tố nhiễu. Phân tầng là kĩ thuật khống chế nhiễukhi phân tích hay đánh giá sự kết hợp theo một nhóm hay một tầng đồng nhất về biến sốgây nhiễu. Ví dụ, nếu giới là yếu tố nhiễu, sự kết hợp giữa phơi nhiễm và bệnh phải đượcphân tích riêng biệt ở nam và nữ. Nhưng trên thực tế nó có nhiều hạn chế về kinh tế vàkhoa học khiến cho người ta không ưa thích sử dụng lắm, trừ khi trong điều kiện và hoàncảnh nhất định.Tóm lại, trong tất cả các nghiên cứu phân tích, đặc biệt là các thiết kế nghiên cứubệnh chứng và tuần tập, nhiễu phải luôn được xem xét đến khi phân tích và giải thích kếtquả. Có nhiều phương pháp khống chế nhiễu trong thiết kế và phân tích các nghiên cứu:giới hạn nghiên cứu, ghép cặp, chọn ngẫu nhiên (trong thử nghiệm lâm sàng) trong thiết kếcũng như trong phân tích sử dụng kỹ thuật phân tầng hay phân tích đa biến. Không có mộtphương pháp riêng biệt nào là tối ưu. Mỗi phương pháp đều có những ưu và nhược điểmriêng của nó. Trong hầu hết các tình huống, kết hợp các phương pháp trên sẽ cung cấp tốthơn các thông tin và bản chất của số liệu và sẽ khống chế có hiệu quả hơn khi chỉ áp dụngmột phương pháp.Tài liệu tham khảo1. Dịch tễ học Y học, Bộ môn Dịch tễ học, Trường Đại học Y Hà nội, Nhà xuất bản Yhọc 19932. Dịch tễ học đại cương quyển 1, Bộ môn Dịch tễ học, Trường Đại học Y Hà nội,Nhà xuất bản Y học 19933. Dịch tễ học cơ sở, WHO, 1993, Nhà xuất bản Y học- Vụ Vệ sinh phòng dịch4. Foundation of Epodemiology, David E.Lilienfel, 19945. Epidemiology, Leon Gordis, 1996