討論研究設計,是一個不討喜的題目。對於絕大部分已經作過醫學研究的人來說,研究設計只是初階課程,而充滿數字與複雜概念的統計,才是一個令人望而生畏的高階課程。事實上,一個充滿技巧的研究設計,可以四兩撥千金,讓統計變得容易駕馭,而複雜的統計方法之所以應運而生,其實是因為實務的觀察中充滿了複雜的問題需要解決,但研究者卻常常不知道在一開始的研究設計階段裡如何正確地規避複雜的現實問題。
以一般臨床研究最常被採用的病例對照研究為例,病例對照研究說起來非常簡單,就是一組病人和一組沒病的人作比較罷了。然而,事情常常不如表面上看起來那麼簡單,理想的病例對照研究設計像珍珠般難尋,但大家至少仍應避免自己的設計變成砂礫。在Wacholder經典的病例對照研究法著作中指出,要選擇病例組與對照組,在設計上要注意兩件事:代表性(representativeness)與可比性(comparability);只有在設計上無法規避誤差時,才能在統計上加以校正。所謂代表性是指病例組個案應該是病人這個族群的代表性樣本,而對照組個案則應該是沒有病的這個族群的代表性樣本。可比性則是指病例組和對照組在進行比較時,研究的所有層面(個案定義、研究法、資料收集、統計等)都應該具有可以互相比較的公平性。代表性在研究假設需要外推(generalizability)時非常重要,但由於檢驗不易,也許我們以後可以另花篇幅來討論。 這一次我想和大家討論的是選樣可比性的問題,這常常發生在臨床上想要觀察某些處置或用藥是否有效或對預後是否有幫助時,或是想要把中風病人和健康人作比較,以觀察兩者活動量是否不同時,特別容易出現的所謂選樣誤差(selection bias)以及配對(matching)不公平的兩個問題。例如,想要觀察抗凝血劑的服用是否會影響病人的預後時,把服用藥物者和不服用藥物者選為兩組作比較是很自然的選擇;當我們想比較新CT是否比舊CT更能準確診斷腦中風時,把使用新CT者拿來和使用舊CT者作比較,更是一種直覺上的選擇;當我們想觀察中風患者的生病前的活動量是否偏低,挑選醫院中的健檢者作比較可能是不錯的選擇。然而這些例子卻可能是有誤差的範例。 經常有人跟我反映,教科書上選樣誤差的例子在經過說明後雖然可以瞭解,但真正操作時,還是無法避免誤差發生。其實,可以用一個簡單原則幫助判斷:如果將欲比較的兩組對調後,你仍然感到公平,那麼離真理就不遠了。在這個原則之下,最合理的方法就是隨機分派,則我們對於兩組交換之後的可比是感到公平的。但以前述的抗凝血劑研究為例,未服藥組中的個案若被放入服藥組中,身為醫師的你就不會處方抗凝血劑給這個病人,那這個個案就不合適作為對照的個案,這就是一種選樣誤差。同樣的,當我們觀察到新CT組的準確率較高時,可能只是因為使用新CT的這組病人,中風的表現較典型明確而醫師傾向指定使用新機器。或是當我們發現中風病人活動量較高時,可能是因為健檢病人全是台積電的員工所致。換句話說,身為拳擊手經紀人的你,如果不願意和對方交換選手,這場比賽恐怕是不公平的。 假若我們真能儘量保證兩組間收案對象上的公平性,衍生的下一個問題常是不對稱的個案數。如果在臨床上,應該用抗凝血劑而沒有使用的人數比該用且有服用的人來得少,鑑於樣本少(或是標準差大)的該組是弱勢的一組,我們常常使用1:2、1:3或是1:4的配對來提供較佳的檢力 (power)。要注意的是,這樣的配對比例並非沒有上限,超過4倍以上的比例不但無助於檢力的提升,當這個比例高達10倍、100倍,反而會造成另一種比較上的不公平。在比賽中叫強者讓一拳是合理的,叫強者要打不還手那就不公平了。身為研究者,我們好比是拳擊手的經紀人,總是想盡辦法要讓心目中的選手勝出。但是不要忘了讀者或評論者是以觀眾的身份來閱讀,提供一場重量級和羽量級的拳擊比賽,並不會讓觀眾歡呼。 以上有關可比性以及合理的病例和對照個案數比例問題,其實都適用於其他分析性的研究設計(世代研究、臨床試驗)。我要再強調一次:合理的研究設計是好研究的第一步,踏穩了這第一步,接下來的統計分析才有發揮的空間。如果從事研究的醫師們都有這樣的共識,將會大大提升與流行病學或統計專家合作溝通的效率與成果。 |
參考文獻: |
|