學會會訊

會員登入

帳號

密碼



多少人才夠?談多變項分析的樣本數問題

作者:林慧娟 (奇美醫學中心神經內科主治醫師)

引言
多年前我們進行一個以單一醫院住院病人為對象的世代研究,想要探討影響初次中風的病人一年內中風再發或死亡的因素。該文被某雜誌退稿,審查意見之一是:多變項分析的變項太多,而事件(event)數相對太少,所以估計的效應(effect)正確性存疑。這是筆者首次意識到樣本數(sample size)在這類研究方法的重要性。當前的臨床研究使用多變項分析模式非常普遍,以下的簡介旨在提醒研究者留意這個課題。

樣本數計算
一般人對臨床試驗的樣本數計算可能比較熟悉,決定需要多少樣本就是所謂的檢定力(power)計算,也就是能測出差別的power。同理,多變項分析的樣本數計算也決定於變項對結果的效應有多大以及變項本身的變異性有多大。效應越小(例如odds ratio很接近1),或變項的變異越大(例如standard deviation很大),樣本數就要更多。這些計算通常很複雜,需要請教統計專家,不過還是有幾個原則可以掌握。

首先,先假定只有一個自變項,沒有其他干擾因子(confounding factor),很多常用的套裝軟體和免費的簡單軟體(http://www.quantitativeskills.com/sisa/calculations/sampshlp.htm)都可以作這樣的計算。如果這第一步的計算就已經顯示樣本數太少,那鐵定是不夠用於多變項分析。

如果通過第一關,也有免費的軟體(http://www.power-analysis.com/specifications.htm)可以用來計算多變項分析的樣本數。不過,這時必須提供很多訊息給軟體,以mutliple linear regression為例,想要探討的主要變項(危險因子)有幾個,可能的干擾因子有幾個,危險因子組和干擾因子組估計各可以增加多少R2,還有alpha(通常是0.05)和beta(通常是0.8)各是多少。如果是multiple logistic regression 的類別變項,還要提供分佈情形(例如,性別的男女比),而連續變項則要鍵入該變項的平均值及標準差、在此平均值的事件率、以及在另一個非平均值的事件率,還有其他等等。

結果事件的影響
讀到這裡,沒有高深統計背景的人大概也不想看下去了。且慢!有一個簡單實用的原則可以遵循:在做multiple logistic regression及proportional hazards regression分析時,要放一個獨立變項(V)在模型(model)裡,至少要有10個事件(E)發生,即所謂E/V³10的原則。依此類推,如果要放入10個變項,就要有100個以上的事件。所以,如果研究想要探討的結果發生得很少,例如只有5個事件,即使有1,000位研究對象,也沒有足夠的power來證實假說。如果只有15個事件發生,就沒有辦法以多變項分析來控制其他干擾因子,因為這時候模型分析只能放入一個獨立變項。反過來說,如果大部分人都發生了結果,只有5個人沒有,同樣也適用於前述的原則:power不足。所以,需要多少樣本數便取決於有結果和無結果兩組之間人數較少的一組。

變項的影響
符合了E/V10的原則,並不保證如此樣本數就夠了。如果欲研究的獨立變項(危險因子)是一個二分的類別變項,例如性別,萬一此二分的分佈極不平均,就要看較少的一組有多少人。就算樣本有數百人,如果兩組中有一組人太少,例如男性200人、女性10人,則估計性別這個變項對結果的效應就會產生偏差,反映出來的就是估計值(odds ratio或hazard radio)有很寬的95%信賴區間,大大降低了它的價值。至於multiple linear regression分析,「結果」是一連續數值,其對樣本數的影響比較不那麼重要,但若樣本數不足,變項的效應仍是會呈現過寬的95%信賴區間。一般的建議是,一個獨立變項至少要有20個人。

如何瘦身
小型研究常遇到的問題是,相對於樣本大小,要探討的獨立變項太多。尤其是進入分析階段,要增加樣本數已經為時太晚或不太可行,這時就必須採取減少變項數目的策略。第一種方法是刪除不是干擾因子的變項,包括與要探討的危險因子及結果沒有相關的變項,以及在多變項分析時對結果的影響很微小的變項。也可以利用統計軟體現成的algorithm來篩選變項。第二種方法是以一個變項來代表其他幾個相關的變項,除了代表性的考慮,當然是要優先留下「體質」比較好的,亦即錯誤較小和缺失較少的變項。第三種方法是合併幾個變項變成一個,或轉成分數(score)、等級(scale),此法可以保留所有的變項,不過最好在設計研究的階段就先定義好score或scale。兩者各有其優缺點,使用者要花些時間瞭解究竟。

結語
方便易學的套裝統計軟體使得多變項分析的使用更為普及,但是潛藏其中的許多「楣楣角角」對很多人來說還是很陌生。筆者還記得當年投稿時另一項審查意見是:建議諮詢統計專家。從事研究的臨床醫師非常忙碌,常常分身乏術,個人單打獨鬥常常無法成就好研究。藉此願再次呼籲鼓勵結合流行病學和生物統計專家的團隊研究,一起來提升臨床研究的品質。
 

參考文獻:
Katz MH. Setting up a multivariable analysis. In: Multivariable analysis-A practical guide for clinicians. 2nd ed. Cambridge University Press, 2006:77-95.

對於此文章如有任何問題或指教,歡迎來信至學會,編輯部後續會將您的意見刊載在下一期會訊!