學會會訊

會員登入

帳號

密碼



與時俱進的統計分析方法

作者:曾美君 (國立中山大學退休教授)

今年三月NEJM一篇短文[1], 整理2015年NEJM主要論文(Original Articles 與 Special Articles 二類)所採用的統計分析方法,並與早年的資料做對比(以往大概每隔10年就有類似的整理)。林慧娟醫生期盼我借題發揮,寫下感想給年輕研究者參考。

我必須承認,我看不出這樣的資料整理有何趣味或意義。不同觀察期間的研究議題與資料性質不一,研究者理應採用當時最恰當的統計分析方法。因此,即使觀察到某研究方法的使用量隨著歲月浮浮沈沈,我除了無語還是無語。 左思右想,想到「不忘初心,方得始終」,本著撰寫會訊短文的初心開始敲打鍵盤……

知名的醫學統計學者 Douglas Altman 早年在BMJ發表評論時, 舉出一個發人深省的譬喻[2]。大意是說, 臨床醫師在治療病患的時候如果處置不當,無論原因為何,大家都會認為事態嚴重。那麼,當醫學期刊論文經常出現錯誤的統計分析,或不當解讀分析結果,我們的反應通常是? 或該做何反應?遺憾的是,這篇評論似乎擁有抗老魔法,當年決定刊登這篇評論的BMJ編輯Richard Smith,在20年後表示:Altman一文所陳述的情況並沒有改善,評論觀點依然適用(http://blogs.bmj.com/bmj/2014/01/31/richard-smith-medical-research-still-a-scandal/)。值得注意的是,不僅是腦中風臨床醫生關心的醫學期刊,即使是一流的神經科學期刊,類似的錯誤統計分析也不少見[3]。

就事論事,我覺得醫學期刊上出現錯誤的統計分析不全然是作者的責任,與把關的(同儕)審查人以及期刊主編稱職與否不無關係。當然,讀者也需要有評讀(critical appraisal)本事,以免自誤誤人。近年來,許多期刊要求投稿論文內容必須依循「發表指引」 (請參考會訊第17卷第4期《請對您的同儕說清楚,講明白》),同時在審查機制中,主動詢問審查人是否需要統計專家協助審稿(在我個人次數不多的醫學期刊審查經驗中,不止一次遇到這種貼心的詢問)。隨著期刊努力把關品質,以往文獻陳述不夠詳實,或統計分析犯錯的毛病,應會逐漸改善。

臨床醫生如果有意自學練功,首先必須有正確的基本觀念:每一種統計分析方法都有前提假設。統計分析軟體操作愈來愈方便,資料分析人員如果「只知其然,不知其所以然」,以為開啟軟體點選若干指令就可以得到分析結果,我們也就不必訝異“錯誤的第一步”所衍生的諸多問題。特別是,常見的統計錯誤其實是大多數人認為簡單的二組對照比較,以及對統計顯著水準(p value)的解讀[4]。

其次,統計分析不宜「有樣學樣」(我也犯過此毛病)。剛開始接觸腦中風研究,對分析數據沒有實際經驗,理所當然地參照文獻的作法,依樣畫葫蘆。沒多久我就發現這種做法(以及學習方式)隱藏極大的失敗風險,原因是方法學日新月異,手上捧讀的文獻所採用的分析方法如今可能已經過時,同時也有可能碰到「反面教材」而不自知。幸虧第一次投稿醫學期刊時,再三獲得審稿人的指點與指正,得以及時脫困。考量後續研究需要,我開始認真培養統計分析的能力。

舉例說明在方法學上「與時俱進」的個人經驗。涉入腦中風研究後,我才認識邏輯迴歸 (logistic regression)。入門級的統計教材通常會提到[5],邏輯迴歸平均每個解釋變數的事件個數不宜少於10(a minimum of 10 outcome events per predictor variable (EPV))。雖然很多研究並沒有遵循這個法則(因此分析結果不可靠),但我堅持知行合一。多年後,參與研究分析145位使用tPA的中風患者之預後,其中14位用藥後出血[6]。根據EPV法則,在這情況下進行多元迴歸探討出血的危險因子顯然是行不通的。做功課惡補後,找到一篇方法學文獻[7],據此我們進行4個變數的迴歸分析(換言之, EPV=14/4)。面對這項分析方法可能產生的爭議,我們在論文中引用文獻並主動提出討論。去年有篇論文針對EPV問題提出新的觀點[8](Altman是共同作者),也許不久後主流期刊對邏輯迴歸分析的樣本數估算會有新的要求或建議,到時候我們自然是要跟進。

不容否認,國內很少臨床醫生有機會接受適當的統計分析(再)訓練,那麼如何在研究方法上與時俱進呢? 知識始於疑問,建議有興趣從事研究的臨床醫生,平日閱讀文獻,或在各種場合接觸到文獻討論時,儘量留神研究方法的「個別差異」(類似的研究為何分析方法同中有異),想辦法搞清楚怎麼回事。一點一滴累積評讀文獻的實力,你會發現自己在不知不覺中功力升級。

以實證醫學而言,當我們要拿某研究結果作為醫療決策參考,或制定相關健保政策時,方法學夠不夠嚴謹往往是爭論的關鍵所在。最近,Lancet Neurology有篇論文指出腦中風研究今後努力的方向[9], 提升研究方法的素質是五大重點之一,雖然該文僅針對隨機臨床試驗檢討,但也適用其他類型的臨床研究,毋庸置疑。

參考文獻:

  1. Sato Y, Gosho M, Nagashima K, et al. Statistical methods in the Journal - an update. N Engl J Med. 2017;376:1086-7.
  2. Altman DG. The scandal of poor medical research. BMJ. 1994;308:283-4.
  3. Nieuwenhuis S, Forstmann BU, Wagenmakers EJ. Erroneous analyses of interactions in neuroscience: a problem of significance. Nat Neurosci. 2011;14:1105-7.
  4. Mark DB, Lee KL, Harrell FE Jr. Understanding the role of p values and hypothesis tests in clinical research. JAMA Cardiol. 2016;1:1048-54.
  5. Lewis S. Regression analysis. Pract Neurol. 2007;7:259-64.
  6. Sung SF, Wu CS, Hsu YC, et al. Oxfordshire Community Stroke Project classification but not NIHSS predicts symptomatic intracerebral hemorrhage following thrombolysis. J Neurol Sci. 2013;324:65-9。
  7. Vittinghoff E, McCulloch CE. Relaxing the rule of ten events per variable in logistic and Cox regression. Am J Epidemiol. 2007;165:710-8.
  8. van Smeden M, de Groot JA, Moons KG, et al. No rationale for 1 variable per 10 events criterion for binary logistic regression analysis. BMC Med Res Methodol. 2016;16:163.
  9. Berge E, Salman RA, van der Worp HB, et al. Increasing value and reducing waste in stroke research.Lancet Neurol. 2017;16:399-408.

對於此文章如有任何問題或指教,歡迎來信至學會,編輯部後續會將您的意見刊載在下一期會訊!