學會會訊:社團法人台灣腦中風學會

刊登日期： [2018-10-19]

淺談不劣性試驗 (Non-Inferiority Trials)

作者：呂瑾立　(奇美醫學中心醫學研究部統計諮詢專員)

許多新藥推出的著眼點，是為了改進傳統療法不盡完善之處。舉例來說，心房顫動的患者容易罹患中風與栓塞性疾病，臨床上常以warfarin之類的維他命K拮抗劑來預防。但是這類藥物需要定期監測凝血功能，據以調整使用劑量，使用上有些不便。因此，不少藥廠努力研發不需定期監測、調整劑量的抗凝血藥物，或新的治療方式，前仆後繼地投入臨床實驗，希望新藥或新療法可以取代warfarin。這些試驗設計的共同邏輯是，新藥或新療法在預防中風與栓塞性疾病的藥效至少跟warfarin一樣好，但是出血事件較少，或是相關費用更經濟。最近發表在Lancet上，有關idraparinux(1)以及WATCHMAN device(2)的臨床試驗，便是具體的例子。這一類型的臨床試驗，我們稱為「不劣性試驗」（non-inferiority trials）。

不劣性試驗與一般常見的「優越性試驗」（superiority trials）性質不同，後者是為了證實新藥比對照組用藥（舊藥或安慰劑）有效，前者則是希望證實新藥的療效至少不輸舊藥，讓臨床用藥多一種選擇。其次，「相等性試驗」（equivalence trials）常被拿來與不劣性試驗一起討論。顧名思義，相等性試驗是驗證新、舊藥「半斤八兩」，藥效旗鼓相當。（有些讀者可能已經發現，不劣性試驗單尾檢定有關，而相等性試驗是雙尾檢定。）

不同類型的試驗其推論邏輯不同，假說的設定方式便有差異，樣本數的要求與資料分析的方法也不一樣。茲簡單介紹不劣性試驗的相關概念如後。

不同的檢定邏輯
一般我們熟悉的優越性試驗，是為了凸顯「新藥優於舊藥（或安慰劑）」，因此通常把「新、舊藥無差異」或「新藥藥效小於或等於舊藥」當作虛無假說（null hypothesis, H0）。前者是雙尾檢定，後者為單尾檢定。不劣性試驗的情況剛好相反，試驗者希望看到「新藥不比舊藥差」，因此將「新藥療效比舊藥差」設為虛無假說來進行挑戰。在這個假說成立的前提之下，倘若研究樣本出現的可能性極低（亦即，P值很小），那麼表示「如果母群體的真相真如虛無假說，那這個研究樣本實在太稀奇、罕見了」。於是，在這種情況下便得以推翻虛無假說，宣稱「新藥藥效至少跟舊藥一樣好」。

為什麼需要不劣性試驗？
一個常見的疑問是：為什麼不能以優越性試驗為架構，當研究結果無法推翻虛無假說（「新、舊藥無差異」）時，便逕行認為新藥與舊藥療效相當，為什麼還需要不劣性試驗這種研究設計呢？一個重要的觀念是：「無法推翻」虛無假說，並不代表「證實」了虛無假說。有句像似繞口令的英文句子大略點出了這個意涵：Absence of evidence is not evidence of absence。

無法推翻虛無假說的原因很多。以優越性試驗而言，有可能是新藥的確比舊藥好，只是沒有好到一個足夠以目前的研究樣本偵測出差異的程度，原因來自研究樣本資料的樣本數或統計檢定力（power）不足所致。樣本數不夠，或資料變異程度超過預期，都會造成統計檢力不足。這就好像一個檢定包山包海、打迷糊仗，差異為-10%或0或20%，都有可能包含在信賴區間中；縱使藥效已經達到臨床上值得重視的差異，誤差卻大到不能鑑別出來。所以，不能據此結論兩種藥物療效相當或新藥的藥效比舊藥差。

差多少才算有差？
前文提到不劣性試驗之虛無假說是「新藥療效比舊藥差」，那麼要差多少才算比較差呢？我們需要預先設定合理的差異範圍，這個範圍稱為「臨界值」（margin）。新、舊藥的藥效差異若臨界值之內，視為「相當」，若超出預設的合理範圍，就視為新藥比較差。選擇臨界值是十分重要的艱鉅工作。臨界值的大小必須考量臨床意義，亦即新舊藥的差異在什麼範圍內，臨床上沒有實質意義的差別；此外，新舊藥物藥效的差異臨界值，必須小於舊藥與安慰劑的差異才合理。一般可以疾病發生率或罹病風險比（hazard ratio, HR）來設定，以比較idraparinux與維他命K拮抗劑的Amadeus試驗為例(1)，就主要療效指標而言，研究者預設新藥的HR若在1.5倍以上，就視為比較差。

其他重要議題
進行不劣性試驗時，至少還有三件事值得特別提醒。第一，比起優越性試驗的設計，不劣性試驗所需的樣本數要更大。這是因為所欲偵測之新舊藥效差異臨界值，必須比一般舊藥與安慰劑組藥效差異小所致。第二，不劣性試驗需要特別留意病患對治療的遵從度(compliance)。遵從度差將導致兩藥的效益差被模糊化，容易導致錯誤地宣稱新藥與舊藥一樣好。第三，在資料分析的過程，一般認為應分別採用立意治療分析法（intention-to-treat）及符合方案分析法（per protocol），唯有兩種分析法結論一致的情況，才是比較可信的。至於為什麼用這種「高標準」來要求不劣性試驗，我們留待下回繼續討論。
　

參考文獻：

The Amadeus Investigators. Comparison of idraparinux with vitamin K antagonists for prevention of thromboembolism in patients with atrial fibrillation: a randomized, open-label, non-inferiority trial. Lancet. 2008;371:315-21.
Holmes DR, Reddy VY, Turi ZG, et al. Percutaneous closure of the left atrial appendage versus warfarin therapy for prevention of stroke in patients with atrial fibrillation: a randomized non-inferiority trial. Lancet. 2009;374:534-42.

對於此文章如有任何問題或指教，歡迎來信至學會，編輯部後續會將您的意見刊載在下一期會訊!

會員登入

淺談不劣性試驗 (Non-Inferiority Trials)

作者：呂瑾立 (奇美醫學中心醫學研究部統計諮詢專員)

社團法人台灣腦中風學會

作者：呂瑾立　(奇美醫學中心醫學研究部統計諮詢專員)