許多新藥推出的著眼點,是為了改進傳統療法不盡完善之處。舉例來說,心房顫動的患者容易罹患中風與栓塞性疾病,臨床上常以warfarin之類的維他命K拮抗劑來預防。但是這類藥物需要定期監測凝血功能,據以調整使用劑量,使用上有些不便。因此,不少藥廠努力研發不需定期監測、調整劑量的抗凝血藥物,或新的治療方式,前仆後繼地投入臨床實驗,希望新藥或新療法可以取代warfarin。這些試驗設計的共同邏輯是,新藥或新療法在預防中風與栓塞性疾病的藥效至少跟warfarin一樣好,但是出血事件較少,或是相關費用更經濟。最近發表在Lancet上,有關idraparinux(1)以及WATCHMAN device(2)的臨床試驗,便是具體的例子。這一類型的臨床試驗,我們稱為「不劣性試驗」(non-inferiority trials)。
不劣性試驗與一般常見的「優越性試驗」(superiority trials)性質不同,後者是為了證實新藥比對照組用藥(舊藥或安慰劑)有效,前者則是希望證實新藥的療效至少不輸舊藥,讓臨床用藥多一種選擇。其次,「相等性試驗」(equivalence trials)常被拿來與不劣性試驗一起討論。顧名思義,相等性試驗是驗證新、舊藥「半斤八兩」,藥效旗鼓相當。(有些讀者可能已經發現,不劣性試驗單尾檢定有關,而相等性試驗是雙尾檢定。)
不同類型的試驗其推論邏輯不同,假說的設定方式便有差異,樣本數的要求與資料分析的方法也不一樣。茲簡單介紹不劣性試驗的相關概念如後。
不同的檢定邏輯
一般我們熟悉的優越性試驗,是為了凸顯「新藥優於舊藥(或安慰劑)」,因此通常把「新、舊藥無差異」或「新藥藥效小於或等於舊藥」當作虛無假說(null hypothesis, H0)。前者是雙尾檢定,後者為單尾檢定。不劣性試驗的情況剛好相反,試驗者希望看到「新藥不比舊藥差」,因此將「新藥療效比舊藥差」設為虛無假說來進行挑戰。在這個假說成立的前提之下,倘若研究樣本出現的可能性極低(亦即,P值很小),那麼表示「如果母群體的真相真如虛無假說,那這個研究樣本實在太稀奇、罕見了」。於是,在這種情況下便得以推翻虛無假說,宣稱「新藥藥效至少跟舊藥一樣好」。
為什麼需要不劣性試驗?
一個常見的疑問是:為什麼不能以優越性試驗為架構,當研究結果無法推翻虛無假說(「新、舊藥無差異」)時,便逕行認為新藥與舊藥療效相當,為什麼還需要不劣性試驗這種研究設計呢?一個重要的觀念是:「無法推翻」虛無假說,並不代表「證實」了虛無假說。有句像似繞口令的英文句子大略點出了這個意涵:Absence of evidence is not evidence of absence。
無法推翻虛無假說的原因很多。以優越性試驗而言,有可能是新藥的確比舊藥好,只是沒有好到一個足夠以目前的研究樣本偵測出差異的程度,原因來自研究樣本資料的樣本數或統計檢定力(power)不足所致。樣本數不夠,或資料變異程度超過預期,都會造成統計檢力不足。這就好像一個檢定包山包海、打迷糊仗,差異為-10%或0或20%,都有可能包含在信賴區間中;縱使藥效已經達到臨床上值得重視的差異,誤差卻大到不能鑑別出來。所以,不能據此結論兩種藥物療效相當或新藥的藥效比舊藥差。
差多少才算有差?
前文提到不劣性試驗之虛無假說是「新藥療效比舊藥差」,那麼要差多少才算比較差呢?我們需要預先設定合理的差異範圍,這個範圍稱為「臨界值」(margin)。新、舊藥的藥效差異若臨界值之內,視為「相當」,若超出預設的合理範圍,就視為新藥比較差。選擇臨界值是十分重要的艱鉅工作。臨界值的大小必須考量臨床意義,亦即新舊藥的差異在什麼範圍內,臨床上沒有實質意義的差別;此外,新舊藥物藥效的差異臨界值,必須小於舊藥與安慰劑的差異才合理。一般可以疾病發生率或罹病風險比(hazard ratio, HR)來設定,以比較idraparinux與維他命K拮抗劑的Amadeus試驗為例(1),就主要療效指標而言,研究者預設新藥的HR若在1.5倍以上,就視為比較差。
其他重要議題
進行不劣性試驗時,至少還有三件事值得特別提醒。第一,比起優越性試驗的設計,不劣性試驗所需的樣本數要更大。這是因為所欲偵測之新舊藥效差異臨界值,必須比一般舊藥與安慰劑組藥效差異小所致。第二,不劣性試驗需要特別留意病患對治療的遵從度(compliance)。遵從度差將導致兩藥的效益差被模糊化,容易導致錯誤地宣稱新藥與舊藥一樣好。第三,在資料分析的過程,一般認為應分別採用立意治療分析法(intention-to-treat)及符合方案分析法(per protocol),唯有兩種分析法結論一致的情況,才是比較可信的。至於為什麼用這種「高標準」來要求不劣性試驗,我們留待下回繼續討論。
|