新聞 Company News

藥物臨床試驗亞組分析、富集策略與設計和多重性問題指導原則概述

發布時間:2020-09-14 16:23:36 | 來源:南昌弘益藥業研發團隊 2020年9月14日
分享至:0

在藥物臨床試驗中將目標適應癥人群稱為總體人群,將通過入排標準納入臨床試驗的人群稱為全人群。

藥物臨床試驗招募的大量受試者在很多方面具有不同的特征,包括與疾病相關的方面(如腫瘤的轉移與否及分期、分型等)以及與疾病不直接相關的方面(如年齡、性別、種族等),往往具有不同程度的異質性,從而可能導致試驗藥物在不同患者中的療效不同。臨床試驗中將具有臨床意義的不同特征的患者分組,是探索不同患者人群之間療效差異的直觀方法,同時也是獲益/風險評估不可或缺的一部分。

在總體人群中具有某些特征的人群稱為亞組人群(簡稱亞群),亞群是總體人群中的一個子集。亞組分析是指對試驗藥物在亞組中的療效和/安全性進行試驗設計與統計分析的過程,亞組是亞群的一個樣本,將亞組結果推廣到亞群時需要考慮亞組對亞群的代表性問題。亞組分析的結果提示不同亞組人群可能的獲益與風險,因此直接影響決策和產品使用說明書的撰寫。

在藥物臨床試驗中,我們期望試驗藥物在所有類型患者中觀察到一致的治療效果,但療效往往會隨著患者的特點而變化,由于患者不同程度的異質性,而導致藥物療效產生差異,此時我們就需要亞組分析來明確研究結論,即在藥物臨床試驗中,除了將所有納入的受試者作為一個全人群進行統計學分析外,同時對其中具有某些共同特征的部分人群進行亞組分析,其目的在于排除患者異質性對藥物臨床試驗結果判斷的干擾,準確評估藥物在全人群和亞組的療效及獲益/風險,為藥物研發決策提供重要的關鍵證據。因此,亞組和亞組分析在藥物臨床試驗得到越來越廣泛的應用。近年來,藥物臨床試驗越來越多地運用基因組學、蛋白質組學、轉錄組學和生物標記物等方法,探索研究能從試驗藥物中獲得最佳效益風險比的亞組人群。

但是不正確地運用亞組分析可能會導致錯誤的結論,如為開展亞組分析而實施的富集策略與設計運用不當、多重性調整方法錯誤、亞組的識別和定義不準確、亞組的設置和選擇不正確、亞組的樣本量較少而使檢驗效能不足等都可能使亞組分析結果產生偏倚,導致I類錯誤。由此可見,亞組分析除了涉及亞組的識別及選擇等相關問題外,還涉及富集策略的選擇與設計以及多重性等諸多問題。因此,ICH、FDA、EMA等相繼發布了關于亞組分析及相關技術的指南,我國藥審中心于2020年8月28日發布了《藥物臨床試驗亞組分析指導原則》《藥物臨床試驗富集策略與設計指導原則》《臨床試驗多重性問題指導原則》(征求意見稿),對于規范和正確開展亞組分析、富集策略與設計和解決臨床試驗中的多重性問題提供了權威性指導意見。

為了準確理解亞組分析及與之相關的技術指導原則,并在藥物臨床試驗中正確開展亞組分析、富集策略的選擇與設計以及解決臨床試驗中的多重性問題,對國內外相關技術指南及臨床試驗實踐經驗進行了匯編整理,供藥物臨床試驗方案設計和實施參考。

一、藥物臨床試驗亞組分析

亞組的識別

亞組的識別一般基于早期臨床試驗或確證性臨床試驗的探索性分析,可以使用定量的方法,如交互樹和遞歸分割樹等方法;也可以根據文獻報道或者醫療實踐積累的知識進行識別。

亞組識別主要關注不同亞組間療效的差異及其臨床意義,應重點考慮以下幾個主要方面的因素:

1、臨床上的可解釋性;

2、臨床上的可操作性;

3、藥物的作用機理;

4、定義亞組的變量個數和類型(如連續變量、分類變量);

5、誤分或漏分亞組兩種情況帶來的風險;

6、亞組識別模型的選擇(不宜過于復雜,以避免過擬合)。

亞組的定義

亞組通常由患者的一個或多個內在和/或外在因素來定義,而且應具有一定的臨床意義。這些變量通常是基線變量,包括人口學特征、實驗室檢查指標、相關標志物、疾病的嚴重程度或分型、臨床狀況、地區和環境因素等。一般情況下,亞組通常是根據試驗藥物對亞組人群的有效性來定義的,但必須考慮有效性和安全性亞組分析的差異。

實際應用中,亞組大多由一到兩個變量來定義,使用多于兩個變量定義亞組比較少見。在抗腫瘤藥物把患者按照ECOG分數和基因突變(或基因表達)水平,分成不同的亞組。抗腫瘤藥物臨床試驗中常用的ECOG評分反應了患者自我保健、日常活動和體能狀況等綜合能力。

亞組分析的類型

根據研究目的,亞組分析分為探索性亞組分析、支持性亞組分析和確證性亞組分析。

對于探索性亞組分析,亞組既可以在設計階段事先定義,也可以在分析階段事后定義。

對于支持性亞組分析,亞組一般應在臨床試驗的設計階段事先定義,并在試驗方案中詳細描述。

對于確證性亞組分析,亞組必須在臨床試驗的設計階段事先定義,并在試驗方案中詳細描述。

1、探索性亞組分析

探索性亞組分析主要用于早期臨床試驗或在確證性臨床試驗的探索性分析中,其目的是發現藥物在不同亞組間療效或安全性方面的差異,進而提出研究假設,以待在后續的臨床試驗中進行進一步探索和驗證。因此,探索性亞組分析主要關注的是其結果在生物學上的合理性或臨床上的可解釋性,一般無須進行多重性調整。

2、支持性亞組分析

在確證性臨床試驗中,除了對全人群的主要終點進行分析外,還要對各亞組的療效進行分析,目的是進一步考察試驗藥物在各個亞組中療效的一致性。如果試驗藥物在各亞組間的療效差異在可接受范圍,可認為試驗藥物在亞組間的療效一致,并為用于全人群提供進一步支持性證據。如果各亞組間的療效差異超出了可接受的范圍,特別是方向相反時,則亞組分析結果的解釋可能會出現困難,需要對其做進一步的分析和研究。

3、確證性亞組分析

確證性臨床試驗中,按照預先規定的亞組和多重性調整方法, 考察試驗藥物在目標亞組和/或全人群中的療效,其結果應同時具有臨床意義和統計學意義,以支持藥物說明書的撰寫。

確證性臨床試驗也可以對目標亞組進行確證性亞組分析,而對其它(非目標)亞組進行支持性或探索性亞組分析,以支持試驗藥物在各亞組人群或全人群中的有效性和安全性的結論,或者為為進一步的亞組研究提供線索。

亞組分析的一般考慮

亞組分析一般應考慮以下幾個主要方面的因素:

1、目標人群生物學上的合理性及臨床意義

(1)病理生理學和遺傳學的差異;

(2)最佳治療時機與合并癥;

(3)有效性和安全性亞組分析的差異。

2、目標人群的異質性

亞組分析的主要目的是為了更好地了解試驗藥物在各亞組人和全人群中的療效,而是否需要和如何設計亞組分析關鍵在于臨床試驗中目標人群的異質性,這與研究方案中制定的患者入排標準有關。通常,入排標準的限制條件越嚴格,招募的患者異質性就越小,亞組間療效的差異也就相對較小;反之,寬松的入排標準可能導致入組患者的異質性增加,亞組間的療效差異也會增加,不易顯示試驗藥物在全人群中的療效,此時進行亞組分析就顯得非常必要。

3、亞組分析的可信度

亞組分析結果的可信度評估主要包括以下幾年方面:

(1)定義亞組的變量具有生物學上的合理性,即對患者預后或治療應答的預測有科學依據; 

(2)亞組分析結果的可重現性,即在相同或相似條件下的其他臨床研究中,具有相同或相似的亞組效應;

(3)先驗知識的可靠性,即源于外部數據和文獻報告的亞組分析結果具有一定的科學依據。

研究設計階段,有時基于先驗知識指定用析的變量。這種預先指定亞組變量的方法,通常用在確證性和支持性亞組分析中,蘊含了亞組之間療效有差異的推測,因此得到的亞組分析結果具有一定的可信度。然而,即使亞組變量不是被預先指定,也要予以重視,尤其是對在安全性亞組分析中出現的亞組之間的差異,要特別關注其生物學上的合理性和結果的可重現性。

當亞組的樣本量不足、無法準確估計藥物在亞組中的療效時,應主要考察其生物學上的合理性和結果的可重現性。當亞組療效在試驗條件(如研究設計、目標人群、亞組定義、治療方案、結局測量等)相似的一系列臨床試驗中一致時,即使沒有明確的臨床和生物學方面的解釋,亞組結果也具有一定的可信度。

另外,雖然隨機化可以使不同治療組間入組患者的基線變量分布趨于平衡,但由于亞組內樣本量的減少,可能會存在基線不均衡,因此必須檢查藥物在各亞組間療效差異是否是由于基線分布不均衡所致。

4、主要終點指標與亞組分析

當臨床試驗的主要終點為復合終點時,有些情況下藥物的療效可能只反映在構成復合終點的某一或某些組成終點上,而其余的組成終點則受到試驗藥物以外其他因素的影響,此時,不宜用復合終點進行亞組分析。

當使用多個主要終點指標時,整體治療效果通常是對其綜合分析的結果,如果這些指標具有不同的風險因素,需要考慮這些因素在各亞組的分布,并闡述如何進行亞組分析及其結果的臨床意義。

確證性亞組分析

確證性亞組分析是在確證性臨床試驗中對事先指定的目標亞組進行假設檢驗的分析,目標亞組可以作為主要或共同主要分析人群。亞組分析的結果提示不同亞組人群可能的獲益與風險,因此直接影響決策和產品使用說明書的撰寫。

確證性亞組分析的臨床試驗需要考慮的關鍵問題主要有亞組的選擇、試驗設計類型(如固定樣本設計、適應性設計、富集設計)、多重性、亞組分析的解釋。需要注意的是,把亞組作為主要或共同主要分析人組的樣本量以及是否使用分層隨機等關鍵問題。

1、亞組的選擇

確證性亞組分析應在方案中預先規定目標亞組。關于亞組的選擇,如果是基于醫療知識或實踐,例如按照疾病嚴重程度、人口學特征(性別、年齡等)或已知的能夠精確分辨亞組的生物標志物(如基因突變)進行分類,通常具有一定的臨床意義。另一方面,亞組的定義是否合理取決于亞組分類器(如標志物)是否能夠可靠地識別最有可能從藥物中獲益的亞組人群。分類器的確定通常基于早期臨床研究數據,由于樣本量往往不足,因此分類器的性能有限,在研究設計時要考慮到這一問題。

2、試驗設計

在進行確證性亞組分析的樣本量估計時,除了常用的試驗設計參數如期望治療效應大小及其變異度、I類和II類錯誤概率之外,還必須考慮亞組分類器分辨亞組的準確度,以及亞組人群在符合入組條件的目標人群中所占的比例。

(1)固定樣本量設計

如果有可靠的證據表明試驗藥物在不同亞組中的療效不同,且其具有生物學上的合理性和重要的臨床意義,可采用固定樣本量設計,驗證藥物的療效。此時,臨床試驗的目標人群可以是亞組人群和/或總體人群。以標記物為例,此時的確證性臨床試驗至少有三種設計方案:

①如果只有標志物陽性的患者才能從試驗藥物中獲益,則入組患者可以僅限于這個亞組。

②如果標志物陽性和陰性患者都能從試驗藥物中獲益,但陽性患者獲益高于陰性患者,而試驗的主要目的是驗證試驗藥物在陽性患者中的獲益,則樣本量和試驗藥物療效的估計可以主要針對標志物陽性的亞組,但建議標志物陰性的亞組也納入試驗,以便更好地了解試驗藥物在該人群中的療效,用于獲益/風險評估或后續研究設計。

③如果標志物陽性和陰性的患者都能從試驗藥物中獲益,但不能確定哪個亞組人群的獲益更大,而試驗的主要目的是驗證藥物在總體人群中招募,也可以在兩個亞組人群中進行分層隨機。如果是后者,則需要注意各亞組樣本量的比例應與目標人群中各亞組人群患者的比例相似,以避免由于過多納入療效較好的亞組人群中而夸大了藥物在總體人群中的療效。

(2)適應性和富集設計

如果沒有充分的證據表明不同亞群間的療效差異具有臨床意義時,可以采用適應性設計的方法進行亞組的選擇。例如,當不清楚試驗藥物在標志物陽性和陰性患者中的療效時,可以考慮兩階段適應性設計階段適應性設計(即適應性亞組選擇和富集)。第一階段試驗的數據可用于估計藥物在亞組中的療效,然后據此調整第二階段入組人群及其樣本量。對于適應性設計中的亞組選擇,應重點考慮試驗設計和統計分析方法的有效性(如是否控制了I類錯誤)。

3、多重性

多重性是確證性亞組分析中需要重點關注的問題之一。對于將亞組作為共同主要分析的臨床試驗,由于要對全人群和亞組的療效進行多次檢驗,因此如果不進行多重性調整,會增加總I類錯誤。為了將總I類錯誤控制在預設的水平,有多種多重性調整法,如Bonferroni單步檢驗法、逐步多重檢驗法重性調整方法,如Bonferroni單步檢驗法、逐步多重檢驗法和回退法等,多重性調整的方法應在臨床試驗方案和統計分析計劃中事先指定。

(1)Bonferroni單步檢驗法或回退法

不同的多重性調整方法各有其優缺點。如果一個亞組和全人群作為共同主要分析人群,則可以用Bonferroni法將α分配給這兩個主要分析人群,即以α1水平檢驗亞組,以α水平檢驗全人群,并且α1+α2=α。這里也可以使用回退法。

(2)逐步多重檢驗法

在沒有足夠的證據表明藥物在全人群和亞組的療效差異時,可以考慮使用逐步多重檢驗法(Hochberg、Homnel和Simes法),即對多個假設按照一定的順序進行檢驗。

(3)固定順序檢驗法

如果沒有足夠的證據表明亞組的療效優于全人群的療效時,可以考慮使用固定順序檢驗法,即先檢驗亞組療效,如果有統計學意義,再檢驗全人群的療效,否則停止檢驗。

值得注意的是,由于亞組屬于全人群的一部分,使用統計量的聯合分布來確定檢驗界值,可以提高檢驗效能,但由于數據有限,估計量的相關系數往往不可靠,并可能增加I類錯誤。因此,使用基于統計量的聯合分布來確定檢驗界值的多重性調整方法需要特別謹慎。

4、結果的解釋

亞組分析結果的解釋必須具有臨床意義,以支持藥物的上市和說明書的撰寫。例如,在一項臨床試驗中預先以某一目標亞組

和全人群共同作為主要的分析人群,經過多重性調整后的統計分析可以得出下述三個結論之一:與對照組相比,試驗藥物在全人群中的療效差異有統計學意義而目標亞組的療效無統計學意義;目標亞組的療效有統計學意義而全人群學的療效無統計學意義;全人群和目標亞組的療效都有統計學意義。需要注意的是,如果全人群和目標亞組的療效都有統計學意義的結論是由于藥物在目標亞組中的療效較大所致,其余亞組很少甚至不獲益,此時,將其使用限定于該目標亞組可能更加合適。

支持性亞組分析

一般情況下,確證性臨床試驗的目的是驗證藥物在全人群中的有效性以及各主要亞組之間療效的一致性,后組通過支持性分析來實現。常用的支持性亞組分析方法主要有描述性分析(如療效的點估計)和區間估計、圖形顯示模型法(如在主要分析模型中加入藥物與定義目標亞組變量之間的交互作用)。使用何種方法應在臨床試驗方案及統計分析計劃書中充分考慮和說明。

和說明。

需要指出的是,當各亞組的樣本量較少或亞組間樣本量分布不均衡時,藥物與亞組變量交互作用的檢驗效能往往不足。為此,可以考慮選取寬松的檢驗水準(例如α=0.10)進行檢驗,同時要考慮各亞組間療效差異的臨床意義。如果交互作用顯著,則提示試驗藥物在各亞組間的療效可能不同。

在確證性臨床試驗中,如果試驗藥物的療效在全人群中有統計學意義,通常需要報告亞組分析的結果,包括各亞組療效的點估計及其置信區間。需要注意的是,如果對全人群療效和各亞組的療效同時進行分析,則各亞組療效與全人群療效的方向應當一致,否則需要進一步分析其不一致的原因。

如果各亞組間的療效差異具有臨床意義,應考慮按照以下幾個步驟探索其可能的原因:

1、定義亞組的變量是否與相應的預后或預測因素有關。這些因素通常從早期臨床試驗、文獻報告或醫療實踐中獲知,可以是內在因素(如遇藥物代謝酶相關的基因多態性等遺傳因素)、外在因素(如疾病的嚴重程度、吸煙狀況等)或治療(如不同劑量的合并用藥)等。

2、如果定義亞組的變量與相應的預后或預測因素有關,則應進一步進行分析。如首先分析預后因素是否具有預測作用,如果有

預測作用說明該因素會影響患者對藥物的應答或療效;然后,分析預后因素在各亞組的試驗組和對照組中的分布是否均衡,如果不均衡則其可能是亞組間療效差異的原因。

3、如果通過上述分析,亞組間療效的差異仍無法解釋,則需進一步的探索性分析以識別造成此差異的其他可能因素,對試驗結果給出合理的解釋。

其他考慮

1、非劣效試驗中的亞組分析

亞組分析在只有陽性對照的雙臂非劣效臨床試驗中要十分謹慎。當在各亞組間對試驗藥物療效進行非劣效評價時,其結果依賴于陽性對照藥相對于安慰劑的療效在各亞組中的一致性。若陽性對照藥相對于安慰劑的效應與亞組變量有關時,則非劣效界值的選擇應考慮這些特征變量在研究人群中的分布。由于非劣效界值的確定通常使用歷史數據,因此,如果亞組變量在試驗人群中的分布與歷史數據不同,則會影響非劣效檢驗結論的正確性。需要強調的是,非劣效界值的確定應當基于陽性對照藥的療效(相對于安慰劑)盡可能多的歷史數據的meta分析結果,而不是基于主觀選擇部分試驗數據或者部分亞組人群數據的分析結果。

2、安全性亞組分析

安全性亞組分析主要用于研究與藥物安全性相關的風險因素,即探究具有一定特征的亞組人群可能對藥物產生的不良反應。

獲益/風險評估是亞組安全性分析不可或缺的一部分。安全性亞組分析與有效性亞組分析略有不同。安全性亞組分析雖然可以由預后因素(如年齡、是否有并發癥等)或預測因素(如疾病分期、基因分型等)定義亞組,但前者更為常見。

亞組人群的安全性分析具有一定的挑戰性,特別是對低發生或者潛伏期較長的安全性事件,由于樣本量較小或隨訪時間較短,較難在試驗期間發現和驗證。如果現有數據表明試驗藥物在特定亞組人群中與某一嚴重不良事件(SAE)有潛在的關聯,則可以考慮有針對性地設計一個大型的具有足夠檢驗效能的臨床試驗,驗證試驗藥物在該亞組人群中是否會引起嚴重的不良反應。

3、與監管機構的溝通

當臨床試驗設計包含確證性亞組分析時,應就臨床試驗設計中的關鍵問題與監管機構進行溝通。溝通的內容包試驗設計的類型、亞組的選擇、I類錯誤控制、一致性和可信性等方面的評價策略。

亞組分析的意義

隨著高質量的臨床試驗越來越多,亞組分析正在成為臨床試驗數據分析中的標配,大家也越來越青睞亞組分析,主要原因是:

1、如果試驗藥物在全人群有療效,通過亞組分析可以知道試驗藥物在哪些特定患者中療效會更好。

2、如果在全人群中沒有觀察到試驗藥物的預期療效,通過亞組分析可以探索試驗藥物是否在某些特定患者中有效,為下一步研究提供線索。

亞組分析在藥物臨床試驗中的運用

ICH E3指出:“進行亞組分析不是試圖去挽救一個非支持性的臨床研究結果,而是為進一步研究提出值得檢驗的假說,或幫助完善藥品說明書的信息(如患者人群、用藥劑量的選擇等)”。

評估不同亞組人群間治療效應的一致性是藥品監管當局通常關心的一個問題。可能導致療效異質性的因素包括性別、年齡、種族、地區、基線情況、肝臟/腎臟損害、吸收或代謝差異、治療史和合并用藥等。如果某因素導致了藥物療效異質性,那么就必須運用亞組分析方法對該因素(或其不同層次)人群的藥物療效或安全性特征進行闡述,以獲得藥物的全面信息。

正確運用亞組分析有時可以通過縮小應用人群而幫助改變一個受試藥物被徹底淘汰的命運。

亞組分析在藥物臨床試驗中運用的意義主要體現在以下幾個方面:

1、評估試驗內部一致性。

2、有助于發現藥物研發新線索。

3、有助于發現具有最佳效益風險比的用藥患者人群。

4、有助于更加全面、深入地認識疾病和藥物的效應機制。

5、幫助完善藥品使用說明書的信息(如患者人群、用藥劑量的選擇等)。

在藥物臨床試驗中進行亞組分析需要關注的主要問題

亞組分析不是萬能的,其結果更重要的是為研究結論提供支持性補充證據,或者為進一步開展研究提供線索。

事后進行的亞組分析由于可能破壞預先設定的隨機分組,從而引入偏倚使結論不夠穩健甚至錯誤,其分析結果并不能作為確證性結論用以判斷療效,而只能作為探索性分析為進一步研究提供線索,并需要確證性研究進行確認。

亞組分析常見的錯誤分析方法是分別檢驗各個亞組的差異是否有統計學意義,推斷治療措施是否有效,而這樣會導致假陽性率增高。正確的做法是采用交互分析,來判斷各亞組組間差異是否有統計學意義,并用森林圖表示結果。

當亞組分析結果與主要研究結論沖突時,正確做法是結合生物學和臨床專業知識進行解讀,切忌“統計分析至上”。

1、確證性亞組分析必須在臨床試驗方案和統計分析計劃中事先確定

亞組分析方法在臨床試驗中的常見運用有兩種,一是在基于全體受試人群分析得到陽性結果后運用亞組分析考察試驗內部一致性或探索發現最佳效益風險比人群;二是得到陰性結論后運用亞組分析以期得到部分人群的陽性應用結果。如果事先未在臨床試驗方案和統計分析計劃中有所設計,而是事后進行亞組分析可能會導致藥品管理當局和申請者得出不同結論,事后進行的亞組分析由于可能破壞預定的隨機化而引入偏倚從而使所得出的結論不夠穩健甚至錯誤,其分析結果并不能作為確證性結論用以支持申請藥物注冊上市,而只能作為探索性結果為進一步研發提供線索,并需要針對性的確證性研究進行確認。

2、主要結局陽性時應當考慮的問題

(1)僅有統計學意義,而無臨床意義或臨床意義不顯著的主要結局陽性是否是支持藥物申請上市的強有力證據。

(2)試驗藥物的獲益程度。

(3)主要結局在臨床上是否重要,各亞組之間是否具有一致性。

(4)次要結局是否支持研究結論。

(5)研究結論是否在重要的亞組之間保持一致。

(6)臨床試驗的樣本量是否足夠大。

(7)試驗是否提前終止。

(8)試驗藥物的安全性問題是否抵消了治療獲益。

(9)治療效果和安全性之間的平衡是否存在患者特異性。

(10)研究設計和執行是否有缺陷。

(11)亞組主要結局陽性結果是否能推廣到亞群。

3、不同亞組分析結果的解讀

(1)全人群結果陽性時不同亞組分析結果的解讀

全人群結果陽性,亞組分析結果陽性或陰性時,亞組分析的意義在于驗證臨床試驗結果內部一致性或探索最佳獲益人群。

(2)全人群結果陰性時不同亞組分析結果的解讀

①全人群結果陰性,亞組分析結果為陽性時,亞組分析的意義在于為下一步研究提供假設,從而有可能證實試驗藥物在特定亞組人群中的療效。

②全人群結果陰性,亞組分析結果為陰性時,亞組分析的意義在于判斷試驗結果為陰性,試驗藥物不具有開發價值。

4、亞組分析報告應關注的主要問題

藥物臨床試驗的亞組分析報告應主要關注臨床試驗設計和統計分析計劃和亞組分析結果解釋等方面的問題。

(1)亞組選擇是否基于患者隨機分組前的特征。

(2)患者的錯誤分類對亞組分析的影響。

(3)亞組分析是否使用意向性分析(ITT)。

(4)亞組是預先設定還是事后分析。

(5)亞組分析是否基于已有的臨床試驗或生物學數據。

(6)是否對亞組分析的預期結果進行了假設。

(7)試驗設計是否保證了足夠的檢驗效能來進行亞組分析。

(8)是否說明了亞組分析的樣本量。

(9)相關匯總數據是否列表說明,例如事件發生人數/總人數等。

(10)事先計劃的亞組分析和事后分析是否明確地進行了區分說明。

(11)統計學檢驗是否合適。

(12)異質性檢驗(如交互檢驗)是否有統計學意義。

(13)多重比較是否選擇合理的檢驗水準進行校正。

(14)是否對主要結局有恰當的說明。

(15)是否能夠用生物學知識或相似研究解釋結果。

必須正確解釋亞組分析結果:對于隨機對照臨床試驗結果的解釋,應當重點關注全人群的治療效應,而不是亞組分析結果和亞組效應;應充分認識到事先定義的與事后開展的亞組分析之間的差異;不應過分解釋亞組分析結果,除非有強有力的支持性證據證明,或者事先有相應的假設假定。尤其當證據表明試驗藥物只在一個亞組人群顯示療效時,對亞組分析結果的解釋更應當慎重。

5、其他問題

因為涉及到假設檢驗的多重性問題,在進行確證性亞組分析時,必須充分控制試驗假陽性率,可以采用Bonferroni方法調整α。

ICH E9中指出:當以協變量因素“調整后的結果數值可疑時,建議將未校正的分析結果作為主要依據,而將校正后的分析結果作為支持性依據”;“多數情況下,亞組分析和交互作用分析都是探索性的,它們都是用以探索發現總體療效在不同情況下的一致性”。

另外,基于全人群得到的結論可靠性要遠大于只基于部分人群分析的結論可靠性。亞組分析將不可避免地帶來一定的試驗偏差。

一般而言,如果在分析確證性臨床試驗結果時進行亞組分析,并期望將其結果作為上市注冊的直接證據時,須考慮滿足以下前提條件:

(1)事先明確定義和設計亞組;

(2)對亞組的檢驗效能有所考慮;

(3)根據亞組分層進行隨機化;

(4)α進行恰當的調整;

(5)對該亞組確定恰當的統計分析計劃(SAP)。

二、藥物臨床試驗富集策略與設計

臨床試驗的目的是在入組的受試者中驗證試驗藥物有效性和安全性。但實際上,由于受試者病理生理學特點和藥物作用機理的復雜性,不同受試者的藥物治療效果不盡相同,從而影響臨床試驗的效率。為了入組能夠從試驗藥物中獲益最大化的受試者,以提高臨床試驗的效率,富集策略的概念應運而生。

富集是指在臨床試驗中根據受試者的某些特征(如人口學、病理生理學、組織學、基因組和蛋白質組學等)前瞻性地精準定義從試驗藥物中獲益最大化的目標人群。在臨床試驗有多種選擇受試者的富集策略,例如,可以選擇因具有一定特征而對研究藥物最有可能應答的受試者,也可以選擇那些對現有藥沒治療效果不明顯而可能對試驗藥物敏感的受試者,或者單純選擇更容易出現終點事件的受試者等。

富集策略主要是指隨機對照試驗中用于選擇最有可能獲益的受試者的方法,但也可以擴展到使用外部(歷史或平行)對照的單臂試驗。

廣義來講,所有臨床試驗設計都在運用富集的概念,這主要反映在受試者的入選和排除標準上,其目的是盡可能入選對試驗藥物有應答的受試者,從而提高臨床試驗的效率。實際上,根據疾病領域、藥物作用機理以及受試者的應答情況等,可選擇不同的富集策略和設計,其適用性主要從科學上的有效性、試驗結果的可解釋性和醫療實踐中的可推廣性等方面考慮。

常用的富集策略與設計的原理與方法各不相同,且各自具有優缺點。因此,采用富集策略與設計必須從實際應用和監管角度考慮相關的關鍵問題。

常用的富集策略與設計

根據臨床試驗關注的主要問題和實施過程,可以選擇不同的富集策略,主要包括同質化富集、預后型富集、預測型富集、復合型(預后型和預測型相結合的)富集和適應性富集五種策略類型。

實際應用中,通常依據與藥物作用機理相關的標志物選擇富集策略與設計。這里的“標志物”定義為與受試者預后或藥物治療應答有關的流行病學因素(如人口學)、既往病史、臨床觀測變量(如疾病嚴重程度)、實驗室檢查(如病理生理學、藥物代謝)、基因組學和蛋白質組學等各種特征變量。根據標志物的不同作用,可分為預后型、預測型和混合型標志物。另外,在有些疾病領域,可能沒有明顯的標志物,這時一般根據受試者在篩選期間對治療的應答情況,或者其他臨床試的數據以及文獻報道選擇富集的受試者。

1、同質化富集

同質化富集是指通過減少受試者間的異質性以提高臨床試驗的檢驗效能的一種研究策略。減少異質性最簡單且實用的方法就是盡量選擇病情穩定的受試者,同時對入選受試者進行精準定義,并對疾病的狀態和有關變量進行精確測量。

一般來說,為了更加準確地定義富集人群,除常規的入選和排除標準外,還要考慮以下幾個方面的主要問題:

(1)入選標準

更仔細地定義入選標準,以確保入選者間的基線特征具有較好的一致性。

(2)排除標準

①對安慰劑過于敏感的受試者;

②基線檢測結果不穩定的受試者,如在初篩期病情或癥狀不穩定的受試者;

③伴隨某種疾病可能導致過早死亡的受試者;

④服用與試驗藥具有相似治療作用的藥物的受試者;

⑤可能無法耐受試驗藥物治療的受試者;

⑥可能因并發癥提前退出研究的受試者。

(3)依從性

應盡可能入選依從性好的受試者,即選擇不會因為非醫學原因(如不便前往研究地點等)而退出的受試者,以及能夠堅持按照試驗方案進行治療的受試者,從而減少由于受試者過多退出或使用不同的治療方法而導致的差異。對患者的依從性識別和選擇必須在隨機化分組之前進行。

(4)培訓

研究人員和臨床試驗協調員應接受相關培訓,確保嚴格按照方案入選和排除受試者,并按照方案進行研究。

2、預后型富集

預后型富集是指通過對預后型標志物的識別,入選更有可能觀察到終點事件或疾病進展的高風險人群(特指更容易出現預后結局或疾病進展的人群),以增加檢驗效能的一種策略。該策略主要增加試驗的絕對效應,而非相對效應。常用的預后型富集設計主要有以下兩種:

(1)基于終點事件的富集設計

在以降低終點事件發生率為主要評價指標的研究中,一般認為有效的試驗藥物在高風險人群中能夠減少或者避免發生更多的終點事件。因此,應考慮在高風險人群中招募受試者。通常,在樣本量不變時,與低風險人群相比,高風險人群更容易發生終點事件,經治療后終點事件發生率降幅較大,因此檢驗效能更高。

這種策略經常用在抗腫瘤和治療心血管疾病的藥物研究中。例如,在基因BRCA1/2突變的女性人群中進行乳腺癌或卵巢癌預防的研究;又如在降血脂藥物的研究中,選擇血液中高含量低密度脂蛋白(LDL)、低含量高密度脂蛋白(HDL)和高含量C反應蛋白(CRP)的患者試驗。在有些疾病領域,如阿爾茨海默病藥和各種癌癥藥物研究中,也可以通過基因組或蛋白質學篩選高風險的患者。

(2)基于疾病進展的富集設計

預后型富集設計也可用于研究能夠減緩疾病進展的試驗藥物,如在對阿爾茨海默病、帕金森病、類風濕性關節炎、慢性阻塞性肺疾病和惡性腫瘤等疾病開展藥物臨床試驗時,可以選擇疾病進展可能較快的受試者。

①在類風濕性關節炎的患者中,具有以下特征的患者疾病往往進展較快:類風濕因子陽性、具有某些臨床特征(如多關節受影響、關節以外的病癥、皮下結節、活動受限)以及實驗室指標異常(如血紅蛋白降低)等。

②在慢阻肺患者中,具有近期發作史(過去一年中至少發作一次)或血漿纖維蛋白原較高的患者疾病進展較快。

③在抗腫瘤藥物研究中,常見的預后標志物包括組織學分級、血管浸潤、分子亞型以及轉移性腫瘤結節等指標。

需要注意的是,如果預后型標志物與試驗藥物之間存在交互作用,即試驗藥物對該標志物陽性和陰性患者都有效果,但療效不同,則該預后型標志物也可以起到預測的作用,此類標志物通常稱為混合型標志物。

3、預測型富集

預測型富集是指根據受試者的生理或疾病特征選擇對試驗藥物最可能有應答的受試者,以提高試驗效率的一種研究策略。例

如在靶向治療中,可根據藥物相關的靶點基因或蛋白,或生理機能(如腎素型高血壓/低血壓、慢性心力衰竭時的射血分數),選擇可能有應答的受試者。

采用這一策略既能增加試驗藥物的絕對效應,也能增加其相對效應,因此能夠以較小的樣本量獲得較高的檢驗效能。當患有某種疾病的受試者中只有一小部分對試驗藥物有應答時(如只有部分受試者具有藥物作用的受體),使用這種富集策略十分有效。在實踐中,既可以基于研究者對疾病的認識(如各種標志物)選擇受試者,也可以根據以往的試驗數據和結果。

(1)基于病理生理學特征的富集設計

疾病的病理生理學特征可以提示對試驗藥物有更好應答的受試者。基于病理生理學的富集指標可以是生物標志物(如影響腫瘤生長的基因突變、基因/蛋白表達水平)、影像學特征,以及與疾病表型相關的一些人口學(如年齡、種族等)或臨床特征(如疾病分期、分型等)。根據富集標志物的性質,可將其分類:

①基因或蛋白標志物

治療腫瘤的藥物通常針對腫瘤細胞表面或細胞內相關的受體、酶、激素或其他內源活性物質,對此可根據一個或多個相應的基因或蛋白標志物選擇富集人群,并可用該標志物定義病理生理狀態、選擇最有可能獲益的受試者。

當在富集設計中使用基因或蛋白標志物時,標志物檢測的準確度和精確性至關重要。如果診斷檢測不準確,不僅會果導致檢驗效能降低,而且在非劣效試驗中可能會增加I類錯誤。同時,還要盡可能地考慮標志物與療效之間的關系,從而有助于選擇合適的受試者。

②藥物代謝物

不同受試者對試驗藥物的代謝能力不同,入組能夠產生足夠

數量活性代謝物的受試者,可以提高臨床試驗的效率。在某些情況下,給予產生活性物質能力較弱的患者更高的劑量,有助于他們產生足夠的活性物質,從而更可能觀察到試驗藥物的療效。然而,對于完全不能代謝出有效活性成分的患者,也應該納入試驗或事先設定的分析計劃中,目的是對指定的代謝物進行驗證和獲益/風險分析。

③腫瘤代謝物

抗腫瘤藥物試驗可以通過檢測組織或血液中的腫瘤代謝物含量選擇受試者。例如,只入選那些代謝反應較強的受試者,或者在腫瘤患者中按代謝反應程度進行分組,并對代謝反應較強的受試者進行主要分析。

(2)基于對試驗藥物應答證據的富集設計

此類富集設計根據受試者在篩選期內對試驗藥物(或既往對似藥物)的應答情況,選擇可能合適的受試者。

①篩選有應答的受試者

對于在研究開始前無法根據標志物識別出可能對試驗藥物有應答的受試者的臨床試驗,需要設置合理的篩選期,將試驗藥物用于所有受試者。根據事先確定的主要終點或替代終點來篩選治療有效的受試者;然后,將篩選期內對試驗藥物有應答的受試者進行隨機分組。

采用這種先篩選、后隨機的方法可以首先入選較多的受試者,對這些受試者還可以按篩選期的應答程度進行分層,將應答程度相對較好的亞組作為主要分析人群,同時可以進一步探索應答程度相對較弱的受試者。程度相對較弱的受試者。然而,這種設計并不適用停藥后藥物作用持續時間相對較長或停藥后會對受試者造成傷害的藥物研究。

選擇有應答的受試者還可以使用隨機撤藥設計。該設計一般分為兩個階段,即第一階段測試受試者是否對試驗藥物有應答(可以使用單臂開放試驗或隨機對照試驗),第二階對試驗藥物有應答的受試者,隨機分到試驗組(繼續使用試驗藥物)或安慰劑組(將試驗藥物撤出),無應答的受試者退出試驗。判斷患者對試驗藥物是否有應答,可以根據某些替代指標如癥狀、體征、實驗室檢查和疾病復發等進行評估。

隨機撤藥設計由于篩選了對試驗藥物有應答的受試者,從而提高了臨床試驗的效率;同時,可利用已經入組的受試者研究藥物的長期療效或安全性,以及利用退出試驗的受試者研究撤藥效應。另一方面,這種設計更符合倫理學要求,即一旦治療失敗可以及時終止試驗,可用于兒童藥物研究。該設計的主要缺點是可能具有殘留效應以及研究時間相對較長。

②基于歷史數據或文獻報道確定入選受試者

根據既往研究中確定的亞組特征入選受試者,即在總體人群中很少或幾乎沒有觀察到明顯的治療效果,但通過分析特定的亞組人群可能獲得顯著療效,最后僅在亞組人群中招募受試者。

(3)基于對現有藥物無應答的富集設計

在富集設計中,除上述選擇對試驗藥物有應答的受試者外,還可以考慮選擇對現有藥物無應答的受試者,目的是更好地顯現出試驗藥物的治療效果。

無應答的富集設計適用于滿足一定條件臨床試驗,即試驗藥物與現有藥物具有不同的作用機制,或試驗藥物的療效至少略優于現有藥物。如果對受試者未加選擇,則需要較大的樣本量才能顯示出試驗藥物的療效;相反,如果只選擇對現有藥物無應答的受試者,由于對照組的應答率很低,則可能只需較小的樣本量,

就能得出試驗組優于對照組的結論。必須指出的是,對某些可能危及生命、并不斷進展的疾病來說,采用無應答的富集設計會將受試者隨機分配到無應答的對照組,可能存在倫理問題。

4、復合型富集

復合型富集指同時使用多個標志物(如預后型和預測型標志物)以減少受試者異質性的富集策略。對有些疾病領域,疾病的發生、發展和預后機制復雜、個體異質性高,使用單一標志物不大可能富集最有可能獲益的受試者,而使用復合標志物(如綜合評分)進行富集可以有效地降低受試者的異質性,從而提高試驗效率。

需要注意的是,使用復合標志物評分時應列出其構成的單個標志物并闡明它們之間的關系;如果對不同的單個標志物賦予不同的權重,應詳細說明其生物學上的原理。

5、適應性富集

適應性富集策略是指按照預先制定的計劃,根據臨床試驗期中分析結果,在保證試驗的合理性和完整性的前提下,對臨床試驗方案進行修改,如改變入組標準或僅納入一個亞組的受試者,并對樣本量進行調整等。

當試驗藥物在標志物陽性和陰性的受試者中的療效不確定時,試驗可以同時入組標志物陽性和陰性的受試者,根據期中分析結果適應性地調整需要入選的受試者。當主要終點規定為標志物陽性受試者的療效時,如果期中分析結果顯示標志物陰性受試者的療效遠低于標志物陽性受試者,則應減少或完全停止標志物陰性的受試者入組。假定標志物陽受試者的療效高于標志物陰性受試者的療效,也可以考慮首先入組標志物陽性的受試者,如果期中分析結果表明試驗藥物在該標志物陽性的受試者中有療效,則考慮入組標志物陰性的受試者;否則,終止試驗。

一般來說,如果標志物與療效的關系越不確定,越需要包含標志物陰性的受試者 此時可以評估藥物在全人群中使用時的獲益與風險。當不確定一個標志物的預測性時,主要終點可以是全人群中的療效;如果標志物陽性人群和全人群的療效同時作為主要分析時,需要按照一定的規則將檢驗水準α進行分配。無論何種情況,都應事先在方案中明確規定檢驗假設,并需要對I類錯誤進行控制。

富集策略與設計的相關考慮

1、標志物檢測的靈敏度和特異度

當采用篩檢試驗選擇受試者時,必須考慮檢測方法的可靠性,以便能更準確地選擇高風險或者對試驗藥物有應答的受試者。理想情況下,用于篩選受試者的檢測方法應該對選擇高風險或對試驗藥物有應答的受試者有較高的靈敏度,同時對鑒別低風險或對試驗藥物無應答的受試者有較高的特異度。

當利用生物標志物篩選入組受試者時,如果不能準確給出預測標志物的閾值,可以通過受試者診斷特征(ROC)分析,即對標志物不同閾值點的靈敏度和特異度進行分析,并用ROC曲線下面積衡量其篩檢效果。關于預測標志物閾值的確定,一般可以先在早期研究階段給出一個初步的閾值,然后通過較大樣本的試驗對其進行調整,獲得更可靠的閾值。

2、是否納入標志物陽性和陰性的受試者

富集設計既可以只納入標志物陽性的受試者,也可以同時納入陽性和陰性的受試者。然而,富集設計的關鍵問題是納入標志物陰性受試者的比例。一般來說可以考慮如下的富集設計:

(1)只納入生物標志物陽性的受試者

如果作用機制或已有數據表明,試驗藥物在標志物陽性的受試者中有明顯的療效,而在標志物陰性的受試者中療效較小或完全沒有療效,尤其在試驗藥物有較大毒性的情況下,不應納入標志物陰性的受試者。

(2)同時納入生物標志物陽性和陰性的受試者

如果作用機制或已有數據表明,標志物陽性的受試者的療效較陰性受試者的療效更好,則在試驗藥物毒性相對較小的情況下,應同時納入標志物陽性和陰性的受試者。這種策略的優點是能在非富集人群中提供合理的獲益/風險估計。

如果在試驗開始之前就能夠明確標志物,則可以通過對其分組實施分層隨機化,主要分析可限制在生物標志陽性的受試者中。實際中,也可以在全人群中進行主要分析,或者在全人群和標志物陽性受試者中同時進行主要分析,并適當地控制I類錯誤。

一般來說,如果標志物的閾值或標志物陰性的受試者應答度不確定,則有必要納入標志物陰性的受試者。

3、入選人群和分析集

使用富集策略的主要問題是研究結果的適用性和可外推性,即采用富集設計時要重點考慮這種富集策略是否能夠在醫學實踐中用于識別對研究藥物應答的人群,以及該藥在更廣泛的患者人群中是否也有類似的療效。因此,對不符合富集入選標準的患者人群進行研究同樣重要。需要注意的是,試驗確定的入選受試者和主要分析集可以不同(后者可以是前者的子集),但這些必須在研究方案中明確定義。在基因或其它檢測結果不能立即獲得而患者需要及時接受治療時,選擇以總體人群入組,以提供更多的安全性信息,但主要療效分析可以是其中的一個子集。

4、篩選富集人群對優效和非劣效試驗的不同影響

使用標志物選擇受試者時,對優效和非劣效試驗有著不同的影響。對于優效試驗,當采用富集策略時,如果篩檢方法的靈敏度不高,則需要招募更多的受試者從中進行篩選,才能獲得規定

富集樣本量;如果特異度不高,則需要增加富集樣本量或延長試驗時間才能獲得足夠的終點事件數。盡管如此,但不會增加優效試驗的I類錯誤。

然而,對于非劣效試驗,篩檢的準確度不僅會影響研究所需的樣本量或持續時間,還可能增加I類錯誤。例如,采用預后型富集策略進行非劣效試驗,如果陽性對照的篩選方法與以往研究不同,則可能導致陽性對照組的療效低于以往研究的療效,從而增加I類錯誤。另外,對于基于預測型富集策略的非劣效試驗,對I類錯誤的影響更為復雜,它取決于標志物是與試驗藥物和陽性對照藥物的治療相關,還是僅與其中一種治療相關。因此,非劣效試驗中選擇受試者的檢測方法最好與陽性對照以往研究篩檢方法一致,或者兩種篩檢方法有相似的靈敏度和特異度

5、控制I類錯誤

對于同時入選富集人群和非富集人群的富集設計,可根據篩檢方法的準確度和受試者對治療的應答情況,選擇不同的假設檢驗策略。如果有多個假設檢驗,如在標志物陽性人群和總體人群中分別進行假設檢驗,則需要考慮多重性調整的問題;如果僅有一個假設檢驗,如在標志物陽性人群中進行假設檢驗,則無需考慮這一問題。在不同假設下I類錯誤α的分配,可以根據標志物陽性人群對藥物的應答程度、陽性人群在總體人群中的比例以及按照預先設定的檢驗效能所需要的樣本量進行設置。對總體人群和富集人群進行假設檢驗時,進行假設檢驗時,可以采取獨立或者序貫策略進行假設檢驗。

實施富集策略和設計應當注意的主要問題

藥物臨床試驗實施富集策略和設計時應當注意明確界定富集人群、關注非富集人群的療效、預先確定研究方案、與監管機構溝通交流等主要問題。

1、明確界定需集人群

臨床試驗是否使用、何時使用以及使用何種富集策略,主要取決于能否準確界定富集人群,這顯然會對產品說明書的撰寫和后續的醫療實踐產生影響。如果使用富集策略和設計無法準確界定富集人群,則可能導致在說明書中無法準確地定義對治療有效的患者人群,進而無法準確指導臨床合理用藥。

2、關注非富集人群的療效

試驗藥物在富集人群中的有效性和安全性得到確證后,其在非富集人群中相應的信息也應受到重視。通過在非富集人群中開展進一步研究,可以更全面地描述藥物的獲益/風險狀況,為藥物能夠在更廣泛的患者人群中使用提供依據。

對基于高風險人群預后型富集分析獲批上市的藥物,在隨后的低風險人群中試驗,可能會使用不同的結局指標,如在高風險人群中使用病死率,而在低風險人群中可以使用一個復合結局指標,有助于提高試驗效率。

3、預先確定研究方案并與監管機構溝通

一般來說,在研究開始之前,應預先計劃并確定受試者的選擇方案。如果已知可用于富集的特征變量或標志物,可在篩選受試者時對其進行測量。而當特征變量或標志物在研究人群中富集效果或分布不確定時,可以考慮進行適應性富集,即在試驗過程中依據積累的數據,對試驗設計的要素進行調整。無論采用何種策略和設計,調整方法和過程應在研究方案中事先說明,確保其合理性和正確性,并與監管機構進行充分的溝通。

三、臨床試驗多重性問題

臨床試驗中普遍存在多重性問題,它是指在一項完整的研究中,需要經過不止一次統計推斷(多重檢驗)對研究結果做出決策的相關問題。例如,多個終點(如主要終點和關鍵次要終點)、多組間比較、多階段整體決策(如出于有效性決策為目的的期中分析)、縱向數據的多個時間點分析、亞組分析、分層分析、同一模型不同參數組合或不同數據集的分析、敏感性分析等。對于確證性臨床試驗,將總I類錯誤率α(FWER)控制在合理水平是統計學的基本準則。上述多重性問題有的可以導致FWER膨脹,有的則不會。對于前者,需要采用恰當的決策策略和分析方法將FWER在合理水平,這一過程稱為多重性調整;對于后者,則無需多重性調整。

通俗地講,I類錯誤導致的結果是假陽性;總I類錯誤率就是在一項完整的臨床試驗的多重統計分析檢驗中出現I類錯誤的發生率;II類錯誤導致的結果是假陰性。因此,在制訂臨床試驗方案和統計分析計劃時,采用恰當的決策策略和分析方法以控制FWER是非常重要的。

臨床試驗中常見的多重性問題

臨床試驗中常見的多重性問題一般體現在多個終點、多組間比較、亞組分析、期中分析、縱向數據不同時間點的分析等方面。

1、多個終點

臨床試驗中的多個終點包括主要終點(單個或多個主要終點)、次要終點(單個或多個次要終點)、復合終點(多個臨床結局合并為一個單一變量)、探索性終點、安全性終點等。

(1)主要終點

主要終點是指與臨床試驗所關注的主要問題(主要目的)直接相關的、能夠提供最具臨床意義和令人信服的證據的終點,常用于主分析、樣本量估計和評價試驗是否達到主要目的。確證性臨床試驗中,單一主要終點較為常見,但某些情況下會涉及多個主要終點的研究,對于多個主要終點的研究,通常有兩類統計假設策略,即多個主要終點均要求顯著和多個主要終點中至少有一個顯著。

①多個主要終點均要求顯著

即要求所有主要終點均顯著時才認為研究藥物有效(此種情況常稱為共同主要終點)。在此情況下,不會導致I類錯誤膨脹,因為這種策略沒有機會選擇對研究藥物最有利的某個或某幾個主要終點,只有一種可能得出藥物有效的結論(即兩個原假設都被拒絕)。但是,這會增大II類錯誤和降低檢驗效能。檢驗效能降低的程度與主要終點的個數和主要終點之間的相關性有關,個數越多、相關性越弱,檢驗效能降低的幅度越大。因此,對于多個主要終點均要求顯著的情形,無需多重性調整,但應留意對檢驗效能的影響。

②多個主要終點中要求至少一個終點顯著

即至少一個主要終點顯著時就認為研究藥物有效。此種情況下需要多重性調整。由于多個主要終點中至少有一個顯著的組合策略不盡相同,多重性調整策略應視具體的統計假設而定。

(2)次要終點

臨床試驗的次要終點通常有多個,多數情況下它們用于提供藥物對主要療效終點療效的支持作用。但在某種情況下,有些次要終點可能用于支持藥品說明書聲稱的獲益,一般被稱為關鍵次要終點。此時,應將關鍵次要終點與主要終同納入I類錯誤控制。只有主要終點的檢驗認為整體顯著后,才考慮關鍵次要終點的檢驗。

(3)復合終點

復合終點是指將多個臨床相關結局合并為一個單一變量。如果將某一復合終點作為單一主要終點,將不涉及多重性問題。但是,如果同時將復合終點中某一組成部分(如某一事件或構成量表的某一維度)用于支持藥品說明書聲稱的獲益,應將其定位于主要或關鍵次要終點,再根據上述定位對所涉及的主要或次要終點的多重性問題予以考慮。

(4)探索性終點

探索性終點可以是預先設定、也可以是非預先設定(例如數據驅動)的終點,一般包括預期發生頻率很低而無法顯示治療效果的臨床重要事件,或由于其它原因被認為不太可能顯示效果但被納入探索性假設的終點,其結果可能有助設計未來新的臨床試驗。此類終點無需考慮多重性調整。

(5)安全性終點

如果安全性終點(事件)是確證性策略的一部分,即用于支持藥品說明書聲稱的獲益,則應事先確定,并將其與主要療效終點所涉及的多重性問題做同樣處理。此時,安全性和有效性評價均應控制各自的FWER。需注意,在臨床試驗的實踐中,由于安全性事件具有很大的不確定性,有時難以事先規定主要安全性假設,因此,對于多個安全性終點(通常是嚴重的不良反應)的確證性策略可能會基于事后的多重性調整策略,此時應充分說明其合理性,并與監管機構達成共識。

2、多組間比較

臨床研究中多組間的比較頗為常見,如三臂設計、劑量-反應關系研究、聯合用藥和復方藥的評價等。

(1)三臂設計

三臂設計多用于非劣效試驗,安排的三個組分別是試驗組、陽性對照組和安慰劑組。此時,統計假設應該考慮三種情形:

①試驗組與安慰劑組比較的優效性;

②試驗組與陽性對照組比較的優效性;

③試驗組與陽性對照組比較的非劣效性(和可能的優效性)。對于這一多重性問題,如果三個假設檢驗的結果均顯著才可認為試驗藥物有效,無需多重性調整;或者,基于一個比較弱的研究假設,即只要滿足①即可認為試驗藥物有效;如果采用固定順序策略,如檢驗順序為①—>②—>③,此時也無需多重性調整。但需要注意,后者這種基于較弱的研究假設需得到監管機構的認可才可實施。其它三臂設計如果不是遵循這一多重性檢驗策略,且不滿足所有檢驗假設均顯著的話,需根據情況考慮是否需要多重性調整。

(2)劑量—反應關系

劑量—反應關系研究對于找到安全有效的治療劑量或劑量范圍至關重要。劑量探索的方法和目的在II期和III期試驗中有所不同。

II期試驗中,劑量探索研究多用于估計劑量—反應關系,通常基于統計模型證明臨床效應與劑量增加總體呈正相關關系,不需要對不同劑量組和安慰劑組之間進行比較,故無需控制FWER。但是,如果劑量反應研究作為確證性策略的一部分,就需要控制FWER。

在確證性臨床試驗中,劑量探索通常是基于假設檢驗進行多劑量組間的比較,旨在選擇和確證試驗藥物在特定患者人群中推薦使用的一個或多個劑量水平,此時必須控制FWER,如采用基于p值的多重檢驗,或基于參數方法的多重檢驗(如Dunnett檢驗)。

(3)聯合用藥和復方藥

聯合用藥是指治療用藥同時使用兩種或以上的藥物,復方藥是指治療用藥由兩種或以上的藥物組合而成。聯合用藥或復方藥臨床試驗的目的主要是驗證聯合用藥的獲益/風險是否優于其中的單藥,或復方藥的獲益/風險是否優于其組分藥。

以兩個單藥的聯合用藥為例,試驗設計至少會設置三個組,即聯合用藥組、單藥A組和單藥B組,后兩組為陽性對照組。如果再增加一個安慰劑組,就是一個2x2的析因設計。無論是三組的設計還是四組的析因設計,其統計檢驗以推斷聯合用藥組是否優于其它各組為主,這將不會導致I類錯誤膨脹,因為只有所有假設均顯著的情況下方可證明聯合治療的療效。

3、縱向數據不同時間點的分析

縱向數據,即基于時間點的重復測量數據,是臨床試驗常見的類型。此類數據與時間點相關的分析分兩種情況,一種是在不同時間點進行組間比較;另一種是比較處理組內不同時間點的效應。

假設研究設計只有一個主要終點且只涉及兩個處理組(多于一個主要終點或多于兩個處理組的多重性問題上文已述及),如果主要終點評價被定義為在多個時間點中的某一個時間點(如最后一個訪視點)進行處理組間的比較,其它時間點的組間比較被視為次要終點評價,則不涉及多重性調整;如果主要終點評價被定義為在不止一個時間點進行處理組間比較,若其所有相關時間點的組間比較達到顯著才認為有效,就無需多重性調整,否則,就需多重性調整。

對于比較處理組內不同時間點效應的情形,如果目的是通過時間點之間的比較確證最佳時間點的效應,即當時間效應成為確證性策略的一部分時,就需要多重性調整;否則,無需多重性調整。

如果希望回避縱向數據的多重性調整問題,一種可能的解決方案是將不同時間點的效應轉換為折線下的面積。另一種可能的解決方案是對重復測量數據用單個模型分析,如重復測量方差分析或混合效應模型。

4、亞組分析

亞組分析通常用于說明試驗藥物在某一特定亞組人群中的療效、或者各亞組之間療效的一致性。如果特定亞組的分析用于支持藥品說明書聲稱的獲益,則需要綜合考慮總人群和亞組人群的多重性問題,同時還要注意保證亞組有足夠的檢驗效能。反之,如果亞組分析不用于支持藥品說明書聲稱的獲益,則無需多重性調整。

5、期中分析

針對有效性和/或無效性進行監查的期中分析,因為在研究過程中需要進行多次決策,所以FWER的控制顯得尤為重要,多重性調整的策略和方法也復雜多樣。在制定臨床試驗方案時,應仔細考慮并預先設定恰當的多重性調整策略和相應的統計方法。

6、復雜設計

對于用于確證性目的的籃式設計、傘式設計、平臺設計等涵蓋多疾病領域、多種藥物、跨研究的復雜設計,由于同時開展多個分題研究,涉及多重決策的問題。但由于這些分題研究多是獨立的研究且回答特定的臨床問題,如適用疾病、目標人群等,故一般無需多重性調整。

但是,對于復雜設計分題研究的目標人群有較大重疊時,以及對于多個分題研究使用同一個對照組時,是否需要多重性調整,應視具體情況而定。此時,應與監管機構進行充分溝通。

常見的多重性調整的策略與方法

針對臨床試驗中普遍存在的多重性問題,所采用的多重性調整的策略與方法取決于試驗的目的、設計、統計假設及其分析方法。需在試驗設計時對選用的多重性調整的策略和方法進行必要的評估,并在臨床試驗案和統計分析計劃中詳細闡述。

多重性調整的策略與方法可以從決策策略、調整方法和分析方法三個層面考慮。

1、多重性問題的決策策略

臨床試驗的研究結論主要依據綜合所有試驗數據分析結果所做的推斷,也是一個從局部決策到整體決策的過程。多重性問題的決策策略可分為平行策略(或稱單步法)和序貫策略(或稱多步法)。除了從局部決策到整體決策過程外,還有分階段的整體決策,例如,出于有效性決策為目的的期中分析。

(1)平行策略

平行策略是指所包含的各個假設檢驗相互獨立,平行進行,與檢驗順序無關,就像一種并聯關系,每個假設檢驗的推斷結果不依賴于其它假設檢驗的推斷結果。

(2)序貫策略

貫策略是指按一定順序對原假設進行檢驗,直到滿足相關條件而停止檢驗,就像一種串聯關系,根據設定條件前一個假設檢驗的結果將決定是否進行后續的假設檢驗。序貫順序分為固定順序和非固定順序兩種方式。

序貫策略中假設檢驗的順序以及相應的多重性調整方法的不同對整體結論的影響也不同,這一點在設計階段尤其要注意。序貫策略的檢驗效能通常優于平行策略,但其置信區間的計算較為復雜甚至難以估計。

(3)整體決策策略

分階段的整體決策策略是指將整體決策按照時間順序分階段進行,其典型代表是出于有效性為目的的期中分析,每個階段都進行一次整體決策,確定試驗因有效或無效提前終止還是繼續。每一階段的整體決策可以采用多重性問題決策策略中的平行策略或序貫策略。多階段決策需要多重性調整。

2、多重性調整方法

多重性調整方法實質上是通過調整整體決策中每一個獨立假設檢驗的名義檢驗水準以達到控制FWER的目的。名義檢驗水準的確定方法可以根據多重性問題的決策策略選擇。

多重性調整方法主要有平行策略的多重性調整方法、序貫策略的多重性調整方法、期中分析常見的α分割方法等。

3、多重性分析方法

對于需要解決的多重性問題,多數是基于具體的統計檢驗方法結合多重性調整方法來實現的。

對于單一終點變量、同一研究階段的多組比較,有些統計分析方法是在整體檢驗的基礎上解決多重比較的問題,其根本思想是兩兩比較所涉及的標準誤是整體檢驗的標準誤,由此達到控制FWER的目的。定量結局變量基于方差分析的兩兩比較有LSD法、SNK法等多種方法,這些分析均可通過專業統計軟件實現。對于在整體檢驗的基礎上無法實現多重比較的統計分析方法,需要采用局部檢驗(兩兩比較)結合

α分配的方法(Bonferroni法等)。

多變量的參數方法(如多元方差分析)是解決多重性問題的手段之一,特別是對于多終點的情況,但是此類方法一則要求滿足多元正態分布,二則分析結果的解釋往往不直觀,限制了其應用。

重復抽樣(bootstrap法和permutation法)也是解決多重性問題的手段之一,此類方法的優點是在控制FWER的同時還能保證較高的檢驗效能;其不足之處在它所基于的經驗分布難以驗證從而導致估計的準確性不足,此外它更依賴于大樣本。因此,該類方法在臨床試驗中少有實踐,需慎重使用。

由于解決多重性問題的統計分析方法眾多,每種方法都有其優勢與不足,需要在臨床試驗方案或統計分析計劃中事先規定針對多重性問題所采用的統計分析方法。

4、多重性問題的基本解決思路

臨床試驗的多重性問題較為普遍而且復雜,解決多重性問題的基本思路是:首先,根據研究目的和試驗方案,梳理出可能的多重性問題。其次,判斷哪些多重性問題需要多重性調整,哪些不需要。之后,進入多重性調整過程。先判斷是做一次整體決策還是分階段做若干次整體決策(如基于有效性決策的期中分析),對某一個整體決策而言可采用平行決策、序貫策略或平行十序貫策略,最后根據所選決策確定每一個檢驗假設(局部決策)所對應的統計分析方法和名義水準α的分配策略(如需要)。

其它考慮

1、不需要調整的多重性問題

不需要調整的多重性問題

包括但不限于以下情形(均不包含有效性的期中分析):

(1)針對單一主要終點的非劣效試驗的標準三臂設計,所有假設檢驗結果均顯著才被視為有效;

(2)針對單一主要終點,研究假設為試驗藥物的療效至少非劣于陽性對照藥,即檢驗假設為固定順序,第一步驗證試驗藥物的療效非劣于陽性對照藥的假設,第二步驗證試驗藥物的療效優于陽性對照藥的假設(在第一步假設被拒后),每一步的檢驗水準與FWER水平相同;

(3)針對多個主要終點,當且僅當所有終點的假設檢驗結果均顯著才被視為有效;

(4)針對多個均不以說明書聲稱的獲益為目的次要終點;

(5)有效性和安全性評價應分別獨立控制FWER,兩者之間無需調整;

(6)對于籃式設計、傘式設計、平臺設計等跨研究的復雜設計,如果分題研究多是獨立的研究且回答各自的臨床問題,如適用疾病、目標人群等;

(7)在統計分析過程中,對同一主要終點指標,可能會對不同的分析數據集進行分析,只要事先定義以哪個分析數據集為主要結論依據;

(8)采用不同的統計模型或同一模型采用不同的參數設置,只要事先定義主分析模型;

(9)根據不同的假設進行敏感性分析,例如采用不同的缺失數據估計方法填補后的分析,對離群值采用不同處理后的分析等。

2、多重性檢驗的參數估計問題

多重性調整的假設檢驗方法眾多,有的方法較為復雜,可能難以做出相應的區間估計,此時應該考慮采用較為簡單但是相對保守的方法進行區間估計,例如采用Bonferroni方法調整置信區間。

多重性調整還有可能帶來點估計的選擇性偏倚。例如,在含有多個劑量組的確證性臨床試驗中,如果多重性問題的決策策略選擇了在藥物說明書中標示與安慰劑差異最大化的劑量組的效應量,則有可能高估藥物的療效。類似的選擇性偏倚也會因亞組的選擇而產生。因此,有必要評多重性調整可能帶來的選擇性偏倚。

3、需要注意的事項

在臨床試驗方案和統計分析計劃中應事先明確多重性問題和多重性調整的策略和方法。對于復雜的多重性問題,是否需要多重性調整以及如何調整,現有的策略和方法可能面臨挑戰,因此,在確證性臨床試驗設計階段須積極與監管機構溝通,以求雙方能夠達成共識。在試驗過程中,如果因為更改多重性調整策略和方法而使臨床試驗方案做出重大調整,須與監管機構充分溝通,在征得同意的情況下對方案進行修改和備案。

 

參考資料

1、CDE藥物臨床試驗亞組分析指導原則(征求意見稿)

2、CDE藥物臨床試驗富集策略與設計指導原則(征求意見稿)

3、CDE臨床試驗多重性問題指導原則(征求意見稿)

本文綜合整理自南昌弘益藥業研發團隊。歡迎轉發,禁止轉載。轉載授權請聯系0791-88161315

版權所有? 南昌弘益科技有限公司??????網站技術支持:

贛ICP備15005709號 ? ??互聯網藥品信息服務資格證書編號:(贛)-非經營性-2017-0007

友情鏈接:︱??︱ ??︱??︱??︱