基于高通量測序的伴隨診斷試劑臨床評價方法及運用

2020-08-05 08:47:24高宇呂允鳳

分子診斷與治療雜志 2020年7期

高宇呂允鳳

隨著分子生物學技術的發展，靶向治療作為一種低毒、高效的腫瘤療法已經成為研究熱點，并得到了廣泛的應用［1］。靶向治療藥物在臨床應用時需通過有效手段將可能從靶向藥物中獲益的患者篩選出［2-5］，該試劑被命名為伴隨診斷試劑（Companion Diagnostics，CDx）［6］。為了確認在臨床應用時伴隨診斷試劑對可獲益患者的篩選性能，伴隨診斷試劑上市前的臨床評價研究需要通過受試者的藥物治療效果進行評價［7］，是一種難度較高的臨床評價方法。通常，每個臨床試驗僅能針對一種藥物及其伴隨診斷試劑的相關性驗證。然而隨著靶向藥物的增加以及高通量測序技術的發展，傳統伴隨診斷試劑及其臨床評價模式已經難以滿足臨床的需要。

傳統伴隨診斷試劑一次檢測通常僅能針對一種藥物的應用進行指導，如果一種疾病有多種伴隨診斷藥物，就需要進行多次檢測，不僅增加的檢測費用及時間，同時增加了所需要的活檢樣本量。高通量測序技術可以通過一份樣本對于幾乎全部感興趣的基因位點進行檢測，一次檢測可以同時指導多個以基因檢測結果作為伴隨診斷位點的藥物的使用［8］。這雖然在技術層面解決了傳統伴隨診斷試劑所造成的問題，但當其作為一個產品進行上市評價時，按照傳統臨床評價方式逐一進行檢測位點與藥物相關性之間的臨床驗證，這也是不現實的。

前美國FDA審評員Li于2015年9月提出伴隨診斷Follow-On臨床評價方法并于2016年9月公開發表論文對該評價方法的統計原理進行了詳細的闡述［9］。該方法的基本原理是通過與已上市試劑進行符合率（Percentage of Agreement）研究推導二者的臨床應用時的等效性（Concordance）。2017年，美國FDA首次使用Follow-On臨床評價方法批準了基于高通量測序技術的伴隨診斷試劑Foundation-One CDx上市。本文基于Follow-On臨床評價方法的統計學原理，結合美國FDA公開的已批準上市產品的安全有效性數據綜述（Summary of Safety And Effectiveness Data，SSED）［10-12］，分析美國FDA對于Follow-On臨床評價方法的評價思路以及高通量測序體外診斷試劑的評價思路，以期為我國同類型產品的臨床評價提供參考。

1 已上市產品臨床評價概述

1.1 入組及檢測

FoundationOne CDx基于高通量測序方法學共檢測324個基因的突變，其中檢測7個基因的突變用于指導用藥（見表1）以及不單獨用于指導用藥的300余個基因。不單獨用于指導用藥的位點包括用于計算腫瘤突變負荷（Tumor Mutation Burden，TMB）、檢測微衛星不穩定性（microsatellite instability，MSI）以及其他具有顯著臨床意義［13］的基因位點。在臨床上，TMB指標用于臨床醫生決策PD-L1藥物的使用［14］，但FDA并未將該用藥指導列入預期用途。本文僅針對指導用藥的伴隨診斷位點的臨床評價方法。

表1 FoundationOne CDx伴隨診斷檢測基因突變對應腫瘤及相應藥物Table 1 Tumor Mutations of FoundationOne CDx and Corresponding Drugs

根據Follow-On臨床評價方法的統計學原理，應入組數量基本相等的陽性和陰性樣本（各約150例），對入組樣本進行兩次對比試劑（Comparator Companion Diagnostic，CCD）檢測及一次考核試劑檢測（Follow-on Companion Diagnostic，FCD）。分別以對比試劑第一次（記為CCD1）及第二次（記為CCD2）檢測結果為基準，計算另一次對比試劑檢測結果及考核試劑檢測結果與基準檢測符合率的差值，從而評價FCD與CCD的臨床等效性。樣本入組的預篩試劑可以是包括對比試劑在內的任意檢測試劑，而對比試劑必須選擇已上市的伴隨診斷試劑。如果使用對比試劑作為預篩試劑，預篩檢測結果可以作為等效性研究的兩次對比試劑檢測結果中的一次使用。FoundationOne CDx臨床試驗所選擇的預篩選試劑、第一次對比試劑（CCD1）檢測試劑、第二次對比試劑（CCD2）檢測試劑參見表2。

表2 FoundationOne CDx臨床試驗試劑的選擇Table 2 Test Selection in FoundationOne CDx Clinical Trail

1.2 數據展示及統計

統計分析時，根據指標在預期人群陽性率（Prevalence）及入組人群比例校正計算CCD1分別與FCD和CCD2的符合率的差值、CCD2分別與FCD和CCD1的符合率的差值，并通過Bootstrap法得到差值的95%置信區間［15］。在Li的文獻中，非劣效界值設定為5%。但在SSED中，所有基因位點中與之對應的差值ζ最大95%置信區間上限最大值為13.6%。可以看出在產品臨床評價中對非劣效界值的設定根據產品的實際情況進行了調整。見表3。

表3 Follow-On臨床試驗結果表格Table 3 the Form of Follow-on Clinical Trail Results

1.3 樣本注釋分析

在6個試驗的結果表格中有3個對于不一致樣本的結果進行了注釋，所注釋單元格均為FoundationOne CDx檢測與兩次CCD之間檢測結果不一致的樣本，即FoundationOne CDx為陽性而兩次CCD檢測結果為陰性樣本、FoundationOne CDx為陰性而兩次CCD檢測結果為陽性樣本。對于其他的結果數量并未進行注釋。

2 Follow-On臨床評價方法

Follow-On可理解為是一種臨床應用模擬評價的方法。當已上市試劑的兩次檢測均為檢測結果陽性，則判定樣本來源受試者使用相應藥物可獲益，而考核試劑的檢測結果應與之一致。試驗的實施與一般體外診斷試劑臨床符合率研究相似，但評價的方法卻有較大區別。

為有效評價陰陽性符合率，該臨床評價方法以檢測結果作為入組標準。以任意的檢測結果入組陰、陽性樣本各約150例。如以對比試劑結果作為入組依據，該結果可作為正式試驗的一次對比試劑檢測結果。在對比試劑選擇時，不限制于對比試劑方法是否相同，但應盡量選擇檢測同一生物標志物的試劑。

數據匯總時，應剔除CCD1、CCD2、FCD結果不完整的樣本。統計分析時，應根據標志物在預期人群陽性率及入組受試者陽性率進行校正計算。當基于樣本全集的統計結果表明與對比試劑有較大差異時，可以通過分層分析考察影響因素，如樣本量、人口學特征等。如調整后具有較好的臨床等效性，應當基于分層統計結果將影響因素寫入說明書中“局限性”部分。對于檢測不一致樣本，應當著重對申報試劑與兩次CCD之間檢測結果不一致的樣本進行分析，分析結果同樣應當寫入說明書中“局限性”部分。

3 評價要點

3.1 對比試劑的選擇

在對比試劑的選擇時，方法學的一致性并非主要考慮因素，但必需具有同樣的伴隨診斷預期用途。當有多個針對同一藥物的伴隨診斷試劑時，應選擇方法學更加準確的伴隨診斷試劑作為對比試劑。例如，ALK重排的研究中，樣本基于免疫組織化學試劑結果入組并作為CCD1結果，但考慮到免疫組織化學的在臨床使用中所可能遇到的內部質控難度的問題［16］，將CCD2改為原位雜交伴隨診斷試劑。

3.2 非劣效界值的設定

在FoundationOne CDx的SSED臨床評價部分開篇就明確了所使用的是按照Li所提出的Follow-On的伴隨診斷試劑臨床有效性評價方法進行研究。該文獻中的舉例中的樣本量與實際產品臨床試驗的樣本量相似。但FoundationOne CDx臨床試驗中，部分突變位點ζ的置信區間與文獻中所提及的5%非劣效界值有較大差異。因此在實際的臨床評價中，正如Li在文章中說“非劣效界值δ的設定需要考慮試劑、臨床、統計、監管等多方面因素”。

3.3 分層分析

在FoundationOne CDx的臨床試驗數據中有部分位點的臨床試驗ζ的95%置信區間上限較高。對于高ζ的情形，應當基于樣本信息進行分層分析，包括但不限于基因型、人種、性別等。根據高通量測序的流程，樣本體積是否充足是影響檢測準確性的重要影響因素。在FoundationOne CDx臨床試驗的統計分析時也分別對全樣本集和大于0.6 mm2的樣本集進行了分層分析。根據統計結果，大于0.6 mm2的樣本具有更好的符合率從而可以推定更好的等效性。據此，在SSED所記載的檢測流程中0.6 mm2規定為是有核細胞充足的判定標準，而在Foundation Medicine網站所公布的樣本要求中更為保守地規定了最小樣本體積為1 mm2［17］。

3.4 不一致樣本分析

在統計結果表格中，除以免疫組織化學和原位雜交為方法學的對比試劑外，均在檢測結果中對FoundationOne CDx與兩次CCD之間檢測結果不一致的樣本進行了注釋，解釋了不一致的原因，并將相應的解釋寫入說明書中。這些注釋表明，在評價的過程中應重點分析在臨床有較大用藥可能的樣本檢測結果不一致的原因，而CCD1、CCD2本身檢測結果不一致樣本的檢測結果相對弱化。

4 小結

高通量測序伴隨診斷試劑使用Follow-On臨床評價方法可以進行多位點多藥物伴隨診斷性能的臨床評價。Follow-On伴隨診斷試劑評價方法是通過特殊的臨床實驗設計更多地依靠統計學方法進行評價的臨床評價方法。由于脫離了藥物治療效果的研究，不僅需要考慮產品評價方法，還應在臨床評價方法適用性方面有更深入的考慮。設定產品的接受標準時也應結合產品的實際情況，根據患者的風險及獲益評價其臨床性能。此外，該方法雖然在一定程度上解決了用藥受試者樣本稀缺的問題，但對于陽性樣本數量的要求會高于傳統的伴隨診斷試劑臨床試驗。同時由于需要進行3次檢測，納入樣本的樣本體積也會有“硬性”的要求，需要完成三次檢測。這也高于傳統的伴隨診斷試劑臨床試驗。