楊 羽,王勝鋒,詹思延△
(1.北京大學健康醫療大數據國家研究院,2.北京大學公共衛生學院流行病學與衛生統計學系,北京 100191)
藥品上市后安全性監測體現為對藥品在上市后的安全性風險的及時發現,是藥物警戒的關鍵核心[1]。自發報告作為藥物警戒的重要工具之一,是目前最重要的盡早發現藥品不良反應(adverse drug reactions,ADR)的方法[2]。自發報告的來源包括醫務人員和藥品使用者。藥品使用者自發報告,是指藥品使用者在不經過醫務人員的解釋和說明下,主動就其自身經歷的某一可疑的藥品不良反應向藥物警戒部門等做出的報告。藥品使用者自發報告可增加藥品不良反應報告的數量,與醫務人員自發報告互為補充,可以提供藥品不良反應的直接信息甚至影響藥品不良反應“耐受性”的界定[3-4],但會受到對自發報告和報告系統了解不足和不完善的報告體驗的影響。社交媒體平臺上由個人發布的藥品及其不良反應相關內容近些年正逐漸被視為類似于藥品使用者自發報告的新的數據來源,使用社交媒體數據開展藥品上市后安全性監測的研究呈逐年上升趨勢,因而本文就相關研究現狀與面臨的挑戰進行綜述。
社交媒體作為一類在線互動平臺(如網絡論壇、Twitter和Facebook)為人們提供了便捷分享和交換意見的方式,與傳統的新聞媒體(如報紙、電臺、雜志等)和門戶平臺(如新浪網、人民網、百度、谷歌等)專注“公共傳播”不同,社交媒體的核心屬性是“社交”[5]。社交媒體是通過人際交流和互動形成社交網絡的新型互聯網新媒體,社交媒體用戶基于文本、聲音、圖像或視頻等類型的信息,在虛擬社區和網絡中創建、共享或交換他們的經驗和想法[6]。WEB2.0出現以來,社交媒體的使用人群不斷擴大。We Are Social和Hootsuite在2020年7月共同發布的Digital 2020報告數據顯示[7],全球活躍的社交媒體用戶已經超過39億,約占全球總人口的一半以上,其中中國社交媒體用戶超過10.4億,占全球社交媒體用戶的近三分之一,僅2019年,中國就增加了1 500萬社交媒體用戶。類似Twitter的網站新浪微博(Sina Weibo)、短視頻應用——快手(Kuaishou)及抖音(Douyin)是中國最受歡迎的社交網絡服務之一。社交媒體已經深入人們的日常生活并在影響人們的生活行為和習慣,Digital 2020報告數據顯示社交媒體用戶現在平均每天在社交媒體上花費的時間超過2 h[7]。數以億計的人從每天早晨起來就開始在社交網絡上發布自己的各種經歷和想法,討論與健康相關的問題和經驗,其中就包括患者對藥品的使用及其產生的(有益的或有害的)效果[8],這些充滿“噪音”的社交媒體數據被看作“埋藏著鉆石的巨大煤堆”。
社交媒體數據為研究人員和監管機構提供了從藥品使用者的角度而非醫療專業人員的角度監測藥品安全的新機會,并且在理論上提供了比傳統方式更早地發現藥品安全問題的可能性[9],作為藥品上市后安全性監測的一項新的數據來源用于信號檢測和信號驗證均具有自身獨特的優勢[10-11]。孕期/哺乳期女性、兒童、老年人、罕見病患者等人群通常不會被納入臨床安全性研究,有關這些人群發生藥品不良事件(adverse drug event,ADE)/ADR的信息在社交媒體數據中很可能被發現。替代藥物或者膳食補充劑的使用,以及與藥物的聯合使用,也存在產生不良反應的可能,但傳統的監測系統中很難獲取這方面的數據,有望通過社交媒體數據的分析進行補充[12]。使用社交媒體數據還可以比現有監測方式更早地發現ADR信號[13]。社交媒體數據中產生ADR信息的主體不是醫療機構、醫生或企業而是患者,因其對于不同種類ADE/ADR的重視程度不同,社交媒體中報告的ADR信息與自發報告系統和電子病歷中采集到的信息分布會有所區別,基于社交媒體數據的分析還可以部分彌補現有安全性監測中漏報的問題,甚至可能發現新的非預期ADR信號[14-16]。
使用社交媒體數據開展藥品上市后安全性監測研究已有近十年的時間,2010年,Leaman等[17]首次使用文本挖掘等技術,基于醫學互助論壇中的6 890條網絡貼文,自動從中抽取藥品與不良反應之間的關系,以期實現藥品安全性信號的早發現。目前,基于社交媒體數據進行藥品上市后安全性監測已經逐漸成為藥品上市后監督領域內的重要研究方向之一。
社交媒體數據的類型非常豐富,包括文本數據、圖像數據、影像數據以及音頻數據等,但目前被用于藥品上市后安全性監測研究的仍然以文本數據為主,語言種類主要為英語。這類文本類型的社交媒體數據主要來源于網絡社區(如MedHelp、PatientLikeMe等)和個人博客平臺(如Twitter、Facebook、Instagram等)。目前,發表的相關研究主要來自于美國和歐洲,中國的相關研究較少見。已發表的大多數研究以ADE的檢測和驗證為主要研究內容,使用不同的自然語言處理(natural language processing,NLP)技術,從社交媒體文本數據中識別ADE;另有研究將社交媒體數據與自發報告數據為主的傳統監測數據進行了比較,以研究捕獲的ADE數量、類別和時間的差異等[18];還有研究者針對是否可以用社交媒體數據比現有傳統方法更早地發現ADR信號進行了研究,如Powell等[19]利用2014年10月—2021年10月Facebook和Twitter的公開英文文本數據,基于《監管活動醫學詞典(medical dictionary for regulatory activities,MedDRA)》對藥品名稱和癥狀表述進行標準化處理,刪除重復和噪音數據,并對個體可識別信息進行隱匿化處理后,分別建立分析數據集,計算藥物-事件對比例報告比(proportional reporting ratio,PRR),結果在Twitter數據集共發現6 441 679個藥物相關事件(對應702個的MedDRA的優選術語),在Facebook數據集共發現15 650 108個藥物相關事件(對應946個的MedDRA的優選術語),研究者選擇沙丁胺醇作為目標藥物進行比例報告比計算,可以發現一系列不良事件,包括震顫、慢性阻塞性肺病、喘息、支氣管炎和蒼白等,這些不良事件均為沙丁胺醇已知的ADR,該研究結果表明,社交媒體數據可以作為加強藥品上市后安全性監測的重要工具[19]。
目前,已經有監管機構或企業逐步建立基于社交媒體數據的藥品上市后監測系統,如MedWatcher Social[20]、AETracker、Treato[21]和Web-Recognizing Adverse Drug Reactions (Web-RADR)[6]。以美國食品藥品監督管理局(Food and Drug Administration,FDA)的MedWatch Social為例,作為MedWatcher系統的一部分,其主要使用社交媒體(Twitter、Facebook、與健康相關的網絡博客)上的公開數據,從中提取醫療健康相關信息,并映射到藥品和不良事件的標準術語集中,從而監測是否出現ADR信號。
社交媒體數據作為一種新的數據源,數據量大、更新速度快、覆蓋范圍廣,對于提升藥品上市后安全性監測效果有明顯的優勢,但社交媒體數據開展安全性監測的實際應用并未能廣泛實現,目前學術界對于社交媒體數據是否可以作為可靠的數據源被用于日常藥品上市后安全性監測仍存在爭議。雖然Kurzinger等[16]發現使用社交媒體數據,可以比傳統自發報告數據更早、更快地檢測到與患者主觀癥狀(壓力、饑餓等)相關的ADR信號,Pierce等[10]和Karapetiantz等[15]也證實了同樣的觀點,Duval等[22]嘗試建立了基于Twitter數據的藥品不良反應自動化監測系統,除檢測出已有的標準信號外,還發現了新的ADR信號,但是同時也有學者認為[23-25],社交媒體數據無法作為獨立的新型數據源來完成對于藥品安全性的監測,僅可以作為現有數據的補充數據,彌補現有數據無法覆蓋或發現的信號。2018年,Convertino等[23]的系統綜述發現,利用社交媒體數據實現比現有不良反應監測方式更早的發現藥品安全性信號的證據仍然非常有限,且由于社交媒體數據的碎片化和低質量,無法滿足藥品安全性監測中實行因果關系判定的數據需求。Lardon等[24]基于Twitter數據的研究結果也認為社交媒體數據僅可作為藥品安全性監測信息的補充來源,并且社交媒體數據作為補充來源能在多大程度上提高藥品上市后安全性監測的效果仍需要更多證據的支持。最新的研究發現,將社交媒體數據與傳統的自發報告系統相結合,并沒有比單獨使用自發報告系統取得更好的效果[25]。
基于社交媒體數據開展的藥品上市后安全性相關研究數量在近十年一直呈不斷增長的趨勢,一些研究也從不同角度分別為社交媒體數據是否是一個有價值的數據來源提供了證據支持,但仍然存在很多需要解決的問題[26]。
2.1.1真實性 社交媒體數據的真實度和可信度均無法與醫學數據相比,需要建立特定的算法或開發相應技術對社交媒體數據的真實性進行判別[27]。
2.1.2重復性 社交媒體數據會出現大量的數據重復,需要使用適當的方法進行數據抽取。
2.1.3不完整性 社交媒體數據的碎片化和低質量,造成研究者無法完整獲得進行安全性監測需要的數據,影響因果關系的判定[28-29]。
2.1.4不平衡性 與自發報告數據不同,社交媒體數據中僅有很小部分的數據包含潛在的ADR信息,信息分布非常不平衡。
2.1.5表達多樣性 (1)描述多樣性:除了用通用名描述藥品,還會使用商品名、有效成分和口語化表述等,而不良事件除了使用標準的醫學表述外,可能會使用方言、口語化甚至是自創的描述性詞語等[28,30];(2)語法問題:存在錯詞錯字、語法錯誤和使用不明確縮略語等;(3)語言多樣性:現有研究基本都集中在英語環境的社交媒體數據分析,包括中文在內的其他語種表達尚未被涉及,以上這些表達多樣性的存在會提高命名實體識別和標準化的實現難度[31]。
2.2.1數據處理方法 如何準確和高效地進行文本數據的命名實體識別和標準化是社交媒體數據的首要問題。目前主要使用機器學習的方法,包括無監督學習、監督學習和半監督學習,其中無監督學習受社交媒體數據不平衡性的影響較大,而標注數據的稀缺對監督學習的發展造成了阻礙,半監督學習同時使用無標記數據和標記數據進行模式識別,正成為相關領域熱門的研究方向,自監督學習作為監督學習和無監督學習的另一種結合方式,可以使用無標記數據自動生成數據標簽實現學習過程,在社交媒體文本數據處理方面很有潛力[32]。
2.2.2偏倚 (1)渠道偏倚:社交平臺本身用戶存在人群偏好,低齡兒童、老年人群、智力障礙人群或貧困人群(沒有智能終端或無法連通網絡)等通常無法使用社交媒體平臺;(2)報告偏倚:社交平臺的傳播特征等(微博vs.論壇)會影響所報告的不良事件的類型,如發生性功能障礙ADE的患者可能不會將經歷發布在特定的社交平臺上;(3)成名偏倚:與自發報告數據類似,藥品在剛被公眾應用或被廣泛曝光并知曉時可能會出現相關ADR報告數量的上升,影響ADR信號檢測效果[33]。
2.2.3數據挖掘算法 基于比例失衡理論的數據挖掘算法是否還適用于社交媒體數據,仍有待研究提供證據支持[34]。
倫理和隱私保護是使用社交媒體數據時無法避免的挑戰。社交媒體用戶一般可以通過對自己的賬戶隱私級別進行設置,選擇公開(所有人可見)或限定(僅自己或僅特定人群可見)展示發布的內容,但即便是用戶選擇公開的社交媒體數據,也不意味著可以被隨意用于任何目的[35]。對來源于社交媒體數據的ADR個案的隨訪也會帶來倫理和隱私保護問題。假設通過挖掘社交媒體數據發現嚴重ADR案例,原則上應當對發現的個案進行追蹤和隨訪,甚至干預[29]。國家藥品監督管理局在2018年發布的《個例藥品不良反應收集和報告指導原則》中明確提出有必要對個例不良反應開展隨訪和調查。對個例不良反應信息的評估、隨訪和調查,需要獲取其個人可識別信息以定位或聯系到個體,這類目的的數據使用暫未包含在社交媒體平臺現有的信息保護政策中,所以除非用戶本人簽署相應的知情同意,否則就無法完成對個例不良反應信息的評估、隨訪和調查。基于使用社交媒體數據開展藥品上市后安全性監測時面臨的以上挑戰,需要繼續開展相關研究,提供合理數據使用方式的證據支持和機制建議,如在遵守現行互聯網信息保護相關法律法規的基礎上,在社交媒體平臺的用戶協議中采取“opt-in”或“opt-out”(選擇加入或選擇退出)模式,獲取用戶的數據使用知情同意,為后續數據使用的合理合規提供倫理基礎。
中國社交媒體平臺用戶數量巨大,2020年中國的社交媒體滲透率達到64.8%,略高于美國和日本等國。2019年,中國手機社交媒體活躍用戶總數達10億,成為亞太地區最大的社交媒體用戶群體,而且中國社交媒體的用戶使用時間也在不斷增加。以微信為例,截至2020年10月,微信的月活躍用戶約為10億,大約54%的微信用戶每天至少花10~30 min使用微信應用,由此帶來的海量數據為藥品上市后安全性監測提供的巨大潛在價值不言而喻。然而,應用中文社交媒體數據開展藥品上市后安全性監測還有一些獨特的困難和障礙需要克服和跨躍。首先,中文社交媒體數據以中文文本數據為主,由于中文語言自身的特點,加上中英文混雜表述的普遍出現,語言表達的多樣性比單獨的英文文本數據更加復雜,除錯字錯詞、語法錯誤和縮略語外,還可能出現同音字(近音字)、形近字、語序錯誤的情況;其次,中文與英文表達組成的區別為文本數據處理帶來挑戰,在中文中,詞與詞之間除標點符號之外,不存在分隔符,這就給中文分詞工作帶來了挑戰,另外,與英文文本數據相比,中文的標準化語料庫,尤其是醫療健康相關語料庫十分缺乏,為建立高效、準確的命名實體和標準化處理帶來了困難;最后,由于國內的社交媒體數據使用和分析的相關法律法規尚在逐步建設和規范中,因此如何在使用社交媒體數據進行上市后監測時遵循倫理原則,保障社交媒體用戶的隱私和數據安全,仍然需要政府監管部門、社交媒體平臺和科研工作者的共同努力。
藥品上市后安全性監測是保障患者用藥安全的重要工作。社交媒體數據由于本身用戶群廣泛、數據體量巨大、來源豐富和時效性強等特點,作為一項患者產生的數據源對于提高現有安全性監測水平具有巨大的潛在價值。利用社交媒體數據開展藥品上市后安全性研究發展已近十年,從目前已經發表的研究結果看,研究者普遍認同社交媒體數據是對現有藥品上市后安全性監測數據的有益補充。社交媒體數據可能在特定ADR報告監測(報告率低的ADR或者年輕人群的ADR)方面提供有價值的結果,協助解決傳統監測的盲點,但是社交媒體數據是否可以用于信號檢測,尤其是早期信號檢測,甚至是被納入成為常規安全性監測的一部分,學術界尚未能達成共識,仍需要更充分的研究證據證實其價值和可靠性。不僅如此,社交媒體數據被真正用于藥品上市后安全性監測之前,還須優先解決數據、方法和倫理三個方面的問題。社交媒體數據對藥品上市后安全性監測的重要意義毋庸置疑,通過開發新技術并建立新機制,解決使用社交媒體數據時面臨的各種問題,可能是未來研究的重要發展方向。