楊葉姿
(1、蘇州外國語學校,江蘇 蘇州215011 2、武漢大學 數學與統計學院,湖北 武漢430072)
2020 年3 月11 日,世界衛生組織評估:新型傳染病可能在2020 年全球大流行[1,2]。在面對傳染病問題,我國積累了大量經驗,建立統一高效的指揮體系、構建全民參與嚴密防控體系、全力救治患者、拯救生命、依法及時公開透明發布病情信息,充分發揮科技支撐作用,實現了防控和救治兩個戰場協同作戰,并有效的遏制傳染病蔓延勢頭[3]。
我國雖然在宏觀層面對傳染病進行了有效控制,但在實際防控措施中,各機構也遇到了許多具體問題,比如:居民防控意識不強、醫院的檢測方法和治療方案發展不成熟、科研機構的疫苗研發進展不樂觀等[4]。本文將從概率統計的角度,對數據統計不準確、醫療檢測效率低、存在誤診風險、疫苗研發的有效性問題建立模型,為提高疫情診斷、治療效率,提供數學理論依據和改進建議。
在控制傳染疾病的舉措中,各地都在進行全體居民出行及接觸人群的調查與統計。若能夠獲得居民出行記錄的準確信息,有關部門則可以估計交叉感染風險、無癥狀攜帶者信息等,從而對公共場所制定相應的開放措施。但在實際調查中,傳染病流行期間出行問題屬于敏感或隱私問題,被調查者可能擔心出行后會被隔離或限制活動。因此,不排除少量居民隱瞞、謊報出行信息的情況,此行為給防控工作帶來了干擾。本節設計一個出行記錄敏感問題的調查方案,通過加入混淆的問題來保護被調查者隱私,根據全概率公式[5],來估計被調查者中謊報出行記錄的概率。
根據調查方案的設計原則[6],對未進行醫學檢測的居民設計調查問卷,該調查問卷的形式多樣,比如自行申報、口頭詢問或網絡問卷等。調查問卷的主要目的是:在出行情況的調查問卷反饋信息中,如何甄別真偽,獲得謊報信息的真實情況。
問題規則:設計一個有紅黃藍三種顏色區域的圓盤,該圓盤上有一個可隨機指向三種顏色區域的指針。被調查者轉動指針隨機指向一種顏色,并回答該顏色的對應問題。
(1)紅色區域對應的問題:你有過謊報出行記錄的行為嗎?如果有過,請回答“1”,如果從未有過,請回答“0”;
(2)黃色區域問題:請直接回答“1”;
(3)藍色區域問題:請直接回答“0”。
被調查者轉動指針時,調查者無法看見轉動情況,無法判斷被調查者回答的是哪個問題。此試驗中黃色和藍色區域存在的意義:混淆調查者對于被調查者所回答問題的判斷,以此來保護被調查者的個人信息隱私,消除被調查者心中的顧慮,使調查結果更加準確[7]。
設A1為隨機事件“指針指向紅色區域”,A2為隨機事件“指針指向黃色區域”,A1為隨機事件“指針指向藍色區域”。記P(Ai)=pi,i=1,2,3 該概率由調查者通過調節圓盤各顏色面積事先確定。設B 為事件“回答結果是1”,則由全概率公式得

其中P(B|Ai)表示在回答Ai問題時,回答結果是1 的概率。
不妨設被調查者有n 位,每位均獨立作答,回答是“1”的人數為n1,則被調查者中有謊報出行記錄的概率為


借助數學工具軟件Matlab 的隨機生成數功能進行數據模擬分析,假設謊報出行的實際概率為0.005,p3固定為0.2 時,對于不同的p1和p2值,隨著被調查者人數的變化,謊報出行記錄的概率P(B|A1)都逐漸收斂到真實值0.005,具體如下圖。


由第四張圖可以發現:當p1越大、p2越小時,P(B|A1)收斂到真實值的速率越快。
不妨將圓盤的顏色比例,設計為p1=0.75,p2=0.075 和p1=0.175。通過實地發放調查問卷,有效的調查結果是:總被調查者6839 人,536 人次回答結果是“1”。由公式(1)可計算出

表示人群中謊報出行的概率為0.45%。由這個樣本推斷謊報出行記錄的平均人數為

更一般的,假設城市人口總數為N,該城市居民患病率為p,城市中未被隔離/未發現的潛在傳染病患者為

數值驗證:某市截至2019 年末的常住人口為1121.2 萬人[8]。截至2020 年7 月20 日,該市的傳染病感染總人數為50340人。根據公式(2)可估算出患病率為p=0.449%。因此,未被隔離的潛在傳染病患者的估計人數為

有關政府部門可以根據這個估算結果,來判斷關于公共場所的開放程度和城市出行的隔離程度,制定相關措施。例如,若該結果較大,則公共場所應該限制人數并加強體溫檢測以及對群眾佩戴口罩的監督;若該結果較小,則可恢復公共場所的正常運轉。
另外在調查時,可以加入對年齡等個人資料的調查,可估算出未被隔離的潛在傳染病患者,若低齡者比例很少,則學校可以由線上授課轉為線下授課;若中年人比例較低,則可恢復經濟活動的線下運轉。
在傳染病重災區,政府對全體居民進行醫學檢測。但由于人數眾多,而檢測設備的數量和檢測速率有限,每一次檢測的時間及經濟成本大,本文設計了提高群體檢測效率方案,即混合樣本檢測,并通過概率計算比較傳統檢測方法與本文方案的平均成本以及最佳混合樣本數量。
具體方案:將多個人的檢測樣本混合在一起檢測。如果混合的檢測樣本沒有病毒,則這些人都不攜帶病毒;如果混合的檢測樣本含有病毒,則這些個人再分別檢測,查出含有病毒的那個或那些人。這個方法目的在于減少檢測的次數,以減小經濟成本,提高檢測效率。
設混合樣本包含了n 個人的檢測樣本,每個人的患病率為p。

檢測次數 1 1+n 概 率 (1-p)? 1-(1-p)?
E1表示傳統檢測方案的平均檢測次數,E2表示采用混合檢測方法的平均檢測次數,則

對固定的p,當n 滿足n(1-p)n>1 時,混合檢測的平均次數少于傳統檢測的平均次數。

上圖表明:混合方法與傳統方法在不同樣本量下的平均檢測次數,并對比了不同患病率下混合方法應采取的最佳每組樣本量。注意到傳統方法中,檢測次數等于樣本量。
建議:當患病率低時,采用混合樣本檢測的方法檢測效率更高。而患病率高時,采用直接檢測單個檢測樣本當效率更高。患病率可以隨時根據上一次檢測結果來進行調整。除此之外,根據調查研究顯示,中老年人相較于青年人和兒童的患病率要高許多[9],因此,醫院在將樣本分組時,可以根據年齡段來分組。中老年人可減少每組樣本數量,而青年人和兒童組可以增加每組樣本數量。
在醫院進行醫學檢測時,存在一定的誤診率,被誤診的群體會承擔巨大經濟、心理壓力和健康風險,同時,如果醫院的檢測效率不高,社會群眾會感到不安。本節提出了降低醫院誤診率方案,即對檢測出患病的患者進行二次檢測,通過貝葉斯公式和全概率公式計算出前后誤診率的變化,并給出科學建議。


分析可得,當p 取值較小,α 和β 固定時,診斷出患病的人數中,實際不患病的比率很大,且遠大于診斷出不患病的人數中實際患病的比率。
危害分析:
(1)對于診斷出患病而實際沒有患病的患者來說,他們會承擔不必要的壓力和風險,因為他們需支付醫療費用,自己與家人也會承擔一部分心理壓力。其次,如果醫院診斷他們患傳染病,并將他們與其他傳染病患者一起隔離,則本來不患病的人有可能被感染。另外,若醫院的醫療資源緊缺,再分配給不患病的人會很浪費。
(2)對于診斷出無病而實際有病的患者來說,如果他們得不到及時的醫治,患者會有生命安全的問題。而如果他們不被有效隔離,他們會傳染給更多人,加重更多人的負擔和風險。
因此,對于傳染病來說,降低誤診率非常重要。
改善方法:多次診斷來降低誤診率。由于診斷出患病的人數中,不患病的比率很大,且遠大于診斷出不患病的人數中患病的比率,第一次被診斷患病的人進行第二次單獨診斷。
理論推導:設Bi為第i 次診斷患病,i=1,2。則兩次診斷都是患病的概率

此時,如果兩次診斷都是患病,但實際上被檢測者未患病的概率為

利用2.5 中數據驗證的該市患病率p=0.449%,現在醫院的檢測技術和設備很先進了,不妨取α=0.95,β=0.99,此時被檢測者的患病率為P(B)=1.42%
而兩次診斷都是患病但被檢測者未患病的概率為

由此可見,第一次被檢測出患病的群體中,通過二次檢測使得被誤診患病的比率,從70%下降到2.398%,降低幅度達到96.57%。對于罕見病例,第一次檢測出患病的群體來說,要及時進行第二次復查,可以大大被誤診率。
對于第一次檢測結果為患病,第二次檢測結果為不患病的人中,
(1)實際不患病的概率為

(2)實際患病的概率為

因此,對于第一次診斷結果為患病,第二次診斷結果為不患病的患者,實際情況為不患病的概率更大,所以對于這些人,建議醫院的最終診斷為不患病。
這個方法針對傳播率低的疾病。因為第二次診斷時,原本診斷患病而實際患病的人有可能會被誤診,如果這些人不被有效隔離,病毒會擴散傳染。對于傳播率高的疾病建議第二次診斷第一次沒有患病的人,但是這種方法耗費的時間和經濟成本很大。所以具體醫院采用的方法應結合該醫院的誤診率、患病率和醫療能力來綜合考量。
在有關機構研究新冠疫苗時,本節考慮計算疫苗有效性方案,來避免藥物在試驗時出現藥物有效而試驗否定、藥物完全無效而試驗通過這兩種情況。
疫苗進行臨床試驗前,相關部門會設定一個通過率。如果治愈率超過這個通過率,則判定疫苗為有效;如果最終治愈率不超過這個通過率,則判定疫苗無效。但是,在判定藥物是否有效時,存在非藥物作用治愈率,即疾病的自然痊愈率和藥物的安慰劑作用。該試驗目的在于減小非藥物作用治愈率對判斷藥物本身治療能力的影響。但是此類試驗有可能出現藥物有效而試驗否定,或者藥物完全無效而試驗通過這兩種情況。本方案將測算兩種導致試驗失敗的情況出現的可能性。
設自然痊愈率p1,疫苗通過率p2(p1<p2)。記試驗總人數為n。有效治愈人數為X。
(1)當疫苗有效時

(2)當疫苗完全無效時

另一方面,如果有k∈N 個實驗者被治愈(k≥np2),則會判定藥物有效的概率為

同理,如果有m∈N 個實驗者被治愈(m≤np1),則判定藥物無效的概率為

本文首先設計了出行記錄敏感問題調查設計方案,來調查測算謊報出行記錄的人數比例。通過全概率公式計算出來估計結果,并通過分析比較調整了方案中的不同選項占比。由于結果表示在未診斷患病者中仍存在一部分潛在感染者,所以全民檢測是有必要的。其次,因為在全民檢測時的醫療設備的數量和效率有限等因素,設計了提高群體檢測效率方案,即通過混合樣本檢測來加快檢測效率。再次,利用統計概率,計算比較了不同方案的平均檢測效率,并得到了在不同患病率的情況的最優檢測方案。盡管檢測效率可以提升,醫院仍然存在一定的誤診率,于是設計了降低醫院誤診率方案,即二次檢測已確診患病的患者,并通過全概率公式和貝葉斯公式來分別測算了一次檢測和二次檢測的誤診率。最后,由于對于本身患病卻診斷不患病的誤診率難以降低,在未被隔離人群中不可避免的會存在患病者,為了控制疫情的傳播,疫苗的研發非常重要,最后設計了計算疫苗有效性方案,并測算了兩種導致試驗失敗的情況出現的可能性。希望以上四種模型可以幫助提高地方疫情防范工作的效率,以降低病毒傳播率。