徐黎 李凱 過哲 王超 程曉光
骨關節炎是臨床十分多見的一類疾病,在全球范圍內形成了巨大的社會和經濟負擔,估計60歲以上人群中13%患有膝關節骨關節炎并有癥狀[1]。目前,臨床研究主要集中于膝關節骨關節炎,原因在于膝關節骨關節炎發病率和致殘率均較高,而且膝關節軟骨厚度最大、易于進行X線平片和磁共振成像(magnetic resonance imaging,MRI)評估。傳統X線平片是評估膝關節骨關節炎最簡單經濟的影像學方法,能夠直接觀察骨結構特征,包括邊緣骨贅、軟骨下硬化和軟骨下囊腫,并能通過關節間隙寬度間接評估軟骨厚度和半月板完整性。作為斷層成像技術,MRI可直接觀察關節軟骨、滑膜、半月板及其他關節內結構。更重要的是,運用軟骨體積定量評估和全關節半定量評估等方法,MRI技術能夠更敏感更可靠地評價各關節特征,這一優勢對于多中心或縱向臨床研究是其他影像學方法無法替代的。MRI半定量評分將關節視為一個整體器官進行評估,除關節軟骨形態外,還可對其他重要的關節結構及其病變進行評價,如半月板、骨贅、軟骨下骨磨損、軟骨下骨髓水腫及囊腫、交叉韌帶及側副韌帶、滑膜、關節積液和其他關節旁結構。
目前, 4個MRI半定量評分系統可用于膝關節炎評估,分別是全關節磁共振成像評分(Whole-Organ Magnetic Resonance Imaging Score,WORMS),膝關節骨關節炎評分系統(Knee Osteoarthritis Scoring System,KOSS),Boston Leeds膝關節骨關節炎評分(Boston Leeds Osteoarthritis Knee Score,BLOKS) 和磁共振成像膝關節骨關節炎評分(MRI Osteoarthritis Knee Score,MOAKS)[2-5]。與KOSS、BLOKS和MOAKS相比,WORMS評分系統涵蓋關節內及關節旁結構最全面、關節分區最多、評分分級最細,是目前臨床研究項目應用最廣泛的膝關節炎MRI半定量評估體系。MRI半定量評分系統是基于傳統的MR成像技術,對影響膝關節功能、參與骨關節炎病生理過程的多個關節內結構進行半定量人工評分,其結果的可靠性不僅受圖像質量的影響,更與評分者經驗密切相關[6]。在進行MRI半定量評分之前,閱片者必須經過系統培訓并通過考核[7]。作為臨床研究運用最廣泛的評分系統,WORMS關節內分區相對復雜、對關節軟骨及骨贅分級細,其評分結果的可靠性是否受到評分者臨床閱片經驗的影響是值得探討的問題。目前大部分研究僅限于探討MRI半定量評分系統的觀察者內和觀察者間一致性,對觀察者閱片經驗的差異對閱片效果的影響報道較少。
本研究旨在評價具備不同閱片經驗的醫學影像科醫生經過統一的WORMS評分系統標準化培訓后對不同嚴重程度膝關節骨關節炎樣本進行WORMS半定量評分的觀察者間差異,分析WORMS評分系統對膝關節各結構特征評價的觀察者間一致性及觀察者臨床閱片經驗對評分結果的影響。
1.病例納入與排除標準:(1)病例納入標準:①年齡≥40歲;②經X線檢查確定膝關節Kellgren-Lawrence評分為1~3級;③膝關節疼痛視覺模擬評分(visual analogue scale,VAS)≥4分。(2)病例排除標準:①合并痛風或類風濕關節炎等其他風濕免疫及代謝性疾病;②合并嚴重心、肝、腎等重要器官病變;③合并化膿性或非特異性感染性關節炎;④合并創傷性或絨毛結節色素沉著性膝關節滑膜炎等病變;⑤存在晚期關節畸形或功能殘障與嚴重骨質疏松;⑥妊娠、準備妊娠或哺乳期婦女;⑦有既往膝關節手術史。
2.一般臨床資料:利用“祛風止痛膠囊對膝骨關節炎的臨床作用及機制研究”臨床研究項目(獲得四川大學華西醫院倫理委員會批準;所有受試對象簽署知情同意書)數據庫,隨機抽取2018年5至10月進行的單側膝關節MRI 10例,其中男4例,女6例,年齡為53~69歲。
3.設備:3T磁振掃描儀(Ingenia,Philips Healthcare,荷蘭),8通道膝關節線圈。
1.膝關節MRI掃描:對所有受試者采用以下掃描序列:①軸位T1加權像(T1 weight imaging,T1W1)快速自旋回波(turbo spin echo,TSE)[重復時間(repetition time,TR)=600~650 ms,回波時間(echo time,TE)=12 ms,頻率編碼(requency encoding,FE)];②冠狀位T1WI TSE (TR=650 ms,TE=9 ms,FE);③矢狀位T1WI TSE(TR=500 ms,TE=12 ms,FE);④軸位質子密度脂肪抑制(protein density with fat suppression, PD FS)(TR=3 110 ms,TE=43 ms,FE);⑤冠狀位PD FS(TR=2 390 ms,TE=36 ms,FE);⑥矢狀位PD FS(TR=2 400 ms,TE=32 ms,FE)。軸位序列視野(field of view,FOV) =160 mm×160 mm,體素尺寸(voxel size)=0.55 mm×0.68 mm×3.00 mm。冠狀位及矢狀位序列FOV=160 mm×160 mm,voxel size=0.42 mm×0.50 mm×3.00 mm。所有序列層厚(slice thickness)=4.0 mm,層間隔(interslice gap)=0.4 mm。
2.膝關節MRI評估:評估人員包括3位放射科醫生,分別為副主任醫師1名(觀察者1,具備波士頓大學醫學院關節炎MRI定量評估實驗室認證資質),高年資主治醫師1名(觀察者2,具備10年臨床閱片經驗),低年資主治醫師1名(觀察者3,具備5年臨床閱片經驗)。在讀片開始前,由觀察者1按照標準培訓流程對觀察者2和觀察者3進行膝關節WORMS評分系統培訓,觀察者內及觀察者間一致性各項評分指標達到較好(kappa值>0.6)時為合格。培訓合格后從研究項目數據庫中隨機抽取10例樣本,由3名讀片者分別進行WORMS評分,并進行觀察者間一致性評價。對3位讀片者屏蔽評分樣本的臨床信息。
3.WORMS評分標準:WORMS評分系統將膝關節分為15個區域,分別為髕骨2區(內側、外側)、股骨6區(內前、內中、內后、外前、外中、外后)、脛骨7區(內前、內中、內后、外前、外中、外后、髁間棘)[2]。對除脛骨髁間棘外的14個區進行以下3方面評分:①關節軟骨形態及信號[0~6分:0分=正常;1分=厚度正常、有高信號,2分=小面積(最大徑<1 cm)部分層厚缺損,2.5分=小面積(最大徑<1 cm)全層厚缺損,3分=多灶性部分層厚缺損(2級)或大面積(最大徑>1 cm但區域面積<75%總面積)部分層厚缺損,4分=彌漫性部分層厚缺損(區域面積≥75%總面積),5分=多灶性全層厚缺損(2.5級)或大面積全層厚缺損(最大徑>1 cm但區域面積<75%總面積),6分=彌漫性全層厚缺損(區域面積≥75%總面積)];②關節面下骨磨損(0~3分:0分=正常,1分=輕度,2分=中度,3分=重度);③邊緣骨贅(0~7分:0分=無,1分=可疑,2分=小,3分=小到中等,4分=中等,5分=中到大,6分=大,7分=巨大)[2]。對全部15個關節分區進行軟骨下骨髓水腫和囊腫評分(0~3分:0分=正常;1分=區域面積<25%總面積;2分=區域面積為25%~50%總面積;3分=區域面積>50%總面積)。其他結構評分標準分別為:韌帶0~1分(0分=完整,1分=撕裂);半月板0~4分(0分=完整,1分=小的放射狀或鳥嘴樣撕裂,2分=無移位的撕裂或術后修復改變,3分=移位性撕裂或部分切除,4分=完全磨損或全部切除);滑膜增厚及關節積液0~3分(0分=正常,1分=積液體積<33%關節腔體積,2分=積液體積為33%~66%關節腔體積,3分=積液體積>66%關節腔體積);關節腔游離體0~3分(0分=無,1分=1個游離體,2分=2個游離體,3分=3個以上游離體);滑囊囊腫或積液0~3分(0分=無,有囊腫或積液則依據囊腫或積液體積大小評為1~3分)[2]。
4.統計學處理:使用SPSS 22.0(IBM SPSS statistics Inc,美國)軟件對數據進行統計學分析。分別對觀察者1與觀察者2和觀察者3進行觀察者間一致性評價。觀察者間一致性通過kappa值計算獲得,kappa值≥0.75表示兩者一致性高,0.75>kappa值≥0.40表示一致性一般,kappa值<0.40表示一致性較差。P< 0.05為差異有統計學意義。
每位評分者獲得膝關節骨關節炎征象評分數量如下:關節軟骨評分140個(14區×10例)、軟骨下骨髓水腫及囊腫評分150個(15區×10例)、骨磨損評分140個(14區×10例)、骨贅評分140個(14區×10例)、半月板評分60個(6區×10例)、韌帶評分40個(4個×10例)、關節積液及滑膜炎評分10個、關節內游離體評分10個、滑囊炎評分10個。
觀察者1對各征象評分結果見表1。140個關節軟骨評分中0分75個(53.6%),6分9個(6.4%),1~5分者數量分布較均勻(7~20個,5%~14.3%);150個軟骨下骨髓水腫及軟骨下囊腫評分中0分分別為111個(74%)和127個(84.7%),骨髓水腫3分5個(3.3%),囊腫最高評分為2分(6個,4%);140個骨磨損評分中0分101個(72.1%),最高評分為2分(6個,4.3%);140個骨贅評分中0分僅12個(8.6%),2~3分占比例最高(24個,17.1%),7分7個(5%);60個半月板評分中,0分46個(76.7%),2分、3分和4分分別為7個(11.7%)、4個(6.7%)和2個(3.3%);40個韌帶評分中,1分僅1個(2.5%);10例樣本均出現關節積液及滑膜炎,其中8例(80%)評分為1分,2例(20%)評分為2分;5例(50%)樣本出現關節內游離體,其中1例(10%)評分為2分,4例(40%)評分為3分;10例樣本中5例(50%)無關節周圍滑囊炎,其余5例(50%)滑囊炎評分為1分。

表1 觀察者1膝關節骨關節炎各征象評分結果分布[n(%)]
各征象評分觀察者間一致性kappa值見表2。結果顯示,軟骨下骨髓水腫、軟骨下囊腫、骨磨損、關節內游離體的WORMS評分在不同觀察者之間有很高的一致性(kappa值≥0.75),關節軟骨、骨贅、半月板、關節積液及滑膜炎、滑囊炎的WORMS評分在不同觀察者之間的一致性稍低,但全部kappa值≥0.6。由于韌帶評分為0和1分,無法計算kappa值,40個韌帶評分中的39個在3位觀察者間一致。高年資醫生對骨磨損和關節內游離體的評分一致性比低年資醫生略高;而對關節軟骨、軟骨下骨髓水腫及囊腫、骨贅、半月板、滑囊炎,低年資醫生評分一致性高于高年資醫生。

表2 膝關節骨關節炎WORMS評分系統觀察者間一致性評估kappa值(95%CI,P值)
自2004年WORMS評分系統發表以來,KOSS、BLOKS和MOAKS等多個膝關節全器官MRI半定量評分系統相繼出現,并被大量應用于關節炎的橫向和縱向臨床研究中[3-5]。在骨關節炎的發生和發展過程中,雖然關節軟骨的狀態是反映疾病嚴重程度最為穩定和重要的指標,但除關節軟骨外其他關節內結構與疾病的進展、病生理過程、相關臨床癥狀和預后之間的密切聯系也越來越受到重視[8-10]。WORMS評分系統是以關節內分區而非病灶為單位進行評分,對關節軟骨、軟骨下骨髓水腫及囊腫征象也進行評分[7]。同時WORMS也是唯一將軟骨下骨磨損納入評分的系統。
本研究結果顯示,軟骨下骨髓病變(軟骨下骨髓水腫和軟骨下囊腫)、骨磨損和關節內游離體的WORMS評分觀察者間一致性高,而關節軟骨、骨贅、半月板、關節積液和滑膜炎以及滑囊炎的WORMS評分觀察者間一致性稍低。通過接受標準化培訓并通過考核,擁有不同臨床閱片經驗的放射科醫生均能夠掌握WORMS評分系統。臨床閱片經驗對評分效果未造成顯著影響。
在WORMS評分系統中,關節軟骨和骨贅的評分級別分別為0~6分和0~7分,不同級別之間差異小,不同閱片者對于同一級別征象的理解和判斷出現差異的可能性更高,因此對關節軟骨和骨贅評分的觀察者間一致性較低是必然的。國外文獻報道膝關節軟骨形態的半定量MRI評分的觀察者間一致性相關系數和kappa值分別為0.77~0.94和0.44~0.88,與本研究結果(kappa值=0.725和0.881)一致[2-4,11-17]。文獻報道中骨贅評分觀察者間一致性相關性系數和kappa值為0.66~1.00和0.735~0.916,而本研究中骨贅評分的kappa值分別為0.605和0.704,與文獻報道結果接近[2-4,13-14,16-17]。
WORMS系統中的半月板評分較為復雜,需要對前角、體部及后角分別進行評分(0~4分),其中2分(無移位的撕裂或術后修復改變)和3分(移位性撕裂或部分切除)區分較為困難,并且需要將各分區評分加權轉化為內、外側半月板的總分(0~6分)[2]。文獻報道,半月板MRI半定量評分觀察者間一致性相關系數和kappa值分別為0.82~1.00和0.63~0.84,與本研究結果(0.672和0.866)無差異[2-4,12,14,16-18]。
關節積液及滑膜炎、滑囊炎的WORMS評分分值雖然為0~3分,但是評分標準以關節腔體積和滑囊體積大小為依據,無客觀數值標準或示意圖顯示,因此評分易受主觀因素影響。文獻報道的關節積液和滑膜炎觀察者間一致性kappa值為0.892,略高于本研究結果(kappa值=0.737),可能與評分者閱片經驗差異有關[16]。
軟骨下骨髓病變(軟骨下骨髓水腫和軟骨下囊腫)的WORMS評分分值為0~3分,以病灶面積占關節面面積比例為標準,評分標準客觀且不同級別之間差異較明確,因此不同閱片者之間評分差異較小。國外文獻報道軟骨下骨髓病變觀察者間一致性相關系數和kappa值分別為0.54~1.00和0.79~0.97,與本研究結果(kappa值=0.793~0.921)一致[2-4,12-14]。
WORMS評估系統對膝關節骨關節炎的評價效果同樣受到MRI圖像質量的影響。標準化的掃描方案是獲得準確評分結果的基礎。掃描要求在1.5T以上MR掃描儀上完成,通過3個角度(軸位、矢狀位、冠狀位)對液體敏感的FSE FS序列能夠準確評估關節軟骨、軟骨下骨髓水腫、囊腫、滑膜炎及關節積液、韌帶以及半月板等結構,通過矢狀位及冠狀位T1WI SE序列能夠對邊緣骨贅、關節內游離體和骨磨損進行準確評估[6]。
本研究的主要不足在于樣本數量有限,未計算各膝關節骨關節炎評分征象的總分以及評價總分的觀察者間一致性。雖然多數膝關節臨床研究采用的觀察指標是膝關節炎各WORMS評分征象的總分,但各征象總分是由該征象在各個關節分區內的評分加權獲得,因此本研究中各關節分區內征象評分結果能夠更直接反映WORMS評分系統的觀察者間一致性。本研究的另一個不足在于3位閱片者對骨關節系統MRI均有較豐富的閱片經驗,因此該結果的代表性有一定局限性。
總之,擁有不同臨床閱片經驗的閱片者經過標準化培訓和測試后均能掌握WORMS評分方法,其中軟骨下骨髓病變、骨磨損和關節內游離體的觀察者間一致性很高,而臨床閱片經驗不會顯著提高評分效果。
志謝感謝山東步長制藥有限公司為本研究提供的影像學圖像資料。
利益沖突聲明:本研究及本文內容不存在與醫療工作職責相沖突的任何經濟利益或非經濟利益以及任何直接或間接的義務和責任。