賀成誠 汪海濤 姜 瑛 陳 星
(昆明理工大學信息工程與自動化學院 云南 昆明 650500)
學習排序作為計算機領域內相對較新的研究領域,在我國發展迅速。在包括信息檢索、數據挖掘、自然語言處理及語音識別[1]等在內的多個領域內均發揮著重要作用。在學習排序的相關問題中,一個實例是一組對象而標簽是應用于對象的排序列表。特別是學習排序旨在從訓練實例和排名標簽構建排名功能。通常每個標簽都假定為客觀且可靠的,可用于其他常規監督設置,例如分類。因此標簽排序的問題可以被認為是傳統分類的一般化,將完整的標簽排序作為預測而不僅僅是一個類別的標簽。
現有的標簽排序方法主要是將原始學習問題轉化為一個或多個二元分類問題的歸約技術。例如,約束分類,即將原始問題轉化為高維擴展空間中的單一二元分類問題,并利用該空間學習的分類器構件標簽排序模型[2]。此外,也存在通過將原始問題拆解成多個小問題,利用每對標簽學習一個二元模型并最終合并所有預測結果的方法來解決傳統的二元分類問題[3]。這種縮減技術在本文的實驗研究中具有較好表現。值得注意的是,它使標簽排序問題適用于(二元)分類方法和現有算法在這一領域的大量庫,將標簽排序問題簡化為二元分類的簡單問題能更好地解決實驗問題。但是,將多個二元模型預測結果還原到原有問題的還原技術也存在一些問題。首先,“排序值”映射的理論假設可能不適合作為適當的學習偏見,并且可能不容易轉化為分類問題的相應假設。其次,二元問題最小化分類錯誤或相關損失函數通常并不清楚。在排序上等價于根據期望損失函數最大化標簽排序模型的(預期)性能[4]。本文針對以上兩個問題,采用所有排序類別的參數化(條件)概率分布進行標簽排序的方法進行代替,從而將學習問題轉化為最大似然估計的問題(或者作為貝葉斯推理的問題)進行研究。
1.3.1 血壓水平 采用血壓計測量治療前后兩組妊娠期高血壓疾病患者的收縮壓(SBP)和舒張壓(DBP)。
Cheng W等[5]提出使用Mallows模型并開發了一種基于實例的(最近鄰居)學習算法來以局部方式估計該模型。Cheng W等[6]提出了將Plackett-Luce(P-L)模型用于標簽排序的方法,該模型更傾向于從可能不完整的標簽排名中進行學習。
該項研究結合了兩個經典的模型,即Plackett-Luce(P-L)模型和廣義線性模型[7],構建了一種新的學習排序框架。在這個排名模型中,需要學習排名函數和真實值排名標簽。并且在算法中,使用最大化似然估計方法,以迭代的方式推斷出最優的排序預測,以及要學習的排序功能的參數。整體流程如圖1所示。

圖1 整體流程圖
本部分對廣義線性模型和P-L模型的定義及特點進行了介紹,并為后續新模型的提出作出說明。
廣義線性模型是典型的線性模型的推廣。它通常用于分析事物之間的統計關系,并側重于考察變量之間的數量變化規律。而在實際應用中,廣義線性模型可以用來解決多類別的分類問題。比如在分類和回歸問題中,我們通過廣義線性模型來預測兩個相關變量之間的數量關系等。
2015年6~8月,正值藥品稽查“農忙時節”,因丈夫被公派出國留學,黃梅不得不一邊工作,一邊獨自帶著1歲的女兒擔起家庭重任。在此期間,她參與了“幸福傷風咳嗽”假藥案、“小兒健胃寶”假藥案、“公牛牌超速效鼻炎靈”假藥案、“板藍根沖劑”假藥案等系列假藥案的查處。案件數量多、案情復雜,加班成為常態,她常常不得不把年幼的女兒托付給自己年邁的母親。
廣義線性模型三個前提假設分別如下:
(1) (y|x;θ)是一個以θ為參數的指數分布。
(2) 給定x的情況下的目標函數為h(x)=E[T(y)|x]??紤]到大多數情況下T(y)=y,即目標函數可以表示為h(x)=E[y|x]。
(3) 假設自然參數η和x為線性關系,即假設:η=θTx。

2)比較兩種函數的運算結果,發現conv()輸出長度為 6 的序列[3,5,11,17,8,16],filter()輸出長度為 4 的序列[3,5,11,17],但兩個序列的前 4 個元素相同。
(1)
式(1)為在y=i時的概率分布。由前提條件式(2)可知在這個廣義線性模型中,目標函數為:
hθ(x)=E[T(y)|x;θ]
(2)
通過在式(2)的基礎上構造分類模型并利用相關數據來求解目標函數hθ(x),并結合參數擬合與梯度下降的方法求解原模型。
P-L模型是一種典型的基于分數的模型,它通常用于列表學習排序中。其中P-L模型中的假設條件是式(3)中的評分向量,而不是等級和固定參數。P-L模型由分數向量v=(v1,v2,…,vM)來參數化,其中vi(>0)與索引i相關聯,計算給定一個分數向量的排名π的概率。
(3)
式中:(T(y))i表示T(y)的第i個元素。

(4)
顯然,與vb相比,va越大,選擇a的概率就越高。同樣,式(3)中的參數vi與參數vj,j不等于i且相比越大,標簽yi出現在最高等級上的概率越高。P-L模型可以用一個花瓶模型來直觀解釋:如果vi對應于充滿標記球的花瓶中的第i個標簽的相對頻率,則p(π|v)是通過隨機從花瓶中依次抽出球,并將第k個試驗中的標簽繪制在位置k上(除非之前已經選擇了標簽,在這種情況下,試驗被取消),從而產生排名π。
(2)樹立人本理念。在新的經濟環境中,不能忽視經濟一體化以及全球化的趨勢和特點,不能故步自封、因循守舊,應該結合房錢的網絡信息技術、科學財務管理工具及方法等,推行科學、高校、人性化的財務管理理念,重視對財務工作人員的綜合素質培養。
The purpose/aim/objective of this study/paper/research was/is to…
對于P-L模型,可以用式(3)驗證不完全排名yπx(1)?xyπx(2)?…?xyπx(k)(yπx(i)?xyπx(j)表示相較于yπx(j)實例x更偏向于yπx(i))。即在完全相同的形式表達下,因子的數量k(觀察到的標記的數量)是影響其概率分布的唯一要素。如下式給出:
(5)

考慮到實際生活中存在較多種類的標簽,因此本文首先利用廣義線性模型對多類別標簽的分類問題進行分析。

(6)
該模型是布拉德利特里模型的一種推廣,是用于替代成對比較的模型,它指定了“a優于b”的概率(a?b表示a先于b)的概率,公式如下:
為了表示方便,我們用符號1{·}表示判斷,{}中的表達式為真時輸出1,為假時輸出0。于是有(T(y))i=1{y}(i),它表示只有當y=i時(T(y))i才不會為零。另外,由于φi表示第i個類別的概率,則有E[(T(y))i]=p(y=i)=φi。
由于此分布屬于指數分布族,故設該分布的標準參數為η,ηi表示第i維的標準參數,定義為:
到2016年,全市一級河道Ⅴ類以上水體達到60%,二級河道Ⅴ類以上水體達到50%,顯著提升水生態環境質量。2014年清水河道行動計劃實施七大類1311項工程。截至6月27日,完工433項,完工率33.8%,開工在建388項。
(7)
根據式(7),可得到:
(8)
設θ≥0是擴展參數,且(y|x;θ)屬于指數分布族,根據廣義線性模型的第三個前提假設條件η=θTx,由式(8)可得:
定理 2.1[8] 令→是[0,1]上的正則蘊涵算子。若→滿足:對任意的a,[0,1], a+a→b≤1+b,則
(9)
最后利用梯度下降法來求出使似然函數最大的θ值。
(10)
之后使用最大似然的方法來學習θ,似然函數為:
(11)
根據目標函數式(2)求解目標函數,構造出分類模型:
(12)
令式(12)等于0,求出θ的最優解。最后利用此最優θ求出此標簽的最佳分類。

(13)
v的最大似然估計由最大化該概率的參數給出,或者等效為對數似然函數。MM算法[8]作為一種迭代算法,通過每次迭代中最大化一個函數直至將原始函數進行求解的方式可以很好地用于求解:
(14)
假設φ上的概率分布p(·|x)至少近似地在查詢x。進一步假設排名πi是通過P-L模型式(5)彼此獨立產生的,則觀察排名π={π1,π2,…,πK)}在給定參數v=(v1,v2,…,vM)的情況下變為:
給定最大化估計v*,可以從φ上的分布p(·|v*)推導與x關聯的排名的預測。由下式確定具有最高后驗概率的排序:
(15)
式中:τ是一個Kendall的常用度量,定義為:
vπ*(i)≥vπ*(j)
(16)
對于所有的1≤i (17) 強生公司從全部召回的3500萬瓶泰諾速效膠囊中,發現8瓶含有氰化物。這8瓶膠囊均來自于芝加哥地區。警方推斷兇手是在藥店買了膠囊后,把膠囊拆開混入毒物后重新裝好,再偷偷放回貨架的。 (18) 式中:C(π,σ)表示π和σ中一致對的數量;D(π,σ)表示π和σ中不一致對的數量。 本文用于在各類標簽中預測最優的標簽排序算法步驟如算法1所示。與簡單地根據排名產生預測的其他方法(包括大多數簡化技術)相比,本文的排序模型的概率方法允許通過不同類型的統計信息來補充預測,例如預測的可靠性等,并且能解決多分類標簽的排序問題。此外,分布p(·|v*)支持包括可靠的排序集覆蓋真實的高概率問題在內的多種類型的廣義預測。 算法1各類最優預測標簽排序算法步驟 輸入:θ 廣州中海達衛星導航技術股份有限公司……………………………………… (2、4、6、10、12、16、18、22) 輸出:v*,π* 步驟: 1. 根據廣義線性模型求出的標簽最佳分類θ獲得每個類的標簽排序集π。 2. 為每個π選擇標簽集中的最大元素v*。 標準化實驗教學課程大綱應包括課程信息、課程目的、教學要求、教學內容(含課外教學)、考核說明及課程教學評價、課程持續改進、教學參考書等。目前,很多高校采用優、良、中、及格和不及格5個等級評價實驗教學成績,缺乏相應的教學評價量化標準。因此,教學大綱的標準化不因開課學校和開課教師而發生變化,將有效地規范課程教學,這樣更有利于知識的精準傳授。標準化實驗教學大綱的構建可以借鑒針對專業核心課程大綱的標準化建設[7],其中實驗課程的教學要求和課程評價是標準化實驗教學大綱中十分重要的內容。筆者以湖北大學制藥工程專業藥物化學實驗教學大綱中的考核說明及課程教學評價為例說明。 3. 使用最大似然估計更新π以得到最優預測排序π*。 本文采用UCI存儲庫和Statlog集合的分類數據集及回歸數據集,并以兩種不同的方式將它們轉換為標簽排名數據:(1) 本文首先利用廣義線性模型對分類數據進行訓練,之后將所得每個示例數據集中存在的所有標簽相對于預測類別概率進行排序,其中在關系情況,具有較低索引的標簽排在第一;(2) 對于回歸數據,本文首先將預測變量組中數據屬性予以刪除,并將每個屬性均視為一個標簽,之后本文將屬性進行標準化,并按大小順序進行排序以獲得排名。表1給出了數據集及其屬性的總結。 表1 數據集及其屬性 我們將使用基于實例的廣義線性模型和P-L模型結合的方法(model1)和廣義線性模型方法(model2)、基于實例的Mallows(model3)模型方法進行標簽排序的實例評估。 為了保證實驗公平,本文在歸一化屬性之后使用歐幾里德距離[9]作為實例空間上的P-L模型和Mallows模型的距離度量。通過訓練集上的交叉驗證選擇鄰域大小K∈{5,10,15,20}。 本項目隨機選擇多發、單發內膜下、肌層及漿膜下子宮肌瘤病例150例,同時取對應的子宮肌層組織作為對照,所有標本均采用4%甲醛固定,石蠟包埋、HE染色。采用免疫組化法(SP),切片厚 4 μm,切白片 3張,高溫修復或酶消化,4℃冰箱過夜,以PBS緩沖液代替第一抗體作為陰性對照,已知的陽性組織作為陽性對照。免疫組化試劑ER、PR、WT-1及SP試劑盒購自邁新公司,操作按試劑盒說明書要求進行。 本文利用Kendall的tau系數的10次交叉驗證,并重復5次實驗后得出實驗結果。同時,為了模擬不完整的觀察結果,本文對數據進行了如下修改:對于排名中的每個標簽,有偏見的硬幣被翻轉以決定是否保留或刪除;其中,刪除的概率由參數p∈[0,1]指定。因此,平均丟失的標簽數為p×100%。 看到過“鯤龍”AG-600本尊的人,往往都會產生一種“詭異”的感覺。那是因為相對于一般飛機的流線型機身來說,它的飛機船身采用了大長寬比的設計,讓人感覺很不協調。實際上,不論是哪一種能夠在水面起飛的飛機,都會面臨在水面滑行過程中出現的不可控制的“海豚運動”、彈跳、搖擺等情況?!蚌H龍”AG-600采用大長寬比設計的目的,就是為了最大限度地減少降落時水面載荷對船身的沖擊,以及提高在水面滑行時飛機的縱向穩定性。 實驗結果總結如表2、表3所示。本文按照Demsar.J.于2006年推薦的兩步程序[10]進行結果分析。首先對結果進行對零假設的Friedman檢驗[11],即判斷所有學習者都有相同的表現。當該假設被拒絕時采用Nemenyi測試[11]以成對的方式比較學習者。這兩項測試均基于平均等級(對于每個問題,方法按性能降序排列,并且由此獲得的等級針對問題進行平均),如表2、表3中的最后一行所示。從表2中可以看出Model1和Model3在完全標簽的情況下優于Model2,而Friedman測試在30%缺失標簽的情況下,如表3所示Model1與Model2沒有顯著差異,但Model1明顯優于Model3,就總體Model1相比Model2和Model3提高了約5%。 表2 根據Kendall的tau(括號中的等級)完整標簽中排序方法的表現 表3 根據Kendall的tau(括號中的等級)缺失30%標簽中排序方法的表現 通過對表2和表3的數據進行分析,本文得到了以下結論: 首先根據實驗結果發現,在丟失標簽信息的情況下,我們提出的新方法比Mallows模型方法準確性提升了約5%。這與我們的預測非常吻合,即在同類標簽的排序中P-L模型更適合從不完整的排名數據中學習。 城市在其發展過程中逐漸形成居住區、商業區、工業區等不同功能區[1]。識別城市不同功能區并研究其空間分布特征對研究城市的未來發展、城市的合理布局和城市建設的綜合部署有著重要的意義[2,3]。傳統的城市功能區識別主要是基于專家評判、調查統計等以經驗為主的方法,主觀性較強。也有一些學者通過遙感技術輔助實現城市功能區劃,但數據獲取和處理的成本較高,時效性差[4]。隨著信息化時代的到來,可供城市規劃相關研究所應用的數據不斷涌現,包括傳統數據、開放數據等各類大數據資源。在這些數據不斷豐富的背景下,基于城市生活數據的功能區分析也變得更加快速、有效[5]。 其次,將廣義線性模型和P-L模型結合的方法在完整標簽和丟失標簽信息的情況下都比單一的廣義線性模型表現更好,其中在標簽完整的情況下,準確性提升了約5%。 最后,實驗結果也證明廣義線性模型和P-L模型具有一定的互補性。就像傳統分類的情況一樣,基于實例的方法對于需要復雜決策邊界的問題是有利的,因為線性方法的強偏差妨礙了它們實現良好的分離。另一方面,如果線性假設是(至少近似)有效的,那么可以用更少的數據來學習更好的模型。相應地,基于實例的學習者對于訓練數據量更加敏感。一些有利于這一假設的證據的確是通過學習曲線提供的,該曲線將性能描繪為遺漏標簽信息的一部分的函數。雖然線性方法的學習曲線通常相當平坦,呈現出一種飽和效應,但對于基于實例的方法而言,它們更陡峭。這表明,即使線性方法由于缺乏靈活性而不再能夠利用和適應額外數據,附加標簽信息仍然對這些方法有益。玻璃和外殼數據的典型例子如圖2所示。 圖2 排名表現 本文提出了一種將廣義線性模型和P-L模型結合作為底層數據生成過程的新模型方法,并利用實驗對比了其與傳統的廣義線性模型方法及基于實例的Mallows模型的優劣,實驗結果顯示本文構建的新模型方法在學習排序問題研究方面具有一定的優越性。尤其是在不完全的訓練數據情況下,新的模型方法在計算與性能上均有更好的表現。此外,本實驗也證明了廣義線性模型在處理不同類別標簽分類上對P-L模型也提供了一定的補充。 同時,本文的概率模型1采用最大似然估計的方法作為標準擬合模型的補充,減少了模型估計中存在的偏差,一定程度上提高了模型的準確度,更符合模型的前提假設。此外,通過最大似然估計的估計方法也允許實驗者通過添加不同類型的統計信息來補充實驗預測,使實驗更加精準可靠。 雖然本文提出的新模型在一定程度上為研究學習排序提供了新的研究思路與方法,但仍存在一些問題需要解決。例如本文提出的解決多分類標簽排序的方法建立在第一部分廣義線性模型對標簽進行了正確分類的基礎上,如果廣義線性模型確定的分類結果存在偏差,則整個模型方法的可靠性與精準性均會受到一定程度的影響。針對該問題,擬將本文提出的模型方法進行更深層次地合并,通過類似局部線性回歸等方法,放寬原模型中較為嚴格的假設,從而保證實驗的準確與可靠。3 實 驗
3.1 數據準備

3.2 實驗設計
3.3 實驗結果及分析



4 結 語