汪 敏,馮婷婷,閔 帆,唐洪明,閆建平,廖紀佳
(1.西南石油大學電氣信息學院,成都 610500;2.西南石油大學計算機科學學院,成都 610500;3.西南石油大學地球科學與技術學院,成都 610500)
隨著人類對能源的需求越來越大,非常規油氣資源的開采越來越受到人們的關注。頁巖氣[1-2]作為非常規油氣資源,具有含氣面積廣泛、資源量大、生產壽命長、產量穩定等特點,吸引了越來越多的研究者投入研究。中國已經成為世界上第三個實現頁巖氣工業化生產的國家。由于中國頁巖氣地質條件復雜、頁巖氣勘探開發關鍵技術與裝備有限,導致頁巖氣開發成本較高。中國目前的頁巖氣勘探事業尚處于發展初期,如何快速低成本地判斷出頁巖氣資源“甜點區”,實現經濟開采具有重大的意義。
頁巖氣儲層品質[3]受到地質因素、工程因素等多種因素的影響,比如,脆性礦物組成、泊松比、楊氏模量、吸附氣含量等參數。眾多因素產生的生產數據極其龐大,需要大量的專業知識作為支撐,才可以實現對生產數據的有效處理,因此耗費的人力和物力成本都是巨大的。頁巖氣儲層品質的判斷結果會直接影響到試油層位的優選和壓裂施工的效果,進而影響頁巖氣產能的高低。隨著人工智能的快速發展,將機器學習運用在頁巖氣開發領域,已經成為行業關注的熱點。
在單標簽學習任務中,標簽稀少、標簽獲取難度大、專家標注成本高、獲取標簽錯誤率高等問題層出不窮。實際應用中的樣本,往往會同時擁有多個標簽[4],例如,在文本分類中,每個文檔可能同時屬于多個主題,如政治和健康。與單標簽學習相比,多標簽學習中標簽的指數級增長更加劇了標簽稀缺和標注成本高昂的問題。主動學習[5]通過交互式查詢可以有效降低標注成本。將多標簽學習與主動學習[6]結合,制定樣本選擇策略篩選最有價值的樣本進行學習,可以有效緩解多標簽學習場景中成本高昂的問題。
本文提出一種多標準主動查詢的多標簽學習(Multistandard Active query Multi-label Learning,MAML)算法,將多標簽學習與主動學習相結合,充分考慮了樣本屬性信息和標簽空間內部的信息,有效改善了多標簽學習常見的信息挖掘不充分的問題。通過綜合考慮樣本的信息性、代表性,制定豐富性約束,有效篩選出最有價值的樣本,不僅降低了多標簽學習的標注成本,而且顯著提高了多標簽學習算法的性能。
本文提出的MAML 算法思想主要包括以下四個方面:
1)利用基于密度峰值的快速聚類CFDP(Clustering by Fast search and find of Density Peaks)算法[7]選擇初始訓練樣本。將多標簽數據集轉化為多個單標簽二分類數據集,通過Softmax 得到多標簽樣本在每個單標簽下的信息熵。利用最大熵思想,將多個標簽下的信息熵進行加權平均得到每個樣本的信息性。
2)利用無參數概率密度估計的方法,選擇高斯核函數和窗口寬度,利用概率密度函數得到樣本的統計概率,從而得到每個樣本的代表性。
3)從樣本屬性和樣本標簽兩個角度考慮,加入豐富性約束。為了保證選擇的訓練樣本盡可能地豐富,定義樣本之間的屬性差異性閾值,從而避免選擇相似的樣本;為了保證選擇的樣本所具有的標簽足夠豐富,利用第1)步中Softmax 預測的標簽值,獲得每次查詢過程的樣本豐富性,并定義標簽豐富性閾值。當同時滿足屬性差異性和標簽豐富性約束時,該樣本才會被查詢并加入訓練集。
4)利用基于實例差異的多標簽學習InsDif(multi-label learning by Instance Differentiation)算法[8]對剩余樣本的標簽集進行預測,從而得到所有樣本的標簽。
根據文獻[9]確定了頁巖氣水平儲層產能的主要影響因素,分別為有機碳含量、孔隙度、脆性指數、總含氣量。本文將這四個因素處理為頁巖氣儲層的多個標簽,利用綜合品質預測精度來判斷算法的性能。
本文首先在實際的11 個Yahoo 文本數據集[10]上進行實驗,將MAML 算法與流行的多標簽學習算法和主動學習算法進行比較,利用常用的四個多標簽學習評價指標驗證了所提算法的優越性;接著利用Friedman 檢驗和Nemenyi 假設檢驗[11]進一步驗證了MAML 算法的優越性;然后將實驗擴展到真實的四個測井數據集,加入新的評價指標,實驗結果表明MAML 算法在實際頁巖氣測井領域的實用性和優越性。
頁巖氣儲層[12]具有低孔隙度、低滲透率以及自生自儲等特點,其非常規的成藏機制與演化分布加大了頁巖氣開發的難度。測井數據獲取艱難,而對于數據的處理需要專業的知識作為支撐,大大增加了頁巖氣儲層品質評價的成本。利用有效的測井評價方法,可以為后續的開發工作提供可靠的信息。流行的測井評價方法是通過大量的測井資料對頁巖氣儲層進行定量評價。頁巖氣儲層工程品質參數定量評價包括泊松比、楊氏模量、剪切模量、脆性指數、抗壓強度等巖石力學參數。從巖石物理性質角度,頁巖氣儲層品質評價包括巖石礦物組成、總有機碳含量、孔隙度、含水飽和度等指標。
傳統的頁巖氣儲層評價方法往往根據考慮角度的不同,割裂地對數據進行處理,忽略了生產數據內部之間的關系。比如從可壓裂性[13]角度,對脆性指數、泊松比、抗壓強度等參數進行定量分析,僅得到頁巖氣儲層在可壓裂性方面的評價;從含氣量[14]角度,對游離氣、吸附氣等參數進行定量分析,僅得到頁巖氣儲層在含氣量方面的評價。在實際生產生活中,可壓裂性評價級別與含氣量評價級別是相互關聯的。利用機器學習充分挖掘數據內在規律,可以有效提高測井評價效率和精度。本文將有機碳含量、孔隙度、脆性指數、總含氣量處理為儲層的多個標簽,避免了儲層評價復雜難懂的難題。由于標注成本有限,且對專家知識要求較高,導致實際頁巖氣儲層的“甜點”標簽稀少。為了解決這個問題,本文首次提出將主動學習與多標簽學習結合應用在頁巖氣儲層品質的綜合評價預測領域。
多標簽學習[15]廣泛應用在文本分類、生物信息、網絡信息挖掘等多個領域。多標簽數據集的每個樣本都有一個標簽集,輸出空間會隨著標簽數量的增加而呈指數級增長。例如,對于具有20 個類標簽的標簽空間(q=20),可能的標簽集數量將超過100 萬(即220)。利用標簽之間的相關性處理多標簽學習問題可以有效應對這一挑戰。將多標簽學習問題轉化為多個獨立的二分類問題屬于一階策略,簡單高效但是忽略了標簽之間的相關性??紤]標簽對相關性排名等屬于二階策略,但是實際情況往往不能滿足二階假設??紤]標簽集的隨機標簽子集對樣本的影響等屬于高階策略,但是實現難度大。在實際場景中,如何在標簽稀缺、樣本查詢成本有限的情況下盡可能地獲得令人滿意的分類精度就成為大家關注的問題。
主動學習選擇最有價值的樣本,利用專家標注組成訓練集,可以大幅減少標注成本[16-17]。常用的主動學習方法包括委員會查詢、不確定性抽樣、優化實驗設計等[18]。傳統的主動學習[19-21]多從樣本的信息性、代表性或二者結合進行考慮,而忽略了樣本之間的關系。為了更好地解決多標簽學習問題,減少專家標注成本,結合主動學習勢在必行。多標簽主動學習算法[22]利用關鍵樣本選擇策略選擇最有價值的樣本,加入多標簽學習分類器模型進行訓練,從而實現對多標簽數據標簽的高效預測。流行的多標簽主動學習常常采用基于信息量的標準來選擇關鍵樣本,卻無法充分利用樣本數據和標簽空間的信息,從而導致算法性能不佳,因此綜合考慮多個標準設計查詢策略就成為需要關注的問題。
對于實際生活中的學習任務,數據樣本往往由多個標簽來表示,這些標簽互相關聯,共同表征該樣本的情況。由于數據樣本標注成本耗費過大,加劇了數據挖掘的困難。多標簽主動學習通過制定一套標準,篩選出最有價值的樣本,由專家系統進行標注,然后利用人工智能得到剩余數據的標簽信息,不僅降低了成本,而且可以充分利用數據信息。在實際的多標簽學習任務中,令N為專家系統所提供的具有完整多標簽信息的樣本個數,q為標簽個數,標簽總預算為100 萬元,每個標簽的標注費用為100 元,N=。那么如何選擇最有價值的N個實例,獲得最大的標注效益和預測精度就成為需要考慮的關鍵問題。
D={(x1,Y1),(x2,Y2),…,(xl,Yl),xl+1,xl+2,…,xn}表示含有n個樣本的數據集,其中:xi=(xi1,xi2,…,xid)是d維行向量;Yi=(Yi1,Yi2,…,Yiq)是q維行向量,表示第i個樣本的標簽。若樣本xi含有第j個標簽,則Yij=1;否則Yij=0。數據集包括訓練集Dl和測試集Du,其中:Dl={(x1,Y1),(x2,Y2),…,(xl,Yl)},Du={xl+1,xl+2,…,xn}。在每一輪迭代中,從測試集Du中選出一個樣本xs,查詢它的標簽集,將其加入訓練集Dl,直到獲取N個訓練樣本,整個過程結束。
信息性用來衡量模型的不確定性。本文利用softmax 獲得樣本在每個單標簽下的信息熵,其中信息熵[23]表示樣本包含信息的不確定性。對于多標簽學習場景而言,每個單標簽下的信息熵就代表了樣本屬性與該標簽二分類向量之間的關聯度。然后利用最大熵思想,將每個標簽下的信息熵進行加權平均,得到樣本在每個標簽下的信息性。
樣本xi的信息熵公式如下:

其中:zk表示樣本在每個單標簽下的第k類,k∈{0,1};θ表示softmax 類別預測過程中的參數;表示樣本xi在單個標簽Yij下的信息熵。
樣本xi的信息性f(xi)表示了樣本屬性與多個標簽之間的關聯度。利用最大熵的思想,令每個標簽出現的概率相同,對所有單標簽下的信息熵進行加權平均,得到樣本信息性:

其中:j∈{1,2,…,q}。
將樣本的所有屬性值輸入到概率密度函數進行計算,結果表示該樣本所代表的信息,樣本的概率密度越大,越具有代表性[24]。本文采用無參數的方式,樣本xi屬性向量在區域R的統計概率如下:

令窗函數的寬度為dc,則樣本的概率密度函數如下:

為了提高算法預測標簽的精度,本文從樣本屬性和樣本標簽兩個角度出發,制定屬性豐富性約束和標簽豐富性約束,保證選擇的訓練樣本所具有的信息盡可能地豐富。
3.3.1 屬性豐富性
由K最近鄰(K-Nearest Neighbor,KNN)算法的思想可知,距離越近的兩個樣本相似的可能性就越高。在屬性豐富性[25]約束部分利用距離閾值約束,使得備選樣本的屬性豐富性滿足差異性要求。兩個樣本之間的曼哈頓距離可定義為:

當樣本之間的曼哈頓距離足夠大時,可保證樣本之間的差異性,故將差異性閾值定義為:

其中:u∈{1,2,…,d}。通過大量實驗獲知,當系數?取0.5時,算法性能最優。本文以上一輪主動學習選出的訓練樣本s作為基準,根據樣本的信息性和代表性處理后的結果降序排序,遍歷剩余樣本,當距離dist(x,s) >β時,該樣本x選為備選樣本。
3.3.2 標簽豐富性
標簽豐富性約束可以衡量樣本的標簽是否足夠豐富。本文利用信息性部分對樣本單標簽下的類別預測結果來獲取該樣本當前的標簽。由于本研究針對的是多標簽二分類問題,每個樣本的標簽豐富性就可以定義為:

其中:Yij表示第j個標簽;q表示標簽的數量;I(·)表示滿足括號里條件的次數。樣本的標簽信息越豐富,查詢的價值就越高。
由于標簽信息分布不均,通過大量實驗得知,當標簽豐富性大于當前剩余樣本豐富性的均值時,選出的備選樣本價值最高,故標簽豐富性閾值定義為:

其中:i∈{1,2,…,m},m表示剩余測試樣本的數量。當備選樣本的豐富性h(xi)≥α時,該備選樣本加入訓練集。
基于多標簽學習的主動學習算法框架如算法1 所示,第2)~4)行用來選擇初始訓練集,復雜度為O(dn2);第5)~17)行對剩余樣本進行處理,利用約束條件選取關鍵樣本,更新訓練集和測試集,復雜度為O(Ndqn2);第18)~19)行對剩余樣本的標簽集進行預測,復雜度為O(dqn)。算法1 的時間復雜度為O(Ndqn2)。
O(dn2)+O(Ndqn2)+O(dqn)=O(Ndqn2)
其中:d、q和n分別表示樣本的屬性數量、樣本標簽數量和樣本數量。


本文采用 AveragePrecision、Coverage、OneError、RankingLoss 這四種在多標簽學習中常見的評價指標[26]來衡量算法的性能。其中,AveragePrecision 的值越大,表示算法性能越好,其余指標則相反。
實驗分為兩個部分:第一部分在實際的Yahoo 數據集上進行實驗,實驗結果驗證了MAML 算法的優越性;第二部分在實際的頁巖氣測井數據集上進行實驗,經過專業處理之后,對比最終的頁巖氣儲層綜合品質類別,驗證了MAML 算法在頁巖氣儲層預測領域的優越性和可行性。對比算法包括多標簽學習算法,即基于K最近鄰多標簽(Multi-LabelKNearest Neighbor,ML-KNN)學習算法[26]、多標簽學習的反向傳播(BackPropagation for Multi-Label Learning,BP-MLL)算法[27]、具有全局和局部標簽相關性的多標簽學習GLOCAL(multi-label learning with GLObal and loCAL label correlation)算法[28],以及通過查詢信息性和代表性樣本的主動學習QUIRE(active learning by QUerying Informative and Representative Examples)算法[29]。每次實驗運行10 次來獲得各算法四種評價指標的均值和方差,然后利用Friedman 檢驗和Nemenyi 假設檢驗獲取多標簽學習算法的性能平均排名。
表1 列出了Yahoo 數據集的詳細信息。Yahoo 數據集是從yahoo.com 網址上獲取的網頁信息,通過處理劃分為11 個領域的文本數據,包括藝術、經濟、計算機、教育、表演、健康、娛樂、參考書、科學、社交、社會。每個數據集包含5 000 個樣本,數據集屬性數量最高可達到1 047,標簽數量最高可達到40 個標簽,滿足實驗要求。本文選擇每個數據集數量的5%,即250 個樣本組成訓練集。

表1 Yahoo數據集Tab.1 Yahoo datasets
針對11 個Yahoo 數據集進行實驗,選擇樣本數量的5%作為訓練集。和多標簽學習算法做對比,在四個多標簽學習評價指標上的平均排名如表2 所示。從表格中可以看到,MAML 算法在AveragePrecision 上的排名均值為1.090 9,在OneError 上的排名均值為1.636 4,均位于所有算法的第一位。表3 是MAML 算法分別與多標簽學習算法ML-KNN、BP-MLL、GLOCAL 以及主動學習算法QUIRE 進行對比的具體實驗結果。MAML 算法與多標簽學習算法相比,有10 個數據集在指標AveragePrecision 上的性能優于其他算法,5 個數據集在指標OneError 上性能優于其他算法。MAML 算法與主動學習算法相比,MAML 在四個評價指標上的性能表現明顯優于QUIRE,只有在Arts、Business、Recreation 這三個數據集上,QUIRE 表現更好一些。通過11 個Yahoo 數據集的實驗,充分證明了MAML 算法的優越性。

表2 Yahoo數據集上不同多標簽學習算法性能的平均排名Tab.2 Average performance ranking of different multi-label learning algorithms on Yahoo datasets

表3 MAML與對比算法在Yahoo數據集上4個評價指標比較Tab.3 Comparison of four evaluation indicators between MAML and comparison algorithms on Yahoo datasets

續表
AveragePrecision 和OneError 評價指標的關注點在于樣本真實標簽與實際標簽是否一致。MAML 算法綜合考慮樣本的信息性和代表性,利用樣本屬性差異性和標簽豐富性約束選出的訓練樣本所包含的信息更豐富,基于此訓練集訓練的多標簽學習分類模型性能更優越。AveragePrecision、OneError 指標的算法平均排名和具體實驗數據都驗證了MAML 算法在提高預測標簽準確性方面具有明顯優勢。
Coverage 用來衡量預測標簽的相關性,RankingLoss 用來衡量預測標簽的不相關性。ML-KNN 算法假定標簽之間相互獨立,并在Yahoo 等多個數據集上得到了驗證,從而在Coverage 和RankingLoss 指標上的實驗效果可以排在第一位。
實驗采用的四個真實頁巖氣測井儲層數據集來自某油氣田公司滇黔川地區天然氣井數據,具體信息如表4 所示。

表4 測井數據集Tab.4 Well logging datasets
本研究將有機碳含量、孔隙度、脆性指數、總含氣量處理為頁巖氣儲層的4 個標簽,故每個數據集的標簽個數均為4,屬性個數為均為21。然后將預測的多個標簽進一步處理得到每個樣本的綜合品質類別。為了更好地評價算法在測井場景下的性能,本文引入評價指標Accuracy,即預測精度。
預測精度表示分類準確的樣本數占該樣本總數的比例,可以評估頁巖氣儲層綜合品質預測類別是否正確。

其中:a表示分類錯誤的樣本;b表示樣本總數。
對于實際的測井數據,由于每種算法的運行結果中,評價指標OneError 的值都為零,故不再贅述。對四個測井數據集進行實驗,選擇樣本數量的50%作為訓練集,將MAML 算法與多標簽學習算法ML-KNN、BP-MLL 和GLOCAL 進行對比,然后將MAML 算法與主動學習算法QUIRE 進行對比。運行10 次來獲得算法在四種評價指標的均值和方差,然后利用Friedman 檢驗和Nemenyi 假設檢驗獲取多標簽學習算法的性能平均排名。
4.2.1 實驗結果與分析
MAML 算法與多標簽學習算法做對比,算法在四個評價指標上的平均排名如表5 所示。MAML 算法在評價指標AveragePrecision 和Accuracy 的排名均值分別為1.500 0 和1.000 0,均位于所有算法的第一位。表6 是MAML 算法分別與多標簽學習算法ML-KNN、BP-MLL、GLOCAL 以及與主動學習算法QUIRE 進行對比的具體實驗結果。MAML 算法與多標簽學習算法相比,MAML 算法在指標AveragePrecision 和Accuracy 上比其他三種多標簽學習算法的性能都要好。尤其是評價指標Accuracy,在四個測井數據集上的測試結果均值分別為0.666 7、0.679 4、0.741 9、0.723 2,效果明顯優于其他算法。MAML 算法與主動學習算法相比,MAML 算法的評價指標表現效果不如QUIRE,但對于指標Accuracy,四個測井數據集的測試結果均明顯優于對比算法。

表5 測井數據集上不同多標簽學習算法性能的平均排名Tab.5 Average performance ranking of different multi-label learning algorithms on well logging datasets

表6 MAML與對比算法在測井數據集上4個評價指標比較Tab.6 Comparison of four evaluation indicators between MAML and comparison algorithms on well logging datasets
對于真實的4 個測井數據集,由于數據集本身并不是傳統的多標簽數據集,無法充分體現MAML 算法在多標簽學習方面的優勢。Coverage 和RankingLoss 的關注點都在于評價預測標簽的相關性。對于真實的測井數據集,在數據處理時,將有機碳含量、孔隙度、脆性指數、總含氣量處理為4 個相互獨立的標簽,導致MAML 算法在Coverage 和RankingLoss上的效果較差;而ML-KNN 算法處理標簽不相關的數據集時極具優勢,故可以在Coverage 和RankingLoss 上的性能排名第一。
MAML 算法綜合考慮樣本的信息性、代表性、屬性差異性和標簽豐富性選出訓練集,基于此學習得到的分類模型在預測標簽準確率(指標AveragePrecision)上優勢明顯。對于實際的頁巖氣測井儲層預測場景來說,儲層綜合品質的預測評級準確度Accuracy 與預測標簽準確率息息相關。MAML算法在Accuracy 上的實驗結果遠遠優于對比算法,充分證明了該算法在實際頁巖氣測井場景中,尤其是本文關心的測井綜合品質預測方面,具有優越性和實用性,有助于研究者利用人工智能識別頁巖氣儲層甜點區。
4.2.2 測井實驗數據具體分析
根據MAML 算法的樣本選擇策略,測井數據集每經過一輪數據篩選,就選出一個備選樣本加入訓練集。表7 列舉了10 個備選樣本在被選擇時的信息性、代表性、豐富性量化結果。根據MAML 算法的樣本選擇策略選出信息性、代表性充足,標簽豐富的樣本加入訓練集,保證訓練集包含的信息足夠豐富,有利于分類器模型的訓練優化。

表7 MAML算法對10個測井備選樣本的信息性、代表性、豐富性量化結果Tab.7 Informativity,representativeness,and richness quantitative results of MAML algorithm to 10 candidate well logging samples
表8 以數據集Well_1 為例,列舉了從信息性、代表性、豐富性三個角度處理過后的排序前10 的樣本量化結果。其中,對于測井數據集而言,由于本文將頁巖氣數據集處理為多標簽數據集,將儲層品質影響的主要參數,總有機碳含量、孔隙度、游離和吸附氣量、脆性指數處理為4 個標簽,故根據式(6)排名靠前的樣本豐富性量化結果都為0.250 0。

表8 Well_1數據集最后一輪篩選后top-10樣本Tab.8 Top-10 samples after last round of screening of Well_1 dataset
將機器學習與實際場景結合并加以應用已經成為行業的流行趨勢。本文將多標簽學習與主動學習相結合,對數據進行充分的挖掘,綜合考慮樣本的信息性、代表性、屬性差異性以及標簽豐富性,從而選出最具價值的樣本進行訓練,大幅降低了專家標注成本。實際Yahoo 數據集上的實驗充分證明了該算法在多標簽數據領域的可行性,在真實測井數據的實驗充分證明了MAML 算法在測井數據處理領域,尤其是頁巖氣儲層甜點區的判斷方面的可行性和優越性。未來研究工作主要包括以下三個方面:1)嘗試更多選擇初始訓練樣本的算法以盡可能提高訓練集的價值;2)優化主動學習多標準約束算法以簡化篩選過程;3)優化場景結合形式,從而獲得更高的預測準確度。