實際工程問題的求解往往涉及跨領域、跨模態的海量碎片化知識,這些知識不能僅靠專家提供,而需要從環境中動態學習和融合生成.知識工程旨在研究計算機對知識的獲取、表征和處理.隨著UGC(User Generated Content)模式的興起,一種新的知識工程范式——大數據知識工程應運而生.
和早期的專家系統相比,大數據知識工程的顯著特點是:實現了從以文本、小規模、靜態、人工方式的專家知識計算機表示,到多模態、大規模、動態不確定環境下知識的自動獲取與表征的跨越式發展.大數據知識工程的核心科學問題是大數據碎片知識的挖掘和融合.
《計算機研究與發展》推出了大數據知識工程及應用專題,以促進該方向新的研究與發展.本專題得到同行的廣泛關注,通過公開征文收到18篇高質量投稿稿件,這些論文闡述了大數據知識工程的重要研究成果和發展前景.特邀編委先后邀請了20余位相關領域的專家參與評審,歷經初審、復審、終審等階段,最終遴選出3篇高質量的論文入選本專題.內容涵蓋了零樣本學習、表示學習等大數據知識工程的關鍵技術,在一定程度上反映了當前國內學者在大數據知識工程的典型應用.
零樣本學習旨在識別具有少量、甚至沒有訓練樣本的未見類,這些類與可見類遵循不同的數據分布;已有方法通過共享生成器和解碼器,通過深度神經網絡聯合傳統生成對抗網絡和變分自編碼器來實現樣本的合成.然而,由于這兩種生成網絡產生的數據分布不同,聯合模型合成的數據不再滿足單一的模型分布,而是遵循復雜的多域分布,即生成器域分布和解碼器域分布.為此,劉歡等作者的“基于跨域對抗學習的零樣本分類”一文提出跨域對抗生成網絡(CrossD-AGN),將傳統生成對抗網絡和變分自編碼器有機結合起來,基于類級語義信息為未見類合成樣本,從而實現零樣本分類.
知識圖譜的核心為三元組形式的實體和關系,因此,如何通過實體關系抽取方法來補全或者構建新的知識圖譜顯得至關重要.傳統流水線式的實體關系抽取方法會導致誤差傳遞,而已有的聯合抽取沒有充分考慮命名實體識別與關系抽取之間的聯系,從而降低抽取效果.針對上述問題,黃培馨等作者的“融合對抗訓練的端到端知識三元組聯合抽取”一文提出了一種融合對抗訓練的端到端知識三元組聯合抽取方法.首先采用了一種實體關系聯合標注策略,通過端到端的神經網絡抽取文本語義特征,并對文本進行自動標注;其次,模型在神經網絡中加入自注意力機制增強文本信息的編碼能力,并通過引入帶偏置項的目標函數提高關系相關實體的辨識能力,最后,模型融合了對抗訓練以提高魯棒性,改進模型抽取效果.
杜治娟等作者的“TransNS:基于鄰域和語義親和力的開放知識圖譜表示學習”一文針對允許新實體存在的開放知識圖譜(knowledge graph,KG),提出一種表示學習方法TransNS.它選取相關的鄰居實體作為實體的屬性來推斷新實體,并在學習階段利用實體之間的語義親和力選擇負例三元組來增強語義交互能力.
承蒙各位作者、審稿專家、編輯部各方面的全力支持,本專題得以順利出版.在審稿過程中難免出現不盡人意之處,希望各位作者和讀者包容諒解,同時也請各位同行不吝批評指正.
特別感謝《計算機研究與發展》編委會和編輯部,從專題的立項到征稿啟事的發布,從審稿專家的邀請到評審意見的匯總,以及最后的定稿、修改和出版工作,都凝聚了他們辛勤的汗水.本專題的出版期望能給廣大相關領域研究人員帶來啟發和幫助.