【摘 要】 文章從背景、研究方法、數據分析、實踐應用方面對如何建立面向知識服務應用的人工智能研究進行了系統剖析,并對多種人工智能技術與學術內容、專業內容的融合方法進行了深入論述。通過對Yewno、沃森醫生、德勤小勤人三個案例的解析,介紹了知識圖譜技術的行業應用方式,以及如何利用專業內容,形成服務社會的人工智能應用。
【關 鍵 詞】人工智能;學術和專業出版;知識服務;融合
【作者單位】孫赫男,北京印刷學院,北京英捷特數字出版技術有限公司。
【中圖分類號】G230 【文獻標識碼】A 【DOI】10.16491/j.cnki.cn45-1216/g2.2018.07.010
人工智能是使用機器代替人類實現集認知、識別、分析、決策等功能于一身目標的多學科技術,其本質是對人類意識與思維信息過程的模擬。在2017年7月國務院發布的《新一代人工智能發展規劃》中,知識計算引擎和知識服務技術被列為“關鍵共性技術體系”,并且這個規劃提出要“重點突破知識加工、審讀搜索和可視交互核心技術,實現對知識持續增量的自動獲取”。這為學術出版和專業出版帶來了進一步與人工智能技術結合從而實現產業融合發展的良好契機。
一、學術和專業出版與人工智能技術結合的先天優勢
學術和專業出版行業作為內容生產者、知識服務者,擁有能夠突破人工智能學習能力的海量內容數據,這些數據,內容關聯性已經建立、市場需求明確、客戶群體精準,在人工智能技術應用上享有得天獨厚的優勢。學術出版和專業出版商,有望率先實現人工智能時代創新型知識服務商的轉型,為出版業邁入知識服務時代提供典型案例,進而為文化創意產業與人工智能技術融合開辟路徑。關注和研究人工智能的發展趨勢及現狀,應用人工智能技術促進學術和專業出版的創新型知識服務發展,探索學術和專業出版知識服務的實現路徑及發展戰略,有利于提升我國學術傳播手段和路徑,擴大學術傳播范圍,創新學術傳播方式,提升中國學術影響力,對全國相關數字出版企業的發展也將起到一定的引領和指導作用。
從宏觀層面研究來看,國內對于知識服務的研究主要基于知識服務的觀念和方式兩個角度,對知識服務的特點和本質進行研究與分析。王曉光在《人工智能與出版的未來》中提出,知識是連接出版與人工智能的重要概念,隨著蘊含知識的出版內容逐漸數字化和可計算化,人工智能與出版之間的相互作用日益強烈。張淑雅等人在《關于出版企業知識服務模式的思考》中認為出版業的知識服務是廣義的知識服務,即基于數字技術提供系統化知識的服務。出版企業向知識服務提供商轉型存在可能性和必要性,一方面是由于國家政策的扶持和現代數字技術的驅動,另一方面源于信息時代對出版企業提出的要求。在轉型過程中,不同出版企業選擇路徑不同。孫曉翠在《“企業2. 0時代”出版企業向知識服務提供商的轉型升級模式》中認為主要有內容服務型、科技服務型和平臺服務型三種發展模式。張新新、劉華東以《新一代人工智能發展規劃》為視角,指出在人工智能時代,出版流程在群體智能理念指導下進行再造,數據成為出版生產要素,AR/VR智能出版、智能教育等智能化方向成為嶄新形態。從微觀層面研究來看,國內學者側重從內容生產、內容編輯、內容發行傳播等方面探討人工智能對出版各環節產生的影響。宋寧遠在《面向智慧數據的科學知識圖譜構建——以Sci Graph為例》中通過分析斯普林格· 自然集團的Sci Graph項目,提出知識圖譜作為智慧數據的表現形式之一,是人工智能在專業出版領域應用的基礎。
綜上所述,與出版產業結合的人工智能研究主要集中在自然語言處理、深度學習、專家系統領域,涉及知識的生產、表現和傳播。學者普遍認為人工智能技術和出版產業的深度結合是出版業未來發展的必然趨勢。
二、如何建立面向知識服務應用的人工智能研究
人工智能技術的迅猛發展讓行業的先行者立足于文化與科技產業融合的發展大背景,密切跟蹤行業需求和實踐,針對人工智能技術進行應用研究,通過研究訪談、數據采集、文獻整理、技術路線分析,對學術和專業出版社如何應用人工智能技術提供創新型知識服務做現狀總結,并對這個領域的未來發展趨勢進行預測。
學術和專業出版領域不斷涌現各種創新型服務案例,目前學界和業界對于這些案例的總結和研究還非常有限。那么,如何建立面向知識服務應用的人工智能研究呢?
首先,要進行背景分析。要對國內外與推動人工智能發展相關的內部環境和外部環境進行分析,分析人工智能在全球范圍內各領域受到廣泛關注的內在原因和外在原因,對相關政策進行梳理總結。人工智能、大數據以及數字出版具有各自的研究發展脈絡,而創新型知識服務是這三條分別發展的主線的融合體現。出版行業作為知識傳播的主力軍,對新技術特別是傳播技術的吸收應用一直走在社會各行業的前列。學術和專業出版是最早完成數字出版轉型的領域,通過創新型知識服務,將數字出版積累的數據資源與人工智能技術結合,挖掘更大的知識價值,服務更廣泛的受眾群體。
其次,要結合圖書館情報學的理論研究,分析學術和專業出版的主要市場,從滿足需求的角度,對目前知識服務的主要服務對象、服務方式進行梳理。學術和專業出版的內容是具有高度規律性的內容,是具有顯著結構化特征的非結構化數據,對其進行規律總結可以形成知識服務技術產品。目前,在國家新聞出版廣電總局的知識服務工程中,主要的學術和專業出版機構都建立了知識服務工程的示范項目,因此,需要對已經形成的知識服務技術體系進行總結描述,這是人工智能技術實現行業應用的基礎。
再次,要重點關注對數據的分析。如何突破目前出版行業推動人工智能發展的瓶頸,關鍵在于數據。數據是驅動人工智能發展的關鍵元素,知識數據體系構建的成功與否,決定是否能夠真正產生人工智能技術應用。這里包含四個層面的內容,一是知識數據的采集,即如何實現自身數據、合作數據、外部數據的聚合和清洗,形成統一的數據標準,從而降低后續數據工作的成本。二是如何對已經采集的數據進行機器友好的標引,建立知識工人的標準工作方法和流程,形成具有可支持人工智能的細顆粒度標引,支持知識引擎的運行。三是知識引擎的構建方式,即如何開發知識引擎的自我學習能力。目前已經形成了不同的方法,但仍然不夠完善,如何形成優勢互補的方案,亟待研究。四是知識更新的方案,必須建立穩定的數據更新機制,才能保證知識的準確性、知識更新的及時性,以及知識數據的價值。
需要意識到的現實是,雖然有國家政策明確指引人工智能技術與具體行業融合,人工智能技術將從根本上改變出版內容生產、編輯、發行、傳播等環節,推動出版業態重構升級,但人工智能技術的應用仍處于探索階段,實現成熟的出版業智能化市場應用仍需假以時日。目前,業界研究者注意到人工智能部分應用還未能產生經濟效益,對于人工智能技術對出版業影響的研究探討,仍集中于基本理論、基本概念、產業政策和重要意義等宏觀層面,人工智能技術投入實踐應用的案例研究缺位。
三、從Yewno看知識服務模式創新
Yewno是由Ruggero Gramatica于2014年創建的一家美國公司。創始人是經濟物理學的研究學者,他利用物理學派產生的數據結構來描述經濟和金融周期,然后將數據框架應用于其他復雜領域。其在知識服務模式創新方面,有幾點創新值得借鑒。
第一,對知識節點的挖掘。Yewno的核心理念是對知識節點的挖掘,并且將知識節點的關聯應用到了許多不同的學科,服務于教育和出版領域。Yewno為教育領域提供Yewno Discover服務,讓高中生和大學生可以很容易地發現知識的內在關聯,并且從知識節點直接關聯到相關的內容資源,節省了學生做研究論文題目的時間。Yewno為出版領域提供的Yewno Unearth服務,可以讓學術和專業出版機構建立自己的知識圖譜,將出版物內容關聯至知識圖譜中,并且可以讓各個垂直的知識圖譜形成獨立的出版物和數據庫,提高了出版素材的價值。通過兩種產品的有效聯結,知識節點的使用者和知識節點的創造者實現了連通,加強了知識節點的準確性和有效性。
第二,形成非常細顆粒度的知識結構。Yewno為出版商提供的Yewno Unearch主要應用了語義計算技術和機器學習算法,將出版物的每個單獨部分進行處理后,形成了非常細顆粒度的知識結構,極大超越了目前的分類法和標簽體系,而這種細致的顆粒度,又推進了Yewno Discover用戶對信息的使用。
第三,基于對信息的摘要性理解,以及對知識的可視化提供研發產品。Yewno的所有技術產品都是基于對信息的摘要性理解,以及對知識的可視化提供研發的。每個學科和產品,都擁有特定的語料庫和機器學習算法,以保證對內容的準確理解。Yewno的技術產品還通過產品的相互配合,形成了對任何領域信息的理解能力。
Yewno公司給我們探索人工智能技術驅動下的知識服務模式提供了非常好的案例示范。自然語言理解技術和機器學習技術的結合,產生了人工智能技術驅動下的知識圖譜。但是對知識圖譜的應用,如果只局限在出版行業的生產環節,會失去用戶刺激下的智能提升可能,如果只用于面向用戶的內容顯示,則會失去數據產生的源頭。Yewno的產品設計,恰恰形成了數據的良性增量和不斷反饋的訓練過程。Yewno的知識服務模式創新,值得國內出版業界研究和借鑒。
四、人工智能技術應用于知識服務的瓶頸突破
人工智能技術應用于知識服務,必須解決從非結構化數據中形成對知識的挖掘和總結這一難點,才能讓機器更好地理解內容,形成持續提高知識理解力的訓練過程。然而現實中,知識在內容中的分布還是缺乏規律性。學術內容和專業內容,由于有學科知識結構和專業語料庫的支持,機器可以通過關鍵詞搜索、詞義距離計算、知識結構樹這些輔助要素,形成對內容的判斷。特別是學術期刊,作者提供的摘要、關鍵詞和參考文獻可以對機器學習起到支撐作用,機器還可以將學術期刊內容作為智能計算結果的對比參照物。這些都有助于機器突破人工智能學習能力瓶頸,提高智能化水平。
可以說,學術和專業出版不僅是人工智能技術的應用方,也是人工智能的智能源。通過對學術和專業出版高質量內容的結構化解析和關聯,將成果應用于各行各業的人工智能大腦,可以讓人工智能獲得更豐富的專業知識,更好地為人類服務。比如IBM的機器人——沃森醫生。沃森醫生通過對數十萬醫學類圖書、期刊文章的學習,可以綜合掌握醫療知識;通過對十幾萬病例的學習,不僅成功通過了醫生執業考試,還能夠給出與副主任級別醫生幾乎完全相同的診斷和治療意見。由于機器之間的快速聯通性,往往病人還沒走出造影室,沃森醫生就已經根據收到的掃描儀信息,給出了診療意見。目前沃森醫生已經開始為多家大型醫院提供診療意見,通過與人類醫生的意見對比,保持持續的智能訓練。又如德勤會計師事務所的小勤人會計機器人。它通過了會計師考試,可以完全取代初級和中級會計的工作,將賬目的整理、審校環節完全自動化,減少了大量文案工作。而且小勤人會計機器人不需要軟件就可以完成工作,速度快、效率高、差錯率低,可以解決會計年底年初工作量超負荷的現實問題。
綜上所述,內容服務產業鏈主要包括內容生產、內容傳播及用戶體驗三大環節,在每一個環節,又有不同的角色參與其中,這為人工智能技術在很多環節的應用提供了可能。研究發現,目前可見的人工智能技術行業應用既包括科技內容智能出版體系等定制行業應用案例,也包括智慧機器人、科研助手(如Sci Graph)、行業服務(如IBM的沃森醫生)、教育服務、數據出版等行業應用產品或服務。未來,人工智能技術的行業應用前景將更為廣闊。
大多數案例的開放界面為前臺使用界面,研究人員需要提升對人工智能多類別應用技術的理解力,從可見的應用界面入手,梳理其背后的技術脈絡,對人工智能技術驅動的技術方法進行具有可操作性的總結再現。因此,行業迫切需要掌握出版行業、計算機信息技術、圖書情報學涉及的學科基礎知識,能夠從生產、實現、使用的不同環節,對人工智能技術驅動下的創新型知識服務模式做深入剖析的研究人員,共同捕捉人工智能技術在國內外學術和專業出版領域的應用實例,洞悉人工智能技術如何形成創新驅動力,推進人工智能技術與學術和專業出版的深入融合。
|參考文獻|
[1]王曉光. 人工智能與出版的未來[J]. 科技與出版,2017(11).
[2]張淑雅,杜恩龍. 關于出版企業知識服務模式的思考[J]. 出版廣角,2017(7).
[3]宋寧遠,王曉光. 增強型出版物模型比較分析[J]. 中國科技期刊研究,2017(7).
[4]孫曉翠. “企業2. 0”時代出版企業向知識服務提供商的轉型升級模式[J]. 出版發行研究,2017(8).
[5]宋寧遠. 面向智慧數據的科學知識圖譜構建——以Sci Graph為例[J]. 科技與出版,2017(11).
[6]張新新,劉華東. 出版+人工智能:未來出版的新模式與新形態——以《新一代人工智能發展規劃》為視角[J]. 科技與出版,2017(11).
[7]段弘毅. 數據驅動的機器智能敘事——以NarrativeSci-
ence為例[J]. 科技與出版,2017(11).
[8]官思發. 大數據知識服務關鍵要素與實現模型研究[J]. 情報資料工作,2013(2).
[9]許劍穎. 數字出版知識服務的內涵、模式及對策[J]. 科技與出版,2017(11).
[10]曹沁穎. 人工智能對出版業的影響及應對淺析[J]. 科技與出版,2017(11).