劉大雙
語義工廠顧名思義就是對自然語言進行加工處理,輸出結構化的信息及其語義。今天,我們越來越意識到,自然語言處理技術要很好地跟業務場景相結合,才能更好地賦能行業應用。
神州泰岳在超過16個領域、140個場景中抽象出相應的語義模型,同時對這些模型進行訓練,保證輸出效果。這么做的目的就是希望能夠為企業客戶和行業應用開發商提供一個自然語言處理SaaS平臺。
其實,自然語言處理技術有一個很高的門檻,不僅是數學、語言學、計算機科學等諸學科綜合的體現,同時還需要有很好的行業知識,給我們的企業客戶也帶來了一個新的挑戰。另外,人才也是一個很大的挑戰。今天在人工智能領域的人才非常缺乏,人才成本居高不下,要維護一個相對穩定的、具有一定規模的自然語言處理團隊,還是比較奢侈的一件事。在行業應用上,我們已經有超過20年的行業應用經驗積累,今天已經積累了將近100人的專注于自然語言處理的團隊,同時我們有超過400人的交付團隊,如果把這兩個團隊加起來的話,有將近600人。
基于這樣的積累,我們希望為市場做的是,授之以魚的同時還能授之以漁。我們更加強調,希望通過場景化的自然語言處理平臺已經抽象出的場景,將來從事自然語言處理的應用開發團隊實際上不需要具備自然語言處理的知識,只需要提供調用接口,也不需要花時間做模型訓練,就可以保證相對穩定的輸出效果。我們希望為市場提供一個專業的、有質量保證的、性價比高的一個SaaS服務平臺。
簡單說,語義工廠要提供幾類服務:第一類是NLP基礎服務,提供可以通用的技術服務,比如中文分詞、簡轉繁、中文命名實體識別等。第二類是應用場景服務,到目前為止我們在16個行業抽象出了超過140個場景,針對這些場景都建立了語義模型,進行了充分的預訓練,保證達到一個穩定的、可用的輸出效果。第三類是數據服務,我們本身也積累了一些行業的數據,希望能夠跟合作伙伴在數據方面有所合作。
場景化,是我們所強調的。在應用場景服務里我們提供了通用的場景,比如合同文本結構化、裁判文書結構化、客服工單分類及熱點發現、招投標公告信息提取、企業風險標簽提取、簡歷、JD結構化及信息匹配等。
語義工廠實際應用到具體場景中會產生什么效果?在教育領域,利用語義工廠輸出的服務實現在線閱卷,目前我們能夠處理的題型有名詞解釋題、簡答題以及翻譯題。實際上,通過我們在實際工作中的數據驗證,準確率達到95%,很多場合中可以超過人工判卷的準確率。在公安刑偵領域,可以從現場案件盤查的筆錄和報案文字筆錄中發現類似案件,實現串并案分析,實現以案找案、以案找人、以人找案等,提升公安刑偵工作效果。
我們希望為市場、客戶、合作伙伴提供人工智能、大數據的技術來實現業務創新,實現行業賦能的目標,希望讓自然語言處理技術真正落地。(根據演講內容整理,未經本人審核)