
自然語言處理是剛需,只要我們的企業、我們的客戶希望用人工智能技術來賦能行業應用,就離不開對自然語言的處理。
—北京神州泰岳軟件股份有限公司AI研究院首席架構師劉大雙
很高興有機會和大家分享神州泰岳在自然語言處理方面的工作。越來越多企業已經意識到,可以用人工智能技術手段為行業應用賦能。
而今,自然語言處理是剛需,只要我們的企業、我們的客戶希望用人工智能技術手段為行業應用賦能,就離不開對自然語言或者對文本的處理。同時,自然語言處理也是一個高頻需求。但是,自然語言處理的痛點到底在哪里呢?
第一,自然語言處理的技術門檻高。
第二,自然語言處理的人才成本相對比較高,維護一定規模的團隊代價非常高。
第三,自然語言處理的效果很難保證。
那么,神州泰岳是如何為市場提供一個自然語言處理分析平臺的呢?
首先,我們來看一下,業界的重量級友商BAT在自然語言處理方面做了哪些努力?
BAT首先做的一件事是開放平臺,以輸出技術框架和基礎技術為主,授人以漁。
百度云提供Paddl e Paddl e深度學習框架,提供詞法分析、依存句法分析等13項基礎服務,提供文本審核、機器翻譯、服務機器人場景服務。
阿里云提供機器學習PAI,提供分詞、詞性標注等8項基礎服務,支持機器翻譯場景。
騰訊云提供云智AI平臺及應用服務,提供詞法、句法分析等4項基礎服務,支持機器翻譯、內容理解場景。
用戶可以利用這些技術接口開發滿足業務需要的NLP應用,NLP應用開發依然需要用戶具有一定的專業知識,而且效果無法保證。
基于以上考慮,我們泰岳語義工廠讓NLP技術賦能行業應用開發,授人以魚。泰岳語義工廠為什么要這樣做?
第一,全面性。泰岳語義工廠可以提供一個比較全面的基礎技術和應用場景服務,涵蓋NLP基礎技術、領域場景、數據服務共200多項。
第二,專業性。泰岳語義工廠聚焦于中文語義分析技術積累20多年,具有中國特色自然語言處理的能力。
第三,場景化。泰岳語義工廠提供16個行業領域、140多個場景化服務,我們在140多個場景之外也提供了相關數據服務,可以提供數據代加工,如果客戶希望我們幫他進行加工的話,我們也可以提供相關的服務。
第四,應用開發。泰岳語義只需一次調用,開放文本變結構化數據。比如,對裁判文書的解析,只需輸入裁判文書,便可得到40多項數據解析,可以把裁判文書的要素準確解析出來。
泰岳語義工廠可以提供最專業、最全面、最便捷、性價比最高的語義分析服務,泰岳語義工廠的自然語言處理技術,以國家中文信息處理業務將近20年的一個研究成果為基礎。所以,我們可以把泰岳語義工廠叫做自成一派中文信息處理技術。
泰岳語義工廠可以提供場景應用服務、數據服務、NLP基礎服務。
場景應用服務包括銀行、政府、互聯網、電商、證券、保險、企業應用、運營商、定制化等場景應用服務。
數據服務包括語義資源服務、深度學習模型、數據資源服務、數據加工服務等。
NLP基礎服務包括深度學習、信息抽取、情感計算、自動寫作等。
整個泰岳語義工廠底層平臺采用的是專利的開發工具,我們把它叫做OEC開發工具,這是專利技術平臺,以這個平臺來開發泰岳語義工廠,可以保證泰岳語義工廠的技術先進性。
泰岳語義工廠在研發和交付方面不敢自稱是國內投入最大的,但是,泰岳語義工廠在NLP領域在國內較為領先。
泰岳自然語義處理技術自成一派:
第一,基于概念計算的智慧語義認知技術,擁有20年的技術積累,200多項發明專利。
第二,強大的研發、交付團隊,ACL終身成就獎獲得者李生教授指導100人研發、500人交付。
第三,自然語言處理技術得到業界認可,客戶涵蓋金融、公安、電信、能源、交通等領域。
第四,豐富的語料資源,Chi nese Wor d Vec t or s目前是最全的中文預訓練詞向量集合。
第五,Di nf o-OEC非結構化文本分析挖掘平臺,專利產品保證語義工廠的技術優勢。
接下來,和大家分享一下泰岳語義工廠的商業模式。泰岳語義工廠希望成為企業用戶、行業用戶的NLP引擎,希望作為內核為企業用戶、行業用戶提供NLP服務,希望為企業客戶的行業應用賦能。泰岳語義工廠讓線上和線下相結合,線上為客戶提供Saa S服務平臺,線下通過與行業合作伙伴合作的方式為客戶提供OEM授權,并為行業應用開發賦能;泰岳語義工廠讓能力和數據相結合,我們以輸出能力為主,同時我們也展開數據合作,包括自身數據積累,以及為客戶使用數據加工服務??傊?,泰岳語義工廠希望成為行業應用客戶的NLP引擎。