湯連杰
大快搜索是一個相對年輕的公司,組建時間不算很長,我們公司主要是聚焦大數據底層軟件、大數據開發框架、人工智能這幾個方向。在大數據底層軟件方面,有DKH大數據分析處理平臺,在人工智能方面的主要產品就是HanLP。HanLP從2015年開始進行研發,目前,我們已經開源了全部源代碼。
由于HanLP1.x的開發主要以傳統方式進行,我們可以直接在工程里面進行調用。從HanLP2.0開始,我們走入深度學習技術路線,把以前的算法重新用C++進行打造。由于深度學習、神經網絡時代的到來,HanLP2.0全面擁抱深度學習,采用Python作為主要開發語言,以前的對外接口是Java,現在可以提供多種語言支持。以前的C語言開發模塊,通過這個接口傳送出來,或者用Python來進行調用,其他開發語言也一樣可以調用。因為都是開源的,大家可以盡情地使用,都是不收費的。
HanLP2.0里面利用C++實現了高速算法,用SWIG實現Python語言的接口。雙數組字典樹/AC自動機詞典匹配是HanLP1.x的優良傳統,在HanLP2.0會繼續保持,大家還可以繼續使用這個。
在多語言這個方面,我們用Python重新寫了外部框架。以前我們要把一段話進行分詞處理,也要建立一個工程,HanLP2.0支持直接向服務端發送一個請求,可以直接返回分詞結果,這個就非常方便了。我說多語言指的是自然語言,比如英文、日文、韓文和西班牙文,在底層框架的設計上,不在一個編碼體系里,我們底層的架構跟語言無關,你可以使用任何語言,只要提供語料庫就可以處理語言,不論是什么語言。語料庫決定了HanLP最后所支持的語言,如果是西班牙語,將西班牙語語料庫放在里面訓練,建立訓練模型,最后調用模型就可以了。……