彭偉
摘? ?要:本文主要以語料庫和面向統計學的自然語言處理技術分析為重點進行闡述,結合當下自然語言處理技術的發展趨勢為依據,首先分析自然語言處理技術概述,其次從幾個方面深入說明并探討語料庫和面向統計學的自然語言處理技術的有效應用,最后闡述語料庫和面向統計學的自然語言處理技術的發展展望,進一步推動社會的前進與發展,旨意在為相關研究提供參考資料。
關鍵詞:語料庫? 統計學? 自然語言處理技術? 發展前景
中圖分類號:TP391? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?文獻標識碼:A? ? ? ? ? ? ? ? ? ? ? ? 文章編號:1674-098X(2019)12(a)-0253-02
最近幾年,計算機先進技術得到迅速發展,機器的存儲量逐步增加,運算速度逐步加快,而價格呈現下降的趨勢,促使大容量的機器可讀語料庫的建設發展為可能。現在諸多地區出現多達幾億詞匯的文本樣例,部分新穎的,更好的統計語言模型隨之產生。要想充分發揮自然語言處理技術的存在價值,需要站在語料庫特征以及統計學的視角上進行思考,以下為筆者給出的相關分析與建議。
1? 自然語言處理技術概述
所謂的自然語言,便是日常生活中使用的語言類型,包括漢語、日語和英語等,然而自然語言也就是通過計算機技術給予自然語言加以處理和運用,歸屬于人工智能和語言領域的分支學科。充當語料庫與統計學研究領域的主要方向,自然語言處理技術在于完成人類和計算機之間的交互[1]。并且語言成為社會上人類獨特的互動與表述思維的媒介,所以以掌握計算機自然語言能力為前提,才可以進一步掌握自然語言處理技術的內涵,包括認知、理解以及生成的部分,認知與理解是將計算機輸入的語言轉換為有意義的符號,之后結合目的加以處理,后者的生成主要是把計算機中信息轉成自然語言,由此計算機用戶不需要花費過多的時間學習抽象性的計算機語言,而是在自然語言處理技術的基礎上完成計算機系統的交互,這也是自然語言處理技術的本質原因與目標。
2? 語料庫和面向統計學的自然語言處理技術的有效應用
2.1 個性化智能推薦
以自然語言文本為前提的個性化職能推薦為一種過濾系統,可以結合用戶的檔案信息以及歷史記錄,分析用戶自身的興趣,猜測用戶針對已知物品的評分與偏好。尤其是電子商務,信息過載發展為人們加工信息的挑戰[2]。站在用戶的視角上,怎樣通過指數增長的方式迅速的定位自身需求的內容比較困難。站在商家的視角上,怎樣把合適的物品展現在用戶面前,加快交易活動的進行,存在一定難度。
面向語料庫與統計學的自然語言處理技術中的推薦系統便可以處理這些問題。跟蹤用戶的選購與下單信息,給予用戶提供針對性的商品推薦,加強商品曝光率和用戶決策的效率。針對離不開社交平臺與生活服務的網絡用戶,個性化推薦十分普遍,一方面完善商家以及用戶之間的互動,另一方面強化商家與用戶的溝通。此外,對于新聞服務的層面,通過細分化為主的信息研究模式下的個性化新聞信息推送逐步發展為客戶端的集中模式,以了解用戶自身的閱讀內容與評論和社交網絡終端設備機型,綜合研究用戶注重的信息源以及信息核心詞匯,開展專業的分析活動,進一步完成新聞整理和推送,本質上達到新聞個體定制服務的目標,逐步提高用戶的體驗感受。
需要注意的是,對于語料庫的收集,可以對“原料”進行加工,或者替換另外類型的詞匯,也可以檢索舉例的內容,之后保存在語料庫體系中。對于內容的加工,需要保證語料庫內容的實用性,體現新穎性;針對形式層面,可以把語法和詞匯級別進行匹配,替換原有的超綱詞匯,改變語法實際結構適應人們的需求,補充一些信息數據,發揮語料庫的實際價值。
2.2 語音識別
語料庫和面向統計學的自然語言處理技術中包括語音識別的項目,此項目可以促使機器在識別與理解的過程中轉變語言信號,生成對應的文本以及命令,換言之確保機器可以了解人類的語音,目的是把人類語音中涉及的詞匯內容轉變為計算機分析的信息。首先把話語進行分解,包括詞匯與音素等,還要創設理解語義的相關規則,識別技術項目包括前端降噪、語音分幀、特征獲取與狀態配置等內容,框架包括聲學模型、語言模型以及解碼模型。
針對智能化的家居層面,一般家庭會擁有紅外遙控器相關的家電,因為紅外線的傳輸會受到空間的影響,一個紅外線可以把多個遙控設備進行結合,同時以聲音控制為主形成集成設備,可以自動化的切斷電源與更換頻道。若沒有空閑時間,可以在語音的模式下完成人類和職能音箱之間的交互,完成遙控、點歌與網購等活動。比如淋浴期間,借助語音的模式控制好水溫,或者調節室外空調的實際溫度;在開車期間以智能音箱取得電話聯系,確保手機維持在地圖顯示的狀態中,不需要切換干擾其他人員。
2.3 機器翻譯
機器翻譯技術也是自然語言處理技術的一個分支,在語料庫與統計學的視角上取得一定進展。所謂的機器翻譯,也是自動翻譯,主要是在計算機的基礎上把一種形式的自然語言轉變為另外形式的自然語言,將此過程視作機器翻譯的工作狀態。
對于電子商務來講,在跨境電子商務的迅速發展背景下,諸多和不同語言相連的問題相繼產生,跨境電商網絡的有效運作,需要網絡和APP多語言化的強大支撐,用戶希望使用語言完成搜索,然而跨境電商網站自身來講,不會花費高成本給予國家的用戶創設搜索引擎,并且用戶在網站的作用下尋找自身想要的項目,找到自己需求的商品,在用戶了解標題之后,總會分析以下商品的詳情,或者部分用戶會關注商品的評價。若在語言因素的影響下,用戶沒有找到自己需求的信息,便會關掉頁面,由此出現用戶數量的流失,影響交易成效。
3? 語料庫和面向統計學的自然語言處理技術發展展望
對于語料庫的語言學習,以統計學為基礎的自然語言處理技術便是在語料庫中得到多種知識的重點方式,其圍繞的主題包括:語料庫視作唯一信息數據的來源,一切的知識都在語料庫中獲取;借助統計方式獲得知識,站在統計學的意義上解釋知識等。
針對自然語言處理技術,機器翻譯技術的前進一方面給人們的工作帶來便利,另一方面由于運行成本低的優勢,給此項技術的產業化發展帶來諸多商機。比如把一篇文章輸入在翻譯軟件中,可以即時獲取免費的譯文,針對要求不高的網頁來講,在網路中可以找到源文件,由此機器翻譯針對人工翻譯而言,優勢十分凸顯。其針對大多數的公司商業信函角度的翻譯業務具備較強吸引力。然而依舊缺少人類語氣和語調以及肢體語言的利用元素,就像是在文學中,作者通過寫作技巧增添作品的色彩,若使用機器翻譯,便不會較好的模仿翻譯人員,因此在自然語言處理處理的發展展望中,可以朝向真實化的人類行為活動方面轉變。
4? 結語
綜上所述,語料庫和面向統計學的自然語言處理技術研究課題的開展具有十分重要的意義和價值,自然語言處理技術的存在為語言的翻譯與使用提供便利條件,在很大程度上提升人們的生活中質量,需要引起社會人士的廣泛關注。
參考文獻
[1] 王月麗.兼容與沖突:系統功能語言學與語料庫語言學的互鑒互補[J].成都理工大學學報:社會科學版,2018, 26(3):101-106.
[2] 伊爾夏提·吐爾貢, 吾守爾·斯拉木,熱西旦木·吐爾洪太,等.維吾爾文情感語料庫的構建與分析[J].計算機與現代化,2017(4):67-72.