【摘要】基于LSA技術(關鍵語義提取技術)是一種信息檢索代數模型,用統計的方法對大量文本集進行分析,而短信銷售系統也作為一種新型銷售系統被越來越多的人接受,但運用LSA技術開發的銷售系統卻比較稀見,本文對LSA技術近年的發展和技術原理進行較為詳細闡述,并對使用該技術的短信銷售系統開發前景進行分析。
【關鍵詞】LSA;語義提取;短信銷售系統
0.引言
LSA是一種語義分析理論,早在1988年就最先在美國被提出并研究,其本質是潛在語義分析(Latent Semantic Analysis)通過奇異值分解(Singular Value Decomposition)分析文本集之間的關系,找出關鍵詞及語義間映射規則的方法。在計算機中被廣泛運用于檢索領域,而短信銷售系統也是目前比較流行的網絡通訊銷售方式,可采用單發或分組群發方式,而我們日常使用的手機就直接作為客戶終端機。當然這類終端也包含日常使用的平板電腦或者掌上電腦。
1.技術分析和開發現狀
基于LSA的短信銷售類系統的開發重點和難點就是LSA的引擎開發和其預料上。由于LSA采用非負矩陣分解語義降維達對信息過濾和去噪,獲得原始矩陣的降維近似逼近陣,將文檔和詞語的高維表示投影到低維的潛在語義空間中,使文檔低維表示,揭示語義聯系難點在于漢語千變萬化,而系統接收是用的是實體與實體關系表示,這樣信息越多,“關系“也越多,這也同時加大了關系庫的建立周期和系統測試的時間。而在技術預料上,潛在語義分析(LSA)理論作為眾多語義分析理論中的一種,其使用會受到系統中知識庫本身的準確性影響。如系統事先預制的問題和答案準確性不夠,則會對用戶的使用造成影響,造成答案命中率降低、用戶滿意度降低的問題。解決此問題需要通過事先篩選知識庫中關于銷售產品的相關信息,并針對實際應用場景進行相同語義、不同表達方式的測試,以保證系統通過LSA算法得出的答案是最接近用戶期望的回答,這也是自助方式的開發關鍵之一。
由于該技術開發具有難度,涉及大量維度,數學模型,關系等,加之對開發設備也有一定要求,如需要通訊設備,網絡設備,及相關軟件等必然加大開發周期。另外該系統也存在一定的市場風險,這也是該系統開發低于傳統網絡銷售系統開發更新速度的一個重要原因,新產品由于性能、穩定性或消費者慣性等因素被市場接受存在一定被動性,目前該技術在國內研究主要在發展了10來年時間,對于中文文本的檢索,分析直到建立語言關系,用一種或者幾種數學降維方式來達到簡化和表達文字關系的運用主要在幾個方面:
BBS上的文本潛在語義提取分析,如四川大學劉昌鈺發表的《基于潛在語義分析的BBS文檔Bayes鑒別器》,國家自然科學基金資助(60073046)提出的自然語言理解技術和概率統計法,對中文BBS的語義提取做了詳細的分析,屬于較早的一類該技術運用分析論文和課題,而后,大連理工大學的寧鍵的《基于改進潛在語義分析的交叉語言檢索》國家自然科學基金項目(60373095)同時該項目也是國家863高科技計劃資助項目,也提出了使用潛在語義分析的改進技術。
2.短信銷售系統現狀
然而LSA在短信銷售系統上開發也具備非常成熟的和廣闊的前景。
目前在國內,使用手機這個普及率在中國達到52%的國家(2010年統計6.35億)的工具作為自助工具比使用傳統定制網頁(網民普及率僅為4.3億,占31.4%,2010統計)更具優勢(兩種方式人口差兩億多)的這樣一個系統。其節約開發和管理成本以及普及率高使其具有很大的市場空間和效益優勢,而其維護成本也遠遠低于網站維護成本。
而且這種方式幾乎是目前最方便和易用的方式,除非更改目前使用的通訊工具,其發展方向會向語音過濾,圖像識別定制等更方便方向發展。
3.結論
隨著LSA技術的不斷深入研究,現在已經在信息檢索方面得到廣泛應用,在應用領域的不斷拓展的同時,該項技術也在信息過濾、跨語言檢索、認知科學和數據挖掘中的信息理解、判斷和預測等眾多領域中有著廣泛的應用。可以預見,LSA在短信銷售系統信息檢索方面的運用,可以說是非常適宜和前景光明的。
【參考文獻】
[1]George Reese.程燁等譯.Cloud Application Architectures[M].北京:電子工業出版社,2010.
[2]王鵬.云計算的關鍵技術與應用[M].北京:人民郵電出版社,2010.
[3]IBM websphere together second Edition 2008.
[4]張永奎,趙輒謙,白麗君等.基于互聯網的中文問答系統.計算機工程,2007.
[5]崔桓,蔡東風,苗雪雷.基于網絡的中文問答系統及信息抽取算法研究.中文信息學報,2006.