林翰軒 耿琛明 史景宏 南京理工大學電子工程與光電技術學院
基于WEB熱詞挖掘的熱點方向預測
林翰軒 耿琛明 史景宏 南京理工大學電子工程與光電技術學院
文章需要解決的是當前熱點領域的分析以及未來熱點領域的預測,同時對最終目標“基于WEB熱詞挖掘的熱點方向預測”進行合理化建議。針對當前領域分析,文章收集大量近期發布的文本數據,確保時效性,對高頻詞匯進行了統計,并進行了當前熱點領域的分析;對于未來熱點領域的預測,文章在數據收集時便對發布數據的時間段、時間跨度做了規定,并結合權威網站以及專家評論,對未來領域做出預測,從而保證預測結果的合理性。
大數據 神經網絡模型 主成分分析
隨著大數據時代的來臨,網絡信息量以爆炸式增長。在此環境下,為了更好的應對包括確定投資方向在內等各類問題,如何更高效地獲取有效信息亟待進一步的解決。文章針對如何從大量數據中提取出特定時期高頻出現的熱點詞的問題,建立了基于神經網絡算法的分詞模型和基于主成分分析法的綜合評價機制。
本模型在對目標文章進行整體分詞的基礎上,對所輸出的有效分詞進行頻率統計,最終確定查找所需的關鍵詞。具體步驟如下:首先,對整篇文章中的語句進行分詞處理;而后,對所分得的分詞進行人工干預:將單字分詞、代詞分詞等無關詞語剔除,在一定程度上減少接下來需要比對的樣本的大小;對剩余的分詞按照頻率大小由高到低進行排序;將所得的分詞序列以10個/組進行劃分,分別于詞庫進行比對,進行所得分詞的可靠性分析;將符合條件的分詞作為文章的關鍵詞。
基于BP(Back Propagation)神經網絡的分詞模型構建如下:
定義2:針對應用域(Application domain)的詞匯集(詞庫):

一般地,可以省去針對某種應用域的限制,認為任何詞庫都是針對一種應用的,νd簡記為ν,于是?v表示在ν的詞匯串集合。
Seg(w,k)=1就表示w是詞;Seg(w,k)=0就 表 示w不是詞。一般來說,當把κ退化為一個詞庫ν時,
由于統計的高頻詞并不一定是關鍵詞,故通過如下公式計算所選高頻詞的熱度:其中,xi為該詞匯在第i個網站的全部所給文檔中出現的頻率,βi為該網站的可信度系數,受到網站規模、樣本密度等多方面因素影響。
在大量網絡數據的匹配以及基于上述兩個高頻詞熱度計算的基礎上,文章結合數據挖掘中的相關理論以及部分經濟分析中的分析要素以及相應原理,考慮了風險和回報率兩個因素對投資方向的確定的影響。針對此次收集到的數據,根據分析,文章認為電子商務以及通信領域是當前投資的熱點領域。在之前的數據統計當中,文章發現科技在熱點詞匯中占有一定的比重,在近期的數據統計中科技依然占有一定比重,此外,智能手機、云數據等隨著科技發展而衍生的新型詞匯,以及互聯網,京東等電子商務平臺亦占有較大的比重,故文章認為通信和電子商務是當前投資的熱點領域。為了更好地實現這一領域的突破與進展,文章特作出如下建議:
(1)建立完善的網絡權威或可信度評價體系:該體系既可具體針對某一領域,可針對特定人群,也可綜合多個領域對相關網站進行綜合性評價(如百度,新浪,谷歌,維基等);(2)WEB熱點信息的動態觀察和及時更新;(3)挖掘算法在海量數據挖掘時的適應性和時效性研究;(4)熱門站點可及時提供當前熱點詞以特工個性化服務,并在此基礎上進行網站整體性能最優化的研究;(5)分析研究分類和聚類在信息采集領域的研究,避免歧義的出現
經過數據統計與模型模擬分析,實現投資趨勢以及投資效益的預測過程中較重要的一步便是WEB大數據的挖掘,具有極強的實用性,但同時這也是一個較新的研究領域。文章經過數據篩選認為通信和電子商務是當前投資的熱點領域。
[1]王敬,中文文檔分類中若干關鍵技術的研究,湖北工業大學碩士學位論文,2007
[2]王俊義,HTML文本自動分類技術的研究與工具的實現,內蒙古大學碩士學位論文,2004
[3]Youby,數據挖掘國內外研究現狀,http://wenda.so.com/q/1365725240061485,2016.5.22
[4]何嘉,基于遺傳算法優化的中文分詞研究,電子科技大學博士學位論文:2012年,8~66
[5]李慶虎,陳玉健,孫家廣,一種中文分詞詞典新機制— —雙字哈希機制,中文信息學報,第17卷第4期:2002,15~18。