張含陽


摘要??? 本課題以機器人產(chǎn)業(yè)領(lǐng)域的數(shù)字媒體為采樣資料,以R語言編程方法為研究工具,詳細探索齊普夫定律對于信息挖掘的理論指導(dǎo)意義,進一步分析出國內(nèi)數(shù)字媒體對于機器人產(chǎn)業(yè)發(fā)展趨勢的關(guān)注點。該方法論同樣適用于其他產(chǎn)業(yè)領(lǐng)域。
【關(guān)鍵詞】齊普夫定律 數(shù)理語言學(xué) R語言編程 采樣 信息挖掘 機器人產(chǎn)業(yè) 概率
對于機器人產(chǎn)業(yè)來說,通過對于信息資源的數(shù)據(jù)挖掘工作,我們可以理論化地預(yù)測短期內(nèi)的行業(yè)關(guān)注點,對于信息資源的采集和編寫具有指導(dǎo)性意義,以便更好地為雜志定位,為新媒體的數(shù)字信息采集、規(guī)劃提供理論性指導(dǎo),同時對產(chǎn)業(yè)發(fā)展重點也有很強的指導(dǎo)意義。
1 文本采樣
為了集中討論齊普夫信息挖掘?qū)τ谛畔①Y源的現(xiàn)實性意義,本文選定了10篇知名數(shù)字媒體,上發(fā)布的有關(guān)機器人產(chǎn)業(yè)的文章,且文章內(nèi)容具有較高的代表性。采樣文本充分滿足產(chǎn)業(yè)領(lǐng)域人士的政策性需求、學(xué)術(shù)性需求與實用性需求。由于齊普夫定律具有廣適性,本文研究方法同樣適用于除機器人產(chǎn)業(yè)外的其他專業(yè)領(lǐng)域的問題。
樣本源如下:
(1)和訊網(wǎng)(各地政府力推機器人計劃,智能制造前景廣闊)
(2)網(wǎng)易新聞(想象空間大,機器人板塊集體飆升)
(3)新浪新聞中心(學(xué)習(xí)搞不好的孩子不能搞機器人?)
(4)中國機器人網(wǎng)(美國科學(xué)家稱未來自主材料能讓機器人改變顏色和形狀)
(5)新浪科技(智能機器人首次用于三叉神經(jīng)痛臨床)
(6)財富中文網(wǎng)(放一百個心,機器人不會反攻人類)
(7)南方企業(yè)新聞網(wǎng)(沈陽獲批籌建國家機器人質(zhì)量監(jiān)督檢驗中心)
(8)百度百家(暖男大白背后:靠譜智能機器人3元素)
(9)鳳凰財經(jīng)(巨輪股份機器人產(chǎn)品市場逐步打開)
(10)雷鋒網(wǎng)(機器人取代嬰兒做研究:姿勢很重要!)。
經(jīng)統(tǒng)計,采樣文本全文共19886字,基本涵蓋了機器人產(chǎn)業(yè)中的各個領(lǐng)域,符合采樣應(yīng)滿足的隨機性,能夠說明結(jié)果的準(zhǔn)確性。
關(guān)于采樣文本的切分,最理想的處理是把句子切分成最小、最有意義的語言成份——語素。但是語素和作為最小自由活動的語言片段的詞之間,常產(chǎn)生很多難以辨認(rèn)的文義現(xiàn)象。再則,中文文獻的體裁不同、風(fēng)格各異。
鑒于以上兩個因素,本課題做兩點解釋。
(1)由于計算機無法詳細進行語義分析,本課題所做的切分嘗試,并非嚴(yán)格按照漢語的語素切分規(guī)則進行切分,而是采用計算機初篩加人工細篩相結(jié)合的方式。
(2)按最長切分原則,本課題盡量保持詞意的獨立性,如“機器人”不再切分為“機器”+人”。
2 R語言的應(yīng)用
2.1 何為R語言
R語言是主要用于統(tǒng)計分析的語言和操作環(huán)境。R編程語言由新西蘭奧克蘭大學(xué)的RossIhaka和RobertGentleman創(chuàng)造,被廣泛應(yīng)用在統(tǒng)計和科學(xué)領(lǐng)域,在云計算領(lǐng)域處于領(lǐng)先地位。EEESpectrum推出的最流行的編程語言排行榜中,R語言在數(shù)據(jù)語言中位列第三。2.2利用R語言對采樣文本的詞語進行概率統(tǒng)計本課題采用R語言對采樣文本進行漢語詞語切分,同時對詞語的出現(xiàn)頻率進行統(tǒng)計。本課題采用直接拆分法,分別對采樣文本的所有兩字詞、三字詞進行拆分,并逐個比較,比如“機器人產(chǎn)業(yè)”的所有二字組合為“機器、“器人”“人產(chǎn)”“產(chǎn)業(yè)”,所有三字組合為“機器人”、“器人產(chǎn)”、“人產(chǎn)業(yè)”。由于語義混亂的詞使用頻率很低,因此也就間接對所有語素進行了過濾,如遇特殊情況,我們可人工對排序結(jié)果進行篩選。
我們先對雙字詞進行頻率排序,其中采樣文本置于F盤下data文檔中。
源代碼如下所示:
p=scan("F:/data.txt","character',sep="\n");#計算每一行的長度
p.len=nchar(p);
data=p;
#利用標(biāo)點將文章分成句子
sentences-strsplit(data,"、|,|?|。|、”);sentences=-unlist(sentences);
sentences-sentences[sentences!=""];
#計算句子的長度
length=nchar(sentences);
#將每一一個句子拆分為雙字詞
divide-function(x,x.len)substring(x,1:(x..len-l),2:x.len);
phrase-mapply(divide,sentences,length,SIM
PLIFY=TRUE,USE.NAMES-=FALSE);
words=unlist(phrase);
#統(tǒng)計頻數(shù)
words.freq=table(words);
#降序排列
words.freq=sort(words.
freq,decreasing=TRUE);
#顯示結(jié)果
data.frame(Word=names(words.freq[1:200]),F(xiàn)req-=as.integer(words.freq[1:200]);
通過以上代碼,我們就可清晰地得到該采樣文本的雙字詞頻率排序表。通過修改拆分代碼,即“divide-function(x,x.len)substring(x,1:(x.len-1),3:x.len);”,我們可以對三字詞進行頻率排序。
通過以上代碼,我們可清晰地得到該采樣文本的三字詞頻率排序表。整理之后,我們便得到了整個采樣文本的詞頻統(tǒng)計表,詳細列表見附表1。由于低頻詞過多,且對該課題的研究價值不大,因此列表中并未詳盡列出全部詞頻等級的詞匯。
3 利用齊普夫定律進行信息挖掘
3.1 齊普夫定律的意義
上世紀(jì)30年代,美國哈佛大學(xué)語言學(xué)教授齊普夫(G·K·Zipf)經(jīng)過對文獻集中單詞的出現(xiàn)頻率進行統(tǒng)計后發(fā)現(xiàn),雖然各個作者使用了不同的寫作風(fēng)格,但是文集中單詞的頻次與它的等級之間均呈現(xiàn)某種限定關(guān)系。齊普夫用文字描述為“最小努力原則”。齊普夫法則是眾所周知的數(shù)理語言學(xué)中的重要法則,這個法則發(fā)現(xiàn)了在按頻率遞減順序排列的頻率詞表中,單詞的頻率與它的序號之間存在某種冪律關(guān)系。
齊普夫型分布在社會現(xiàn)象中處處存在,如詞語分布、收入分布、地理特征分布、生物種屬分布等等。本課題利用齊普夫定律分析信息的深層內(nèi)涵,正是基于它對社會科學(xué)很多實踐活動有理論指導(dǎo)作用。文獻計量學(xué)家海通曾說過,齊普夫定律是解決社會科學(xué)分布現(xiàn)象最好的定律。
3.2 齊普夫第一定律
如果把一篇較長的文章中每個詞的出現(xiàn)頻率按遞減順序排列,并編上等級序號,即頻次最高的詞等級為1,頻次次之的等級為2,......,頻次最小的詞等級為N。若用f表示頻次(frequency),r表示等級(rank),C和α是參數(shù)。公式如下:
f=Cr-α
根據(jù)齊普夫的研究,凡是高頻率使用的詞,其價值就較小。同時,低頻詞不常出現(xiàn),其詞義本身在這個場合中價值比較少,因此傳遞它們所需要的“力”就不大。因此,最常見且最具有功能的詞是居于中間乘積的中頻詞。經(jīng)驗表明,中頻詞往往包含大量有研究價值的關(guān)鍵詞。那么,本課題的關(guān)鍵就在于如何確定該采樣文本的中頻詞。
齊普夫定律規(guī)定,若采用對數(shù)軸描繪,中頻詞的等級直線斜率近似-1。對于上式兩邊取對數(shù)后得到?? 公式?? ,可化簡為y=b-kx,即采用對數(shù)軸描述的齊普夫第一定律是以-k為斜率的直線。也就是說,當(dāng)?? 公式?? 時,該函數(shù)對應(yīng)的語素為中頻詞。
3.3 齊普夫第一定律在本課題中的應(yīng)用
當(dāng)時,,即中頻詞的頻率與等級的成績近似為一固定常數(shù)。將表1中的數(shù)據(jù)生成曲線圖(以等級為x軸,以乘積為y軸),如圖1所示。
我們對該曲線進行多項式趨勢線擬合,多項式的階數(shù)為2階,得到黑色曲線,如圖2所示。
通過觀察擬合曲線,我們可以看到,等級18可近似視為該凸曲線的拐點,那么該點的二階導(dǎo)數(shù)約為0,即?? 公式?? 。由于拐點附近的函數(shù)變化率最小,因此等級18附近的點更接近某一固定值。我們?nèi)?5-22這個區(qū)間,令這個區(qū)間內(nèi)的詞為中頻詞。那么,這些詞代表著它們所需的“力”最大、最具有研究意義。
經(jīng)過篩選,我們將本課題采樣文本中的中頻詞總結(jié)如表2所示。
4 中國機器人產(chǎn)業(yè)新媒體內(nèi)容的發(fā)展趨勢
綜合分析本課題使用的齊普夫信息挖掘技術(shù),再析回到原文,我們可以得出中國機器人產(chǎn)業(yè)相關(guān)媒體近期關(guān)注的焦點主要在三個方面。
(1)對于機器人產(chǎn)業(yè)的經(jīng)濟類的報道主要關(guān)注于機器人公司的綜合實力,包括營業(yè)收入、凈利潤、業(yè)務(wù)發(fā)展?fàn)顟B(tài)。同時,各種投融資機構(gòu)、基金、股票市場對于機器人產(chǎn)業(yè)的行情預(yù)測也是各類媒體關(guān)注的焦點;
(2)對于機器人產(chǎn)業(yè)的方針政策的報道主要集中在提高中國機器人企業(yè)的創(chuàng)新能力的制度建設(shè)、產(chǎn)業(yè)各環(huán)節(jié)的新政策、新方針;
(3)對于機器人產(chǎn)業(yè)的技術(shù)類的報道主要關(guān)注于機器人領(lǐng)域的自動化或自動控制相關(guān)技術(shù)、機器人的系統(tǒng)集成,以及機器人產(chǎn)品的應(yīng)用工程。
5 結(jié)語
社會學(xué)科研究正在走向定量化的發(fā)展方向,整個科學(xué)研究群體的特征呈現(xiàn)專業(yè)化和綜合化之勢,單純憑直覺和經(jīng)驗的信息挖掘?qū)⒈恢鸩教蕴R普夫信息挖掘技術(shù)就成為了解釋各個領(lǐng)域內(nèi)在規(guī)律的最有效的定律。而利用R語言強大的統(tǒng)計分析能力支持齊普夫定律的運用,則使得信息資源的詞頻與齊普夫分布的擬合實現(xiàn)更快速、更標(biāo)準(zhǔn)的概率化統(tǒng)計,對各個媒體的信息資源挖掘?qū)a(chǎn)生深遠意義,對指導(dǎo)產(chǎn)業(yè)發(fā)展的關(guān)注重點提供了一種更精準(zhǔn)的方法論。
參考文獻
[1]徐文霞.齊普夫定律與中文詞頻分布機理[J].情報科學(xué),1986(01):29.
[2]劉光牛,南雋,劉瀅.中國傳媒全媒體發(fā)展研究報告[J].科技傳播,2010,2-81.
[3]楊霞,吳東偉.R語言在大數(shù)據(jù)處理中的應(yīng)用[J].信息技術(shù),2013(10):19.