999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于R語言的齊普夫信息挖掘

2019-06-20 10:31:23張含陽
電子技術(shù)與軟件工程 2019年5期

張含陽

摘要??? 本課題以機器人產(chǎn)業(yè)領(lǐng)域的數(shù)字媒體為采樣資料,以R語言編程方法為研究工具,詳細探索齊普夫定律對于信息挖掘的理論指導(dǎo)意義,進一步分析出國內(nèi)數(shù)字媒體對于機器人產(chǎn)業(yè)發(fā)展趨勢的關(guān)注點。該方法論同樣適用于其他產(chǎn)業(yè)領(lǐng)域。

【關(guān)鍵詞】齊普夫定律 數(shù)理語言學(xué) R語言編程 采樣 信息挖掘 機器人產(chǎn)業(yè) 概率

對于機器人產(chǎn)業(yè)來說,通過對于信息資源的數(shù)據(jù)挖掘工作,我們可以理論化地預(yù)測短期內(nèi)的行業(yè)關(guān)注點,對于信息資源的采集和編寫具有指導(dǎo)性意義,以便更好地為雜志定位,為新媒體的數(shù)字信息采集、規(guī)劃提供理論性指導(dǎo),同時對產(chǎn)業(yè)發(fā)展重點也有很強的指導(dǎo)意義。

1 文本采樣

為了集中討論齊普夫信息挖掘?qū)τ谛畔①Y源的現(xiàn)實性意義,本文選定了10篇知名數(shù)字媒體,上發(fā)布的有關(guān)機器人產(chǎn)業(yè)的文章,且文章內(nèi)容具有較高的代表性。采樣文本充分滿足產(chǎn)業(yè)領(lǐng)域人士的政策性需求、學(xué)術(shù)性需求與實用性需求。由于齊普夫定律具有廣適性,本文研究方法同樣適用于除機器人產(chǎn)業(yè)外的其他專業(yè)領(lǐng)域的問題。

樣本源如下:

(1)和訊網(wǎng)(各地政府力推機器人計劃,智能制造前景廣闊)

(2)網(wǎng)易新聞(想象空間大,機器人板塊集體飆升)

(3)新浪新聞中心(學(xué)習(xí)搞不好的孩子不能搞機器人?)

(4)中國機器人網(wǎng)(美國科學(xué)家稱未來自主材料能讓機器人改變顏色和形狀)

(5)新浪科技(智能機器人首次用于三叉神經(jīng)痛臨床)

(6)財富中文網(wǎng)(放一百個心,機器人不會反攻人類)

(7)南方企業(yè)新聞網(wǎng)(沈陽獲批籌建國家機器人質(zhì)量監(jiān)督檢驗中心)

(8)百度百家(暖男大白背后:靠譜智能機器人3元素)

(9)鳳凰財經(jīng)(巨輪股份機器人產(chǎn)品市場逐步打開)

(10)雷鋒網(wǎng)(機器人取代嬰兒做研究:姿勢很重要!)。

經(jīng)統(tǒng)計,采樣文本全文共19886字,基本涵蓋了機器人產(chǎn)業(yè)中的各個領(lǐng)域,符合采樣應(yīng)滿足的隨機性,能夠說明結(jié)果的準(zhǔn)確性。

關(guān)于采樣文本的切分,最理想的處理是把句子切分成最小、最有意義的語言成份——語素。但是語素和作為最小自由活動的語言片段的詞之間,常產(chǎn)生很多難以辨認(rèn)的文義現(xiàn)象。再則,中文文獻的體裁不同、風(fēng)格各異。

鑒于以上兩個因素,本課題做兩點解釋。

(1)由于計算機無法詳細進行語義分析,本課題所做的切分嘗試,并非嚴(yán)格按照漢語的語素切分規(guī)則進行切分,而是采用計算機初篩加人工細篩相結(jié)合的方式。

(2)按最長切分原則,本課題盡量保持詞意的獨立性,如“機器人”不再切分為“機器”+人”。

2 R語言的應(yīng)用

2.1 何為R語言

R語言是主要用于統(tǒng)計分析的語言和操作環(huán)境。R編程語言由新西蘭奧克蘭大學(xué)的RossIhaka和RobertGentleman創(chuàng)造,被廣泛應(yīng)用在統(tǒng)計和科學(xué)領(lǐng)域,在云計算領(lǐng)域處于領(lǐng)先地位。EEESpectrum推出的最流行的編程語言排行榜中,R語言在數(shù)據(jù)語言中位列第三。2.2利用R語言對采樣文本的詞語進行概率統(tǒng)計本課題采用R語言對采樣文本進行漢語詞語切分,同時對詞語的出現(xiàn)頻率進行統(tǒng)計。本課題采用直接拆分法,分別對采樣文本的所有兩字詞、三字詞進行拆分,并逐個比較,比如“機器人產(chǎn)業(yè)”的所有二字組合為“機器、“器人”“人產(chǎn)”“產(chǎn)業(yè)”,所有三字組合為“機器人”、“器人產(chǎn)”、“人產(chǎn)業(yè)”。由于語義混亂的詞使用頻率很低,因此也就間接對所有語素進行了過濾,如遇特殊情況,我們可人工對排序結(jié)果進行篩選。

我們先對雙字詞進行頻率排序,其中采樣文本置于F盤下data文檔中。

源代碼如下所示:

p=scan("F:/data.txt","character',sep="\n");#計算每一行的長度

p.len=nchar(p);

data=p;

#利用標(biāo)點將文章分成句子

sentences-strsplit(data,"、|,|?|。|、”);sentences=-unlist(sentences);

sentences-sentences[sentences!=""];

#計算句子的長度

length=nchar(sentences);

#將每一一個句子拆分為雙字詞

divide-function(x,x.len)substring(x,1:(x..len-l),2:x.len);

phrase-mapply(divide,sentences,length,SIM

PLIFY=TRUE,USE.NAMES-=FALSE);

words=unlist(phrase);

#統(tǒng)計頻數(shù)

words.freq=table(words);

#降序排列

words.freq=sort(words.

freq,decreasing=TRUE);

#顯示結(jié)果

data.frame(Word=names(words.freq[1:200]),F(xiàn)req-=as.integer(words.freq[1:200]);

通過以上代碼,我們就可清晰地得到該采樣文本的雙字詞頻率排序表。通過修改拆分代碼,即“divide-function(x,x.len)substring(x,1:(x.len-1),3:x.len);”,我們可以對三字詞進行頻率排序。

通過以上代碼,我們可清晰地得到該采樣文本的三字詞頻率排序表。整理之后,我們便得到了整個采樣文本的詞頻統(tǒng)計表,詳細列表見附表1。由于低頻詞過多,且對該課題的研究價值不大,因此列表中并未詳盡列出全部詞頻等級的詞匯。

3 利用齊普夫定律進行信息挖掘

3.1 齊普夫定律的意義

上世紀(jì)30年代,美國哈佛大學(xué)語言學(xué)教授齊普夫(G·K·Zipf)經(jīng)過對文獻集中單詞的出現(xiàn)頻率進行統(tǒng)計后發(fā)現(xiàn),雖然各個作者使用了不同的寫作風(fēng)格,但是文集中單詞的頻次與它的等級之間均呈現(xiàn)某種限定關(guān)系。齊普夫用文字描述為“最小努力原則”。齊普夫法則是眾所周知的數(shù)理語言學(xué)中的重要法則,這個法則發(fā)現(xiàn)了在按頻率遞減順序排列的頻率詞表中,單詞的頻率與它的序號之間存在某種冪律關(guān)系。

齊普夫型分布在社會現(xiàn)象中處處存在,如詞語分布、收入分布、地理特征分布、生物種屬分布等等。本課題利用齊普夫定律分析信息的深層內(nèi)涵,正是基于它對社會科學(xué)很多實踐活動有理論指導(dǎo)作用。文獻計量學(xué)家海通曾說過,齊普夫定律是解決社會科學(xué)分布現(xiàn)象最好的定律。

3.2 齊普夫第一定律

如果把一篇較長的文章中每個詞的出現(xiàn)頻率按遞減順序排列,并編上等級序號,即頻次最高的詞等級為1,頻次次之的等級為2,......,頻次最小的詞等級為N。若用f表示頻次(frequency),r表示等級(rank),C和α是參數(shù)。公式如下:

f=Cr-α

根據(jù)齊普夫的研究,凡是高頻率使用的詞,其價值就較小。同時,低頻詞不常出現(xiàn),其詞義本身在這個場合中價值比較少,因此傳遞它們所需要的“力”就不大。因此,最常見且最具有功能的詞是居于中間乘積的中頻詞。經(jīng)驗表明,中頻詞往往包含大量有研究價值的關(guān)鍵詞。那么,本課題的關(guān)鍵就在于如何確定該采樣文本的中頻詞。

齊普夫定律規(guī)定,若采用對數(shù)軸描繪,中頻詞的等級直線斜率近似-1。對于上式兩邊取對數(shù)后得到?? 公式?? ,可化簡為y=b-kx,即采用對數(shù)軸描述的齊普夫第一定律是以-k為斜率的直線。也就是說,當(dāng)?? 公式?? 時,該函數(shù)對應(yīng)的語素為中頻詞。

3.3 齊普夫第一定律在本課題中的應(yīng)用

當(dāng)時,,即中頻詞的頻率與等級的成績近似為一固定常數(shù)。將表1中的數(shù)據(jù)生成曲線圖(以等級為x軸,以乘積為y軸),如圖1所示。

我們對該曲線進行多項式趨勢線擬合,多項式的階數(shù)為2階,得到黑色曲線,如圖2所示。

通過觀察擬合曲線,我們可以看到,等級18可近似視為該凸曲線的拐點,那么該點的二階導(dǎo)數(shù)約為0,即?? 公式?? 。由于拐點附近的函數(shù)變化率最小,因此等級18附近的點更接近某一固定值。我們?nèi)?5-22這個區(qū)間,令這個區(qū)間內(nèi)的詞為中頻詞。那么,這些詞代表著它們所需的“力”最大、最具有研究意義。

經(jīng)過篩選,我們將本課題采樣文本中的中頻詞總結(jié)如表2所示。

4 中國機器人產(chǎn)業(yè)新媒體內(nèi)容的發(fā)展趨勢

綜合分析本課題使用的齊普夫信息挖掘技術(shù),再析回到原文,我們可以得出中國機器人產(chǎn)業(yè)相關(guān)媒體近期關(guān)注的焦點主要在三個方面。

(1)對于機器人產(chǎn)業(yè)的經(jīng)濟類的報道主要關(guān)注于機器人公司的綜合實力,包括營業(yè)收入、凈利潤、業(yè)務(wù)發(fā)展?fàn)顟B(tài)。同時,各種投融資機構(gòu)、基金、股票市場對于機器人產(chǎn)業(yè)的行情預(yù)測也是各類媒體關(guān)注的焦點;

(2)對于機器人產(chǎn)業(yè)的方針政策的報道主要集中在提高中國機器人企業(yè)的創(chuàng)新能力的制度建設(shè)、產(chǎn)業(yè)各環(huán)節(jié)的新政策、新方針;

(3)對于機器人產(chǎn)業(yè)的技術(shù)類的報道主要關(guān)注于機器人領(lǐng)域的自動化或自動控制相關(guān)技術(shù)、機器人的系統(tǒng)集成,以及機器人產(chǎn)品的應(yīng)用工程。

5 結(jié)語

社會學(xué)科研究正在走向定量化的發(fā)展方向,整個科學(xué)研究群體的特征呈現(xiàn)專業(yè)化和綜合化之勢,單純憑直覺和經(jīng)驗的信息挖掘?qū)⒈恢鸩教蕴R普夫信息挖掘技術(shù)就成為了解釋各個領(lǐng)域內(nèi)在規(guī)律的最有效的定律。而利用R語言強大的統(tǒng)計分析能力支持齊普夫定律的運用,則使得信息資源的詞頻與齊普夫分布的擬合實現(xiàn)更快速、更標(biāo)準(zhǔn)的概率化統(tǒng)計,對各個媒體的信息資源挖掘?qū)a(chǎn)生深遠意義,對指導(dǎo)產(chǎn)業(yè)發(fā)展的關(guān)注重點提供了一種更精準(zhǔn)的方法論。

參考文獻

[1]徐文霞.齊普夫定律與中文詞頻分布機理[J].情報科學(xué),1986(01):29.

[2]劉光牛,南雋,劉瀅.中國傳媒全媒體發(fā)展研究報告[J].科技傳播,2010,2-81.

[3]楊霞,吳東偉.R語言在大數(shù)據(jù)處理中的應(yīng)用[J].信息技術(shù),2013(10):19.

主站蜘蛛池模板: 久久免费精品琪琪| 国产成人一区在线播放| 99re在线视频观看| 欧美精品成人一区二区视频一| 无码高潮喷水在线观看| 爆乳熟妇一区二区三区| 国产免费一级精品视频| 精品欧美视频| 风韵丰满熟妇啪啪区老熟熟女| 亚洲欧美日韩高清综合678| 日韩乱码免费一区二区三区| 亚洲欧美日韩中文字幕在线一区| 国产精品第一区在线观看| 国产午夜精品一区二区三| 国产成人一级| 日韩在线播放欧美字幕| 中国一级特黄大片在线观看| 91精品小视频| 国产午夜精品一区二区三区软件| av在线人妻熟妇| 久久综合色天堂av| 青青国产在线| 国产高潮视频在线观看| 午夜视频免费试看| 在线视频精品一区| 波多野结衣一级毛片| 亚洲综合在线最大成人| 538国产视频| 国产丝袜91| 欧美在线视频不卡| 日韩精品一区二区三区视频免费看| 国产在线观看精品| 尤物在线观看乱码| 国产青青草视频| 国产呦视频免费视频在线观看| 免费无码AV片在线观看中文| 97超碰精品成人国产| 国产成人a在线观看视频| 国产精品第页| 色视频国产| 久久免费成人| 国产福利小视频在线播放观看| 欧美精品在线视频观看| 国产美女一级毛片| 91福利在线观看视频| 毛片网站在线看| 亚洲美女久久| 老司机久久精品视频| 香蕉视频在线观看www| 亚洲视频免费播放| 国产91视频免费观看| 亚洲 成人国产| 少妇高潮惨叫久久久久久| 中文字幕欧美日韩| 97人人模人人爽人人喊小说| 亚洲精品男人天堂| 亚洲精品va| 午夜三级在线| 成人a免费α片在线视频网站| 婷婷综合在线观看丁香| 成人蜜桃网| 国产激情无码一区二区免费 | 亚洲综合精品香蕉久久网| 综合社区亚洲熟妇p| 精品国产香蕉在线播出| 亚洲热线99精品视频| 国产18在线| 美女被操黄色视频网站| 国产亚卅精品无码| 国产一区二区三区在线观看视频 | 亚洲精品第五页| 波多野结衣的av一区二区三区| 国产成人1024精品下载| 国产精品无码影视久久久久久久| 99久久精品免费看国产电影| 欧美精品亚洲精品日韩专区va| 91九色视频网| 国产视频大全| 2020亚洲精品无码| 国产尤物jk自慰制服喷水| 午夜福利视频一区| 日本亚洲欧美在线|