999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

文本分割技術(shù)研究現(xiàn)狀與發(fā)展趨勢

2022-04-29 16:02:41劉爽
計(jì)算機(jī)應(yīng)用文摘 2022年13期
關(guān)鍵詞:分析

劉爽

關(guān)鍵詞 文本分割 分析 研究熱點(diǎn)

本文以中國知網(wǎng)數(shù)據(jù)庫和Web of Science 核心合集數(shù)據(jù)庫中的期刊數(shù)據(jù)為數(shù)據(jù)來源,用社會(huì)網(wǎng)絡(luò)分析法對相應(yīng)的知識圖譜進(jìn)行分析,得出簡單且直觀的研究結(jié)論。

1研究方法

本文主要使用的研究方法是社會(huì)網(wǎng)絡(luò)分析法以及共詞分析法。主要利用了SATI 和Ucinet 軟件工具, 首先利用文獻(xiàn)題錄信息統(tǒng)計(jì)分析工具SATI[1] 對文獻(xiàn)的相關(guān)字段信息進(jìn)行處理,生成頻次統(tǒng)計(jì)文檔,提取出樣本數(shù)據(jù)文本詞條,生成共現(xiàn)矩陣。再通過Ucinet[2] 社會(huì)網(wǎng)絡(luò)分析軟件實(shí)現(xiàn)高頻關(guān)鍵詞可視化和高產(chǎn)作者可視化分析,得出相關(guān)研究結(jié)論。

2研究結(jié)果

2.1國內(nèi)作者共現(xiàn)分布分析

使用文獻(xiàn)題錄信息分析工具SATI 對112 篇文獻(xiàn)進(jìn)行統(tǒng)計(jì)分析,得到14 位作者的合作網(wǎng)絡(luò)圖,14 位作者組成了4 個(gè)團(tuán)隊(duì),其中合作頻率最高的團(tuán)隊(duì)是由石晶、李萬龍、胡明、戴國忠四位作者組成,基于LDA 模型的文本分割以LDA 為語料庫及文本建模,利用MCMC 中的Gibbs 抽樣進(jìn)行推理,間接計(jì)算模型參數(shù),獲取詞匯的概率分布,使隱藏于片段內(nèi)的不同主題與文本表面的字詞建立聯(lián)系[3] 。

第二個(gè)團(tuán)隊(duì)是由卡米力·木依丁、艾斯卡爾·艾木都拉、易曉芳三人組成,主要針對維吾爾文手寫體文本中行分割問題,基于連通域大小將圖像中文字分為三類,提出了自適應(yīng)涂抹細(xì)化算法,對主體文本行進(jìn)行定位;并對第三類連通域中相鄰兩文本行間粘連的字符進(jìn)行切割[4] 。該團(tuán)隊(duì)還研究了現(xiàn)有算法對于筆畫中含有大量離散筆畫點(diǎn)和附加部分的手寫體文本分割性能較低的問題,并提出一種基于分段式前景涂抹和背景細(xì)化的文本行分割算法[5] 。

第三個(gè)團(tuán)隊(duì)是由宋錦萍、楊曉藝、侯玉華組成,該團(tuán)隊(duì)針對文本圖像首先提出了一種基于小波域多狀態(tài)隱馬爾科夫樹模型的自適應(yīng)文本圖像分割算法,該算法具有較高的分割質(zhì)量和較低的計(jì)算復(fù)雜度[6] 。

2.2國外作者共現(xiàn)分布分析

利用SATI 軟件對Web of Science 核心合集中156 篇外文核心期刊數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析,統(tǒng)計(jì)結(jié)果表明35 位高產(chǎn)作者組成了6 個(gè)合作團(tuán)隊(duì),他們中合作次數(shù)最多的是由Kumar, Pradeep, Saini,Rajkumar,Roy,Partha Pratim,Dogra,Debi Prosad 組成的團(tuán)隊(duì),該團(tuán)隊(duì)提出了一種通過3D 空氣寫作的人機(jī)交互(HCI)方法[7] 。

第二個(gè)團(tuán)隊(duì)是由Lamprier, Sylvain, Amghar,Tassadit,Saubion,F(xiàn)rederic 等人組成,主要提出了兩種新的分割算法,即ClassStruggle 和SegGen,其使用了標(biāo)準(zhǔn)渲染文本的全局視圖[8] 。

第三個(gè)團(tuán)隊(duì)由Brodic,Darko,Milivojevic,DraganR,Milivojevic,Zoran 等人組成,該團(tuán)隊(duì)提出了基于各向異性高斯核的文本行分割算法,利用研究結(jié)果進(jìn)行了各向異性和定向高斯核算法的比較分析[9] 。

第四個(gè)團(tuán)隊(duì)由Alaei,Alireza,Nagabhushan P,Pal,Umapada 組成,該團(tuán)隊(duì)用52 頁的波斯語文本文件測試了所提出的算法,其中包含總計(jì)823 行并且實(shí)現(xiàn)了92.35%的正確行分割[10] 。

第五個(gè)團(tuán)隊(duì)由Fragkou P,Petridis V,Kehagias A組成,他們介紹了一種動(dòng)態(tài)規(guī)劃算法,該算法通過全局最小化分段代價(jià)函數(shù)來執(zhí)行線性文本分段,該分段代價(jià)函數(shù)結(jié)合了兩個(gè)因素:段內(nèi)單詞相似度和關(guān)于段長度的先驗(yàn)信息[11] 。

第六個(gè)團(tuán)隊(duì)由Laleye,F(xiàn)rejus A.A,Motamed,Cina,Ezin,Eugene C 組成,他們提出了一種基于樸素貝葉斯和學(xué)習(xí)矢量量化(LVQ)組合的新型分類器,該分類器使用加權(quán)投票來識別貝寧當(dāng)?shù)卣Z言Fongbe 的輔音和元音[12] 。

2.3社會(huì)網(wǎng)絡(luò)分析

使用Ucinet6 軟件對共現(xiàn)矩陣中的數(shù)據(jù)進(jìn)行可視化,便于清晰看出關(guān)鍵詞之間的關(guān)系。圖1 顯示,國內(nèi)文本分割主題的文獻(xiàn)研究內(nèi)容中文本分割、LDA 模型法、OCR 是詞頻共現(xiàn)網(wǎng)絡(luò)圖中出現(xiàn)頻率最高的關(guān)鍵詞,也是整個(gè)網(wǎng)絡(luò)共現(xiàn)圖的核心。通過圖1 還可以看出,其他高頻關(guān)鍵詞之間的聯(lián)系較少,這說明國內(nèi)文本分割領(lǐng)域的研究主題在不斷地向外放射狀擴(kuò)展。以同樣的方式得到國外文本分割高頻關(guān)鍵詞共現(xiàn)圖譜,從圖2 可以看出,國外文本分割主題的研究內(nèi)容也是以文本分割為整個(gè)網(wǎng)絡(luò)的中心向外擴(kuò)散。但國外的高頻關(guān)鍵詞圖譜明顯要比國內(nèi)的聯(lián)系緊密,大多數(shù)的關(guān)鍵詞之間都是有聯(lián)系的。

3結(jié)語

本文以可視化形式對112 篇文本分割中文核心期刊文獻(xiàn)和156 篇文本分割外文期刊文獻(xiàn)的外部特征與內(nèi)容特征進(jìn)行了全面分析,進(jìn)而得出以下結(jié)論:首先,國內(nèi)文本分割研究主要集中于計(jì)算機(jī)科學(xué)領(lǐng)域,在圖書情報(bào)領(lǐng)域出現(xiàn)得并不多。其次,國內(nèi)文本分割研究者的合作群較少,各研究團(tuán)隊(duì)之間聯(lián)系較少,研究團(tuán)隊(duì)體系不成熟。最后,國內(nèi)外文本分割的熱點(diǎn)主題相似,但國外有關(guān)文本分割的研究團(tuán)隊(duì)比國內(nèi)成熟,并且國外有關(guān)文本分割的研究也早于國內(nèi),國內(nèi)學(xué)者對于文本分割的研究主要集中在計(jì)算機(jī)科學(xué)領(lǐng)域,國內(nèi)圖書情報(bào)領(lǐng)域的學(xué)者需要更多地向國外學(xué)者學(xué)習(xí)。

雖然本文數(shù)據(jù)檢索范圍涉及中國知網(wǎng)和Web ofScience 核心合集兩大數(shù)據(jù)庫,但在實(shí)際分析過程中,本文僅采用了中國知網(wǎng)和Web of Science 核心合集中的期刊數(shù)據(jù)作為樣本,所以本文在研究樣本的選取上存在一定的局限性,但研究結(jié)果展示了國內(nèi)外文本分割的研究現(xiàn)狀與研究熱點(diǎn),對我國文本分割研究者的研究工作有一定的幫助,能夠?yàn)榻窈蟮难芯抗ぷ魈峁﹨⒖肌?/p>

猜你喜歡
分析
禽大腸桿菌病的分析、診斷和防治
隱蔽失效適航要求符合性驗(yàn)證分析
電力系統(tǒng)不平衡分析
電子制作(2018年18期)2018-11-14 01:48:24
電力系統(tǒng)及其自動(dòng)化發(fā)展趨勢分析
經(jīng)濟(jì)危機(jī)下的均衡與非均衡分析
對計(jì)劃生育必要性以及其貫徹實(shí)施的分析
GB/T 7714-2015 與GB/T 7714-2005對比分析
出版與印刷(2016年3期)2016-02-02 01:20:11
中西醫(yī)結(jié)合治療抑郁癥100例分析
偽造有價(jià)證券罪立法比較分析
在線教育與MOOC的比較分析
主站蜘蛛池模板: 最新国产成人剧情在线播放| 怡春院欧美一区二区三区免费| 久久天天躁狠狠躁夜夜2020一| 国产精品青青| 亚洲福利视频网址| 亚洲免费人成影院| 天天综合色网| 国产农村精品一级毛片视频| 亚洲精品无码不卡在线播放| 欧美无遮挡国产欧美另类| 人妻精品久久无码区| www成人国产在线观看网站| 人妻出轨无码中文一区二区| 99热这里只有精品国产99| 看国产毛片| 欧美劲爆第一页| 国产91麻豆免费观看| 国产18页| 亚洲天堂成人| 日本中文字幕久久网站| 51国产偷自视频区视频手机观看 | 国产中文一区a级毛片视频| 久久香蕉国产线看观看精品蕉| 国产视频入口| 亚洲swag精品自拍一区| 色综合中文| 99热这里只有免费国产精品| 成人国产一区二区三区| 色天天综合| 国产精品尤物在线| 亚洲一区二区成人| 免费在线色| 亚洲综合激情另类专区| 99久久精品视香蕉蕉| 日韩中文字幕亚洲无线码| 亚洲另类色| 日本黄色a视频| 亚洲视频a| 久久久久青草大香线综合精品| 呦女精品网站| 黄色成年视频| 91精品在线视频观看| 亚洲精品图区| 日韩最新中文字幕| 污视频日本| 欧美日韩国产精品综合| 国产性生大片免费观看性欧美| 2021国产乱人伦在线播放| 国内精品自在欧美一区| 天天色天天操综合网| 色悠久久久| 婷婷综合亚洲| 亚洲va精品中文字幕| 国内黄色精品| 伊人久综合| www中文字幕在线观看| 亚洲无限乱码| 国产成人精品高清不卡在线| 九九热在线视频| 亚洲午夜18| 无码一区中文字幕| 国产大片黄在线观看| 国产成人夜色91| 久久青草视频| 另类专区亚洲| 欧美日韩国产在线观看一区二区三区| 福利片91| 婷婷丁香在线观看| 精品国产自在现线看久久| 丁香婷婷综合激情| 国产成人无码Av在线播放无广告| 久久精品这里只有精99品| 人妻精品全国免费视频| 人人91人人澡人人妻人人爽| 国产在线自乱拍播放| 日韩欧美亚洲国产成人综合| 国产福利在线免费观看| 欧美激情视频一区| 亚洲欧美日韩另类在线一| 国产精品第一区| 日本在线视频免费| 任我操在线视频|