999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

文本分割技術研究現(xiàn)狀與發(fā)展趨勢

2022-04-29 16:02:41劉爽
計算機應用文摘 2022年13期
關鍵詞:分析

劉爽

關鍵詞 文本分割 分析 研究熱點

本文以中國知網(wǎng)數(shù)據(jù)庫和Web of Science 核心合集數(shù)據(jù)庫中的期刊數(shù)據(jù)為數(shù)據(jù)來源,用社會網(wǎng)絡分析法對相應的知識圖譜進行分析,得出簡單且直觀的研究結論。

1研究方法

本文主要使用的研究方法是社會網(wǎng)絡分析法以及共詞分析法。主要利用了SATI 和Ucinet 軟件工具, 首先利用文獻題錄信息統(tǒng)計分析工具SATI[1] 對文獻的相關字段信息進行處理,生成頻次統(tǒng)計文檔,提取出樣本數(shù)據(jù)文本詞條,生成共現(xiàn)矩陣。再通過Ucinet[2] 社會網(wǎng)絡分析軟件實現(xiàn)高頻關鍵詞可視化和高產(chǎn)作者可視化分析,得出相關研究結論。

2研究結果

2.1國內作者共現(xiàn)分布分析

使用文獻題錄信息分析工具SATI 對112 篇文獻進行統(tǒng)計分析,得到14 位作者的合作網(wǎng)絡圖,14 位作者組成了4 個團隊,其中合作頻率最高的團隊是由石晶、李萬龍、胡明、戴國忠四位作者組成,基于LDA 模型的文本分割以LDA 為語料庫及文本建模,利用MCMC 中的Gibbs 抽樣進行推理,間接計算模型參數(shù),獲取詞匯的概率分布,使隱藏于片段內的不同主題與文本表面的字詞建立聯(lián)系[3] 。

第二個團隊是由卡米力·木依丁、艾斯卡爾·艾木都拉、易曉芳三人組成,主要針對維吾爾文手寫體文本中行分割問題,基于連通域大小將圖像中文字分為三類,提出了自適應涂抹細化算法,對主體文本行進行定位;并對第三類連通域中相鄰兩文本行間粘連的字符進行切割[4] 。該團隊還研究了現(xiàn)有算法對于筆畫中含有大量離散筆畫點和附加部分的手寫體文本分割性能較低的問題,并提出一種基于分段式前景涂抹和背景細化的文本行分割算法[5] 。

第三個團隊是由宋錦萍、楊曉藝、侯玉華組成,該團隊針對文本圖像首先提出了一種基于小波域多狀態(tài)隱馬爾科夫樹模型的自適應文本圖像分割算法,該算法具有較高的分割質量和較低的計算復雜度[6] 。

2.2國外作者共現(xiàn)分布分析

利用SATI 軟件對Web of Science 核心合集中156 篇外文核心期刊數(shù)據(jù)進行統(tǒng)計分析,統(tǒng)計結果表明35 位高產(chǎn)作者組成了6 個合作團隊,他們中合作次數(shù)最多的是由Kumar, Pradeep, Saini,Rajkumar,Roy,Partha Pratim,Dogra,Debi Prosad 組成的團隊,該團隊提出了一種通過3D 空氣寫作的人機交互(HCI)方法[7] 。

第二個團隊是由Lamprier, Sylvain, Amghar,Tassadit,Saubion,F(xiàn)rederic 等人組成,主要提出了兩種新的分割算法,即ClassStruggle 和SegGen,其使用了標準渲染文本的全局視圖[8] 。

第三個團隊由Brodic,Darko,Milivojevic,DraganR,Milivojevic,Zoran 等人組成,該團隊提出了基于各向異性高斯核的文本行分割算法,利用研究結果進行了各向異性和定向高斯核算法的比較分析[9] 。

第四個團隊由Alaei,Alireza,Nagabhushan P,Pal,Umapada 組成,該團隊用52 頁的波斯語文本文件測試了所提出的算法,其中包含總計823 行并且實現(xiàn)了92.35%的正確行分割[10] 。

第五個團隊由Fragkou P,Petridis V,Kehagias A組成,他們介紹了一種動態(tài)規(guī)劃算法,該算法通過全局最小化分段代價函數(shù)來執(zhí)行線性文本分段,該分段代價函數(shù)結合了兩個因素:段內單詞相似度和關于段長度的先驗信息[11] 。

第六個團隊由Laleye,F(xiàn)rejus A.A,Motamed,Cina,Ezin,Eugene C 組成,他們提出了一種基于樸素貝葉斯和學習矢量量化(LVQ)組合的新型分類器,該分類器使用加權投票來識別貝寧當?shù)卣Z言Fongbe 的輔音和元音[12] 。

2.3社會網(wǎng)絡分析

使用Ucinet6 軟件對共現(xiàn)矩陣中的數(shù)據(jù)進行可視化,便于清晰看出關鍵詞之間的關系。圖1 顯示,國內文本分割主題的文獻研究內容中文本分割、LDA 模型法、OCR 是詞頻共現(xiàn)網(wǎng)絡圖中出現(xiàn)頻率最高的關鍵詞,也是整個網(wǎng)絡共現(xiàn)圖的核心。通過圖1 還可以看出,其他高頻關鍵詞之間的聯(lián)系較少,這說明國內文本分割領域的研究主題在不斷地向外放射狀擴展。以同樣的方式得到國外文本分割高頻關鍵詞共現(xiàn)圖譜,從圖2 可以看出,國外文本分割主題的研究內容也是以文本分割為整個網(wǎng)絡的中心向外擴散。但國外的高頻關鍵詞圖譜明顯要比國內的聯(lián)系緊密,大多數(shù)的關鍵詞之間都是有聯(lián)系的。

3結語

本文以可視化形式對112 篇文本分割中文核心期刊文獻和156 篇文本分割外文期刊文獻的外部特征與內容特征進行了全面分析,進而得出以下結論:首先,國內文本分割研究主要集中于計算機科學領域,在圖書情報領域出現(xiàn)得并不多。其次,國內文本分割研究者的合作群較少,各研究團隊之間聯(lián)系較少,研究團隊體系不成熟。最后,國內外文本分割的熱點主題相似,但國外有關文本分割的研究團隊比國內成熟,并且國外有關文本分割的研究也早于國內,國內學者對于文本分割的研究主要集中在計算機科學領域,國內圖書情報領域的學者需要更多地向國外學者學習。

雖然本文數(shù)據(jù)檢索范圍涉及中國知網(wǎng)和Web ofScience 核心合集兩大數(shù)據(jù)庫,但在實際分析過程中,本文僅采用了中國知網(wǎng)和Web of Science 核心合集中的期刊數(shù)據(jù)作為樣本,所以本文在研究樣本的選取上存在一定的局限性,但研究結果展示了國內外文本分割的研究現(xiàn)狀與研究熱點,對我國文本分割研究者的研究工作有一定的幫助,能夠為今后的研究工作提供參考。

猜你喜歡
分析
禽大腸桿菌病的分析、診斷和防治
隱蔽失效適航要求符合性驗證分析
電力系統(tǒng)不平衡分析
電子制作(2018年18期)2018-11-14 01:48:24
電力系統(tǒng)及其自動化發(fā)展趨勢分析
經(jīng)濟危機下的均衡與非均衡分析
對計劃生育必要性以及其貫徹實施的分析
GB/T 7714-2015 與GB/T 7714-2005對比分析
出版與印刷(2016年3期)2016-02-02 01:20:11
中西醫(yī)結合治療抑郁癥100例分析
偽造有價證券罪立法比較分析
在線教育與MOOC的比較分析
主站蜘蛛池模板: 亚洲无码熟妇人妻AV在线| 欧美a在线视频| A级毛片高清免费视频就| 亚洲男人在线| 午夜视频www| 一区二区三区在线不卡免费| 精品国产自在在线在线观看| 久久99精品久久久久纯品| 国产毛片高清一级国语| 欧美丝袜高跟鞋一区二区| 久久久波多野结衣av一区二区| 久久永久免费人妻精品| 国产精品欧美激情| 成人福利在线免费观看| 国产永久在线观看| 亚洲黄色片免费看| 国产精品女人呻吟在线观看| 韩日免费小视频| 亚洲性视频网站| 午夜欧美在线| 国产中文一区a级毛片视频| 亚洲天堂久久新| 国产在线观看91精品亚瑟| 精品国产91爱| 天天摸夜夜操| 成人av专区精品无码国产| 日韩免费成人| 国产在线一二三区| 一级看片免费视频| 亚洲av色吊丝无码| 久久久成年黄色视频| 久草国产在线观看| 无码久看视频| 真实国产乱子伦视频| 国产呦精品一区二区三区网站| 中文字幕亚洲乱码熟女1区2区| 国产一在线| 亚洲精品无码久久久久苍井空| 青青操国产视频| 91成人免费观看| 国产永久在线观看| 五月婷婷欧美| 国产精品视频导航| 人妻91无码色偷偷色噜噜噜| 精品一区国产精品| 狠狠五月天中文字幕| 国产一级毛片网站| 精品国产免费观看一区| 中文字幕久久精品波多野结| 中文字幕亚洲精品2页| 人人看人人鲁狠狠高清| 欧美中文一区| 亚洲第一成年网| 亚洲精品你懂的| 国产精品无码久久久久AV| 久热这里只有精品6| 在线精品欧美日韩| 一区二区日韩国产精久久| 香蕉久久国产精品免| 久久免费视频6| 国产资源免费观看| 中文字幕亚洲乱码熟女1区2区| 国产精品福利导航| 99r在线精品视频在线播放| 在线va视频| 99r在线精品视频在线播放| 久久精品人人做人人爽97| 欧美激情网址| 天堂在线www网亚洲| 国产一区二区人大臿蕉香蕉| 国产成人免费高清AⅤ| 欧美激情综合| 国产成人亚洲综合A∨在线播放| 国产丝袜啪啪| 亚洲精品欧美日本中文字幕| 国产簧片免费在线播放| 免费观看精品视频999| 国产精彩视频在线观看| 无码精品福利一区二区三区| 美女内射视频WWW网站午夜| 精品一区二区久久久久网站| 欧美国产菊爆免费观看|