999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

文本分類算法在山東女子學(xué)院檔案管理的應(yīng)用

2016-10-11 09:36:57法漢英
科技視界 2016年24期

法漢英

【摘 要】高等教育的快速發(fā)展使學(xué)校檔案館要管理的檔案越來越多,許多學(xué)校針對這種情況采用檔案管理軟件對檔案進行管理,據(jù)調(diào)查在我校沒有對檔案文件進行自動分類功能,為減輕檔案工作人員工作量便研究一種適合我校檔案的文本自動分類方法。本文大體論述文本分類算法的知識點和文本分類算法的應(yīng)用。根據(jù)山東女子學(xué)院檔案的重復(fù)性、周期性等特點,詢問檔案館工作人員采用手工對檔案進行分類時,需要知道檔案主題名和檔案人信息確定歸屬于哪一個類別。本文將檔案按照主題名看作不同類別應(yīng)用加權(quán)分類算法對屬于不同的類別的檔案進行自動分類處理。

【關(guān)鍵詞】文本分類;山東女子學(xué)院檔案;短文本;加權(quán)分類算法

1 研究背景和意義

對于檔案人員來說文本分類不是一個陌生的概念,過去用手工進行檔案分類。隨著計算機快速發(fā)展出現(xiàn)了許多文本文件。對文本進行有效的分類,利用計算機進行文本分類研究和應(yīng)用尤為重要[2]。

分類的意思是將具有共同特定特征的事物放在一起方便檢索。最典型的分類應(yīng)用是在超市里商品排放,例如把不同品牌薯片放在一個貨架上,把餅干放在另一貨架上。這種好處是讓顧客在買東西時能比較品牌信息為購買做決定。用戶在下次購買東西的時候會直接前往該位置。

文本分類是把有相似特征的文本歸納到一起方便查詢。面對海量的檔案信息,目前的管理模式是依靠專業(yè)人員在檔案管理系統(tǒng)中進行手工分類工作,利用文本分類算法對山東女子學(xué)院檔案系統(tǒng)進行管理以提高檔案管理水平。

2 文本分類相關(guān)技術(shù)

2.1 文本分類的概念

文本分類是指在一定的分類體系下根據(jù)文本的內(nèi)容自動確定文本類別的過程[1]。文本分類是文本挖掘的一個分支。

2.2 文本分類和文本挖掘

文本知識又稱為文本數(shù)據(jù)挖掘。文本挖掘不同于數(shù)據(jù)挖掘,數(shù)據(jù)挖掘面對的是結(jié)構(gòu)化數(shù)據(jù)。文本挖掘面對是非結(jié)構(gòu)化的文本,因此決定它采用的方法與數(shù)據(jù)挖掘不同。文本分類屬于文本挖掘的范圍。

2.3 文本預(yù)處理

文本預(yù)處理在分類中很重要。文本預(yù)處理包括以下幾個方面:1)中文分詞[3]。中文分詞是將句子分為單詞和詞組的過程。2)詞性標(biāo)注[4]。詞性是詞語的屬性,例如名詞,形容詞等。3)停用詞過濾[5]。停用詞指的是輔助詞。如“的”這些詞出現(xiàn)在大量的句子中如不處理會影響分類效果。4)實體識別[6]。實體識別是指對人名、地理位置等實體名字的識別。

2.4 文本表示

文本表示就是將文本預(yù)處理得到的特征詞表示成計算機所能處理二進制數(shù)。

2.5 文本特征選擇與特征抽取

對文本特征進行篩選,選出最能代表文本類別的特征,這個過程就是特征選擇[7]。對每個特征計算其統(tǒng)計的度量值,設(shè)定一個閾值T,把度量值小于T的特征值過濾掉,剩下的是有效特征。特征抽取通過對初始特征空間進行扭曲、拉伸或者旋轉(zhuǎn)等變換得到一個新的低維數(shù)特征空間的過程。

3 針對山東女子學(xué)院檔案的基礎(chǔ)詞庫的創(chuàng)建

根據(jù)學(xué)院檔案管理的特點結(jié)合文本分類技術(shù)的發(fā)展,提出一種用于學(xué)院檔案的基于語義的短文本加權(quán)自動分類算法。

3.1 基于山東女子學(xué)院檔案自動分類算法的基礎(chǔ)庫設(shè)計

對于一份檔案而言,其名字包括該檔案的所有內(nèi)容,檔案進行計算機分類無需全文分析,只需對檔案的名字分析。

本算法通過對檔案名字信息中特征詞提取和分析來進行檔案的歸類。通過對已分類的檔案名字進行統(tǒng)計分析,將與各個類別相關(guān)度高的關(guān)鍵詞提取出來建類別詞庫并根據(jù)關(guān)鍵詞與類別之間的關(guān)聯(lián)度的強弱為其分配相應(yīng)的權(quán)值,可創(chuàng)建詞庫表。在檔案名字中存在大量的詞如“關(guān)于”、“通知”等與分類無關(guān)詞,為提高文本在提取特征詞的準(zhǔn)確度減少冗余詞的出現(xiàn),需創(chuàng)建停用詞庫。通過對檔案文件責(zé)任者信息提取創(chuàng)建一個責(zé)任者詞庫。通過分析確定該檔案所屬的大類類別。

3.2 分類詞庫的創(chuàng)建

類別詞與類之間的關(guān)聯(lián)度能夠區(qū)分,需要為其類別詞與類之間的關(guān)聯(lián)度建立權(quán)重來表達這兩者的不同。當(dāng)某一類別詞與類之間的關(guān)聯(lián)度非常緊密時,需要為其賦予較高的權(quán)重系數(shù),是該類別詞的檔案文件能夠分到指定的類別。當(dāng)一份檔案中有多個類別詞,且這些類別詞的檔案有屬于不同的類別號時,可以通過權(quán)重計算來確定該份檔案應(yīng)該分到哪個類號中。

4 基于語義的短文本的加權(quán)分類算法

在完成基礎(chǔ)詞庫的創(chuàng)建后,采用加權(quán)分類算法對檔案文件進行分類。算法的步驟為:

1)在責(zé)任者詞庫搜索該檔案責(zé)任者信息,確定該檔案屬于的大類類別。2)用停用詞表對檔案文件名字進行遍歷去除停用詞。3)根據(jù)1)確定的類別在類別詞庫中遍歷,提取文本類別詞及其對應(yīng)的權(quán)值。4)將獲得的類別詞及其對應(yīng)權(quán)值進行分類加權(quán)匯總并進行比較取得最大值即為該份檔案所屬的類別。

4.1 基于語義的短文本加權(quán)自動分類算法

經(jīng)過這些工作后,對檔案文件進行自動分類可以分為以下步驟:1)獲得待分類檔案責(zé)任者信息,用責(zé)任者信息在責(zé)任者詞庫中檢索獲得待分類檔案的類別。2)對名字進行停用詞操作,去除文本中的停用詞,將待分類的短文本進一步縮短。將相同的分類號合并并計算類別詞的權(quán)值進行比較確定最大值,最終確定待分類檔案所屬的類別。

4.2 短文本的處理

首先對短文本進行遍歷,去掉其中的停用詞,再根據(jù)類別詞庫中的詞匯與題名中的內(nèi)容進行比較,最后從中提取出的類別詞作為分類結(jié)果。

4.3 合并分類號并權(quán)值求和

經(jīng)過之前的工作,所有的分類主題詞所歸屬的分類號及對應(yīng)的權(quán)重全部得到,即可開始計算權(quán)重最終確定其類別。最終運行步驟如下:1)從待分類檔案表中讀取第一條記錄。2)根據(jù)該條檔案的責(zé)任者信息,判斷其所屬的大類。3)在該大類下的二級類別詞庫中對檔案文件的名字進行遍歷,取得類別詞及相應(yīng)的權(quán)值。4)合并相同類號,對權(quán)值求和。5)判斷是否存在唯一最大值,若存在則可直接確定類別;若不存在則轉(zhuǎn)入人工處理。6)讀取下一條,循環(huán)直至完成。最終便完成了對山東女子學(xué)院檔案的分類。

4.4 檔案分類應(yīng)用分析

通過對山東女子學(xué)院檔案的自動分類,可以大大減輕了檔案管理工作人員的工作量,對文件進行分門別類的整理,做到井井有條,層次鮮明。通過文本自動分類對各類文本信息進行有效的組織分類,可以高效的為用戶提供信息檢索和信息存儲形成了學(xué)校對檔案的獨特管理。

5 總結(jié)

跟其他類的文本分類方法相比較,本文所設(shè)計的基于山東女子學(xué)院檔案的文本自動分類算法的復(fù)雜度大大降低了,取消了文本訓(xùn)練的復(fù)雜過程,直接將學(xué)校檔案的各類關(guān)鍵詞和停用詞依靠人工經(jīng)驗學(xué)習(xí)進行了手工構(gòu)建,然而詞庫的構(gòu)建很復(fù)雜,需要根據(jù)分類情況的反饋不斷的調(diào)整補充。由于學(xué)校所管理的檔案內(nèi)容的特殊性,為了提高分類的效率,本文中所采用的這種簡單實用的算法經(jīng)過分析可以減少檔案工作人員的工作量,達到了預(yù)期目的。

【參考文獻】

[1]程傳鵬.中文網(wǎng)頁分類的研究與實現(xiàn)[J].中原工學(xué)院學(xué)報,2007(1).

[2]中國互聯(lián)網(wǎng)網(wǎng)絡(luò)信息中心.第三十一次互聯(lián)網(wǎng)發(fā)展統(tǒng)計報告[R].2013-01.

[3]龍樹全,趙文正,唐華.中文分詞算法概述[J].電腦科學(xué)與技術(shù),2009,10:2605-2607.

[4]陳曉文.自動詞性標(biāo)注方法的比較[J].溫州大學(xué)學(xué)報,2009,01:53-57.

[5]化柏林.知識抽取中的停用詞處理技術(shù)[J].現(xiàn)在圖書館情報技術(shù),2010.08:48-51.

[6]孫鎮(zhèn),王惠臨.命名實體識別研究進展綜述[J].現(xiàn)在圖書館情報技術(shù),2012,06:42-47.

[7]張東禮,汪東升,鄭偉民.基于VSM的中文文本分類系統(tǒng)的設(shè)計與實現(xiàn)[M].清華大學(xué)出版社,2003.

[責(zé)任編輯:李書培]

主站蜘蛛池模板: 91丝袜在线观看| 成人综合在线观看| 精品久久久久久成人AV| 久热这里只有精品6| 麻豆国产精品| 久久这里只有精品免费| 日韩精品亚洲人旧成在线| 99精品高清在线播放| 999国内精品久久免费视频| 亚洲成a人片| 国产精品综合色区在线观看| 国产资源免费观看| 国产激情在线视频| 成人91在线| 免费看美女毛片| 日本亚洲成高清一区二区三区| 国产福利免费视频| 香蕉久人久人青草青草| AV不卡在线永久免费观看| 国产乱人伦精品一区二区| 国产99在线观看| 久草视频精品| 国产真实乱子伦视频播放| 嫩草国产在线| 亚洲精品爱草草视频在线| 99热这里只有成人精品国产| 国产成人高清精品免费5388| 国产精品视频系列专区| 无码一区18禁| 亚洲浓毛av| 2018日日摸夜夜添狠狠躁| 亚洲三级网站| 国产精品毛片一区| 亚洲精品高清视频| 国产成人久久777777| 日本a级免费| 天堂av综合网| 亚洲色无码专线精品观看| 亚洲永久免费网站| 国产视频一区二区在线观看| 日本欧美精品| 国产精品亚洲五月天高清| 午夜福利网址| 亚洲日韩每日更新| 中文字幕人成人乱码亚洲电影| 欧美成一级| 2020最新国产精品视频| 国产精品网曝门免费视频| 精品三级在线| 97人人模人人爽人人喊小说| 亚洲男人的天堂在线观看| 精品久久久久久久久久久| 亚洲黄色高清| 青青草一区二区免费精品| 亚洲不卡影院| 久久精品人人做人人综合试看| 91无码网站| 91麻豆精品国产高清在线 | 国产日韩AV高潮在线| 欧美在线天堂| 福利视频99| 日韩黄色在线| 美女黄网十八禁免费看| 波多野结衣无码视频在线观看| 久久精品国产电影| 9cao视频精品| 日韩不卡免费视频| 男女男精品视频| 玩两个丰满老熟女久久网| 亚洲精品欧美重口| 国产a在视频线精品视频下载| 免费aa毛片| 欧美在线一二区| 99re精彩视频| 欧美成人免费午夜全| 真人高潮娇喘嗯啊在线观看| 久久久无码人妻精品无码| 丁香婷婷久久| 天堂av综合网| 免费高清毛片| 精品亚洲国产成人AV| 欧美不卡视频在线观看|