999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

檔案文獻主題探測方法探討

2015-12-06 11:16:43雷亞莉
黑龍江史志 2015年7期
關鍵詞:分類文本方法

雷亞莉

(海南軟件職業技術學院 海南 瓊海 571400)

檔案文獻主題探測方法探討

雷亞莉

(海南軟件職業技術學院 海南 瓊海 571400)

本文主題探測是以檔案類文獻作為文本集,以文本數據挖掘(Text Mining)的方式來對文本集進行處理。文章主要對文本分類和文本聚類的常用方法做了簡單的概括,并提出了基于主題模型的檔案文獻主題探測方法。

檔案文獻;主題探測;主題模型

引言

隨著目前科技文獻資源的大量增長,檔案類文獻的資源也在突飛猛進的增長,但對于大量的文獻資源,要能更精確的找到我們所需要的信息卻變得難上加難。主題探測(Topic Detection,作為一項旨在幫助人們應對信息過載問題的研究,其研究目標是要實現按主題查找、組織和利用來自多種媒體的多語言信息[1]。

1.常用的文本分類方法

傳統的科技文獻分類方法都是基于文本分類的,這些方法是對給定的文本,根據其內容自動或手動地加上一個類別標簽,通過給定的訓練集,用某種方法構建文本特征與文本類別之間的關系模型,再利用這個關系模型對新的未知類別文本進行類別訓練。

1.1 基于簡單向量距離的分類法

簡單向量距離分類法的主要思想,是首先確定新文本的向量,然后根據尚未分類的文本向量與每個類別中心向量的距離來判斷此文本屬于哪個類別,確定新文本向量的前提是:先根據算術平均為每類文本集生成一個代表該類的中心向量[2]。

簡單距離向量分類法實現簡單,分類的復雜度也不高,其缺點也很明顯:直接使用特征空間的特征分布,受訓練文本中的噪聲影響較大,同時對分布不規則的數據,能夠取得的效果是很有限的。

1.2 K 近鄰法(K-Nearest Neighbor)

KNN最初由Cover和Hart于1968年提出,是一個理論上比較成熟的方法,其分類方式是通過查詢已知類別文本的情況,來判斷新文本與已知文本是否屬于同一類。算法的基本思想是:首先給定新文本,然后在訓練文本集中找出與新文本距離最近的文本,依據找出的最近距離文本的類別,來判定新文本所屬的類別。

KNN方法相對簡單,易于實現,用于基于統計的模式識別中非常有效,并且對于未知和非正態的分布能夠取得比較高的分類準確率。但對于樣本分布依賴性較大,當樣本分布不均勻時,可能造成一定的偏向性。

1.3 貝葉斯分類法

貝葉斯分類方法在使誤判率或風險最小的問題上是很有意義的。它是將研究對象的先驗概率來作為輔助判斷,這樣做可以使結論更精確的得到分析。但由于貝葉斯分類器的前提是需要已知條件概率,而且它的決策面比較復雜,因此在計算和構造方面是相對困難的[26]。

貝葉斯分類的優點在于算法邏輯簡單,易于實現,并且算法穩定。但其也有缺陷,就是在其獨立性假設時,在許多實際中并不能夠成立,這樣會引起分類的誤差。

對比試驗板選擇在相同的工況環境下進行焊接,最終經無損檢測合格后進行理化檢測試驗,檢測內容包括焊縫金相顯微組織、拉伸試驗、沖擊試驗、焊接接頭硬度。

1.4 支持向量機(SVM)

支持向量機(Support Vector Machine,SVM)是統計學概念上一個有監督的學習方法,在解決小樣本、非線性及高維模式識別問題中表現出特有的優勢。這種方法是針對線性可分情況進行分析,通過尋找最優線性分類面來減小對新文檔的誤分概率[3]。

2.常用的文本聚類方法

作為一種無監督的機器學習方法,文本聚類是在給定的某種相似性度量下,把對象集合進行分組,使得相似的對象能夠分到同一個組內。其方法通常是利用向量空間模型,將文本轉換成高維空間中的向量,然后對這些向量進行聚類。因此,影響文本聚類結果的因素除了文檔聚類算法的選擇外,還包括語義問題和降維問題。

2.1 基于劃分的方法

劃分法(Partitioning Method)也稱分裂法,其基本原理是:首先得到初始的k個劃分,然后通過迭代,將文檔從一個中間類轉移到另一個類中,以改進聚類的質量。代表性算法有K-means算法、k-中心點、CLARA、CLARANS等。

2.2 基于層次的方法

典型的層次聚類方法包括:CURE(ClusteringUsingREprisentatives) 方法、ROCK 方法、Chameleon、BIRCH (Balances Iterative Reducingand ClusteringusingHierarchies)方法等。

2.3 基于模型的方法

基于模型的方法(Model-based methods)是從文本集合中學習一個模型,每個模型代表一個文本類,并優化給定的數據和數學模型之間的適應性。它的一個潛在的假定就是:目標數據集是由一系列的概率分布所決定的。典型的基于模型的方法有:統計方法COBWEB和CLASSIT。

2.4 基于網格的方法

基于網格的算法(Grid-based methods)首先將數據空間劃分成為有限個單元的網格結構(所有的處理都是以單個的單元為對象的),然后利用網格結構完成聚類。其優點是處理速度比較快,通常與目標數據庫中記錄的個數無關,只與將數據空間所分的單元數量有關。代表性算法有:STING(STatistical INformation Grid)算法、CLIQUE(ClusteringIn QUEst)算法、WAVE-CLUSTER 算法。

2.5 基于密度的方法

為了發現任意形狀的聚類結果,提出了基于密度的方法(Density-based methods)。這類方法將簇看作是數據空間中被低密度區域分割開的高密度區域。只要一個區域中點的密度大于某個閥值,就將其加到與之相近的聚類中去。代表的算法有:DBSCAN算法、OPTICS算法、DENCLUE算法等。

3.基于主題模型的檔案文獻主題探測研究方法

基于主題模型的檔案文獻主題探測,初步提出了將LDA主題模型運用到檔案主題探測中。

使用LDA主題模型,旨在更好的獲取文本的主題。主題模型采用了概率分析的方法,和以往其他模型的統計方法有著很大的不同。而LDA是服從于Dirichlet分布的概率模型,使得文本、主題、單詞在模型超參數上有了不同的發生概率,LDA主題模型的提出,使文本不再局限于與主題一一對應,并且給出了文本在各個主題上的概率分布。

4.結束語

文本數據挖掘方法一直是數據挖掘工作人員不斷探索的重要內容,而主題探測能夠很好的幫助我們解決“信息過載”的現象。本文概述了文本挖掘的常用方法,并提出了最新主題模型LDA,將其運用到檔案文獻主題探測中,目前正對其方法做進一步的測試,將其與常用的文本分類或文本聚類方法做比較。

[1]李保利,俞士汶.話題識別與跟蹤研究[J].計算機工程與應用.2003(17):7-10.

[2]龐劍峰,基于向量空間模型的自反饋的文本分類系統的研究與實現[D].中科院計算所碩士論文.2001.

[3]T.Joachims.Text categorization with support Vector machines:Learning with many relevant features[C].Lecture Notes in Computer Science,1998,(1398):137-142.

雷亞莉,女,1986.3.17,陜西韓城人,碩士,2013.11畢業于中山大學軟件學院,現從事數據挖掘與計算機教學及研究工作。

猜你喜歡
分類文本方法
分類算一算
在808DA上文本顯示的改善
分類討論求坐標
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
數據分析中的分類討論
教你一招:數的分類
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
主站蜘蛛池模板: 蜜臀AVWWW国产天堂| 亚洲无码高清一区二区| 九九视频在线免费观看| 色偷偷综合网| 亚洲综合专区| 亚洲第一黄片大全| 日韩免费毛片| 精品伊人久久久久7777人| 国产爽妇精品| 国产日本视频91| 国产一级裸网站| 无码 在线 在线| 亚洲国产无码有码| 成年看免费观看视频拍拍| 国产在线无码一区二区三区| 日韩精品无码免费一区二区三区| 成年免费在线观看| 91破解版在线亚洲| 国产成人乱无码视频| 无码又爽又刺激的高潮视频| 国产香蕉在线视频| 欧美日韩精品在线播放| 天天综合网色中文字幕| 国产AV无码专区亚洲A∨毛片| 白浆视频在线观看| 免费在线成人网| 青青草91视频| 日本精品一在线观看视频| 国产欧美日韩在线在线不卡视频| 伊人久久婷婷| 国产午夜看片| 在线精品视频成人网| 欧美天堂在线| 麻豆国产原创视频在线播放| 亚洲女同欧美在线| 国产精品不卡永久免费| 欧洲一区二区三区无码| 精品久久久久久中文字幕女| 国产永久在线观看| 国产91无毒不卡在线观看| 在线观看欧美精品二区| 国产成年无码AⅤ片在线| 免费无码又爽又黄又刺激网站| 国产另类视频| 米奇精品一区二区三区| 亚洲黄网视频| 欧美视频二区| 嫩草国产在线| 日韩福利视频导航| 日韩毛片免费视频| 久久一日本道色综合久久| 国内精品91| 日本三级欧美三级| 71pao成人国产永久免费视频| 18禁黄无遮挡免费动漫网站| 色视频国产| 久久免费成人| 国产福利小视频在线播放观看| 国产xx在线观看| 亚洲精品无码人妻无码| 在线免费看黄的网站| 亚洲国产精品无码AV| 亚洲人妖在线| 人妻无码一区二区视频| 欧美亚洲网| 2020亚洲精品无码| 国产对白刺激真实精品91| 亚洲国产午夜精华无码福利| 日本成人在线不卡视频| 亚洲国产清纯| 国产成人8x视频一区二区| 久久亚洲天堂| 激情网址在线观看| 人妻丰满熟妇啪啪| 国产成人精品午夜视频'| 亚洲不卡影院| 欧美性猛交一区二区三区| 91偷拍一区| 欧美精品一二三区| 成人精品免费视频| 国产成人久久综合一区| 香蕉精品在线|