999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

電子文件元數(shù)據(jù)智能分析與可視化呈現(xiàn)

2015-05-30 10:28:59姜偉王健班翊坤馬春茂馮曉佳
北京檔案 2015年7期
關(guān)鍵詞:數(shù)據(jù)挖掘可視化智能

姜偉 王健 班翊坤 馬春茂 馮曉佳

摘要:本文提出將元數(shù)據(jù)智能分析的理念引入電子文件的開(kāi)發(fā)利用工作中的創(chuàng)新思路,通過(guò)數(shù)據(jù)挖掘流程與技術(shù)創(chuàng)新的有機(jī)結(jié)合,自動(dòng)化、智能化、高效率、低成本地將電子文件中的淺層信息變?yōu)樯顚有畔ⅲ瑢㈦[性知識(shí)轉(zhuǎn)化為顯性知識(shí),力求加速知識(shí)創(chuàng)新,為電子文件的深度開(kāi)發(fā)與利用奠定基礎(chǔ)。

關(guān)鍵詞:電子文件元數(shù)據(jù)數(shù)據(jù)挖掘智能分析可視化

本文將從社會(huì)關(guān)系的角度探討電子文件元數(shù)據(jù)智能分析的思路、對(duì)象和方法,繼而以可視化的形式展示這一思路的系統(tǒng)實(shí)現(xiàn),以期為電子文件的深度開(kāi)發(fā)和利用奠定基礎(chǔ)。

一、電子文件元數(shù)據(jù)智能分析的理念與思路

(一)電子文件元數(shù)據(jù)智能分析的基本理念

電子文件元數(shù)據(jù)智能分析是指在有噪音、模糊的大量非結(jié)構(gòu)化電子文件中,基于《文書(shū)類電子文件元數(shù)據(jù)方案》(DA/T46-2009)中元數(shù)據(jù)(本文稱之為標(biāo)準(zhǔn)元數(shù)據(jù))及本課題組提出的擴(kuò)展元數(shù)據(jù),通過(guò)圖形直觀地顯示、比較數(shù)據(jù)中的復(fù)雜關(guān)系,識(shí)別出有效、新穎、可用的數(shù)據(jù)分析模型,并發(fā)現(xiàn)隱藏于數(shù)據(jù)之中知識(shí)的過(guò)程。

電子文件元數(shù)據(jù)智能分析的目的在于向利用者屏蔽原始數(shù)據(jù)的噪音,洞察、解釋錯(cuò)綜復(fù)雜的數(shù)據(jù)關(guān)系,從原始數(shù)據(jù)中提煉出有意義的知識(shí),并用可視化的圖形簡(jiǎn)潔、生動(dòng)地展示出來(lái),以便為業(yè)務(wù)提供經(jīng)過(guò)挖掘、提煉、梳理并能反映規(guī)律和本質(zhì)的信息,有效輔助決策。由于電子文件元數(shù)據(jù)中包含了社會(huì)關(guān)系的主體(人物、組織),因而在可視化智能分析中特別重視分析并顯示個(gè)人與個(gè)人的關(guān)系、個(gè)人與組織機(jī)構(gòu)的關(guān)系、個(gè)人與主題的靜態(tài)和動(dòng)態(tài)關(guān)系。通過(guò)數(shù)據(jù)挖掘方法揭示上述關(guān)系有助于量化人物、組織、主題之間廣泛、深入、直接的聯(lián)系,從而為決策提供數(shù)據(jù)支撐。

(二)電子文件元數(shù)據(jù)智能分析的核心對(duì)象

電子文件元數(shù)據(jù)智能分析的對(duì)象主要是《文書(shū)類電子文件元數(shù)據(jù)方案》中列為“內(nèi)容描述元數(shù)據(jù)”的主題詞、關(guān)鍵詞、人名以及“業(yè)務(wù)實(shí)體元數(shù)據(jù)”中的行為依據(jù)。在此基礎(chǔ)上,課題組基于上述社會(huì)關(guān)系研究,又拓展了其他命名實(shí)體元數(shù)據(jù),包括空間、組織、引語(yǔ)等“內(nèi)容描述元數(shù)據(jù)”的擴(kuò)展項(xiàng),其中“組織”是指電子文件內(nèi)容涉及的所有組織機(jī)構(gòu),主要分析存在于電子文件中的各種社會(huì)組織關(guān)系。特別予以說(shuō)明的是,將主題詞作為分析對(duì)象,主要基于以下考慮:

1.主題詞地位至關(guān)重要。主題詞是內(nèi)容描述元數(shù)據(jù)的核心,是電子文件核心內(nèi)容的概括和提煉。國(guó)家電子政務(wù)標(biāo)準(zhǔn)化總體組制訂的首批6個(gè)電子政務(wù)標(biāo)準(zhǔn)項(xiàng)目中,《基于XML電子公文格式規(guī)范》《電子政務(wù)數(shù)據(jù)元和電子政務(wù)主題詞表編制規(guī)則》都包含了主題詞的內(nèi)容;以主題詞為代表的內(nèi)容描述元數(shù)據(jù)在《文書(shū)類電子文件元數(shù)據(jù)方案》中也占據(jù)重要地位。盡管2012年國(guó)家標(biāo)準(zhǔn)《黨政機(jī)關(guān)公文格式》(GB/T9704-2012)在格式要素中取消了“主題詞”,但課題組認(rèn)為全文檢索的原理無(wú)法展現(xiàn)主題詞之間運(yùn)用“用、代、屬、分、族、參”等參照項(xiàng)所建立起來(lái)的隱蔽的分類體系,因此不能深刻揭示公文中的語(yǔ)義關(guān)系。語(yǔ)義關(guān)系無(wú)法揭示,電子文件的數(shù)據(jù)挖掘也無(wú)從談起。

2.主題詞方面的研究成果在實(shí)踐中已得到很好的驗(yàn)證。課題組的前期研究成果《電子政務(wù)主題詞表編制及應(yīng)用系統(tǒng)》獲2005年度“北京市科學(xué)技術(shù)二等獎(jiǎng)”,基于上述主題詞研究成果開(kāi)發(fā)的“北京外事網(wǎng)站內(nèi)容分析和發(fā)布系統(tǒng)”實(shí)現(xiàn)了友好城市新聞自動(dòng)采集、分析和發(fā)布,較大提高了北京外事網(wǎng)站內(nèi)容的更新效率;基于上述研究開(kāi)發(fā)的“全球最新科技情報(bào)數(shù)據(jù)挖掘系統(tǒng)”在專利、期刊、論文、科技新聞的元數(shù)據(jù)整合中發(fā)揮重要作用。

(三)電子文件元數(shù)據(jù)智能分析的方法

智能分析法中的相關(guān)關(guān)系法、回歸分析法和時(shí)序分析法在數(shù)據(jù)挖掘、信息分析、趨勢(shì)預(yù)測(cè)等領(lǐng)域應(yīng)用比較廣泛,所以課題組將之選為電子文件“內(nèi)容描述元數(shù)據(jù)”和“業(yè)務(wù)實(shí)體元數(shù)據(jù)”的智能分析方法,其中相關(guān)分析法是核心。相關(guān)分析法側(cè)重探討變量間關(guān)系的密切程度,回歸分析法側(cè)重探求變量間的因果關(guān)系,時(shí)間序列分析法則考慮研究對(duì)象與時(shí)間之間的相關(guān)關(guān)系,即將時(shí)間作為自變量來(lái)看待。同時(shí),本文還以詞語(yǔ)同現(xiàn)概率理論為基礎(chǔ)引入主題詞智能標(biāo)引技術(shù),從詞語(yǔ)的角度研究并度量社會(huì)關(guān)系,用可視化技術(shù)顯示“內(nèi)容描述元數(shù)據(jù)”和“業(yè)務(wù)實(shí)體元數(shù)據(jù)”在社會(huì)影響力、社會(huì)發(fā)展趨勢(shì)、社會(huì)熱點(diǎn)問(wèn)題等方面的影響。

通過(guò)技術(shù)手段自動(dòng)采集出目標(biāo)分析對(duì)象的主題詞、關(guān)鍵詞、人名、行為依據(jù)、空間、組織、引語(yǔ)等元數(shù)據(jù)并以此作為分析對(duì)象,運(yùn)用相關(guān)分析法以上述元數(shù)據(jù)在電子文件集合中出現(xiàn)的頻次作為第一個(gè)變量進(jìn)行研究,以上述元素在電子文件集合中同時(shí)出現(xiàn)的概率作為第二個(gè)變量進(jìn)行研究。在回歸分析中,為探求變量間的因果關(guān)系,例如以“世界城市”的相關(guān)內(nèi)容元數(shù)據(jù)作為第一項(xiàng)多個(gè)變量,以公認(rèn)的世界城市“紐約”的相關(guān)內(nèi)容元數(shù)據(jù)作為第二項(xiàng)多個(gè)變量,通過(guò)尋找這兩項(xiàng)多個(gè)變量的交集,發(fā)現(xiàn)世界城市的自變量。在此基礎(chǔ)上,提出時(shí)序數(shù)據(jù)隨時(shí)間推移而變動(dòng)的四種類型:趨勢(shì)變動(dòng)、周期變動(dòng)、季節(jié)變動(dòng)和隨機(jī)變動(dòng)。

二、電子文件元數(shù)據(jù)智能分析的系統(tǒng)實(shí)現(xiàn)

電子文件元數(shù)據(jù)智能分析的系統(tǒng)實(shí)現(xiàn)包括:電子文件元數(shù)據(jù)自動(dòng)采集體系和系統(tǒng)開(kāi)發(fā)、電子文件元數(shù)據(jù)智能分析與實(shí)際業(yè)務(wù)需求的無(wú)縫對(duì)接、電子文件元數(shù)據(jù)智能分析及其可視化展示。其中,電子文件元數(shù)據(jù)自動(dòng)采集體系主要描述如何根據(jù)大數(shù)據(jù)特點(diǎn)設(shè)計(jì)電子文件擴(kuò)展元數(shù)據(jù)以及如何通過(guò)流程、模板、技術(shù)這三種方法在電子文件中自動(dòng)采集元數(shù)據(jù)及擴(kuò)展元數(shù)據(jù),這部分內(nèi)容是將非結(jié)構(gòu)化文本半結(jié)構(gòu)化處理的關(guān)鍵環(huán)節(jié);對(duì)電子文件元數(shù)據(jù)智能分析與實(shí)際業(yè)務(wù)需求的無(wú)縫對(duì)接,課題組將通用的數(shù)據(jù)挖掘流程與北京市人民政府外事辦公室的具體業(yè)務(wù)需求進(jìn)行對(duì)接,圍繞電子文件元數(shù)據(jù)智能分析系統(tǒng)的設(shè)計(jì)展開(kāi)對(duì)業(yè)務(wù)的需求分析,這是將技術(shù)與業(yè)務(wù)結(jié)合的關(guān)鍵;在電子文件元數(shù)據(jù)智能分析系統(tǒng)設(shè)計(jì)過(guò)程中,課題組根據(jù)數(shù)據(jù)挖掘原理,圍繞社會(huì)關(guān)系,對(duì)電子文件元數(shù)據(jù)和擴(kuò)展元數(shù)據(jù)進(jìn)行了智能分析,這是課題組研究的核心內(nèi)容,目的是探索一條開(kāi)發(fā)和利用電子文件的新思路和新方法;在電子文件智能分析結(jié)果的可視化展示研究中,課題組根據(jù)視覺(jué)認(rèn)知原理,對(duì)電子文件標(biāo)準(zhǔn)元數(shù)據(jù)和擴(kuò)展元數(shù)據(jù)的表現(xiàn)形式以及智能分析結(jié)果的表現(xiàn)形式進(jìn)行創(chuàng)新設(shè)計(jì),將枯燥的數(shù)據(jù)分析結(jié)果予以直觀展示。

(一)通過(guò)建立業(yè)務(wù)需求對(duì)接流程實(shí)現(xiàn)電子文件元數(shù)據(jù)智能分析

在研究過(guò)程中,課題組專門(mén)開(kāi)展了元數(shù)據(jù)智能分析與實(shí)際工作需求實(shí)現(xiàn)對(duì)接的流程研究,實(shí)現(xiàn)科學(xué)理論——技術(shù)實(shí)現(xiàn)——實(shí)際應(yīng)用的跨越。流程主要包括:業(yè)務(wù)理解、數(shù)據(jù)理解、數(shù)據(jù)準(zhǔn)備、智能分析、測(cè)試評(píng)價(jià)、項(xiàng)目實(shí)施六個(gè)環(huán)節(jié),后續(xù)環(huán)節(jié)的知識(shí)發(fā)現(xiàn)會(huì)從前面環(huán)節(jié)的經(jīng)驗(yàn)中受益。需要指出的是,電子文件智能分析各環(huán)節(jié)的順序不是剛性的,經(jīng)常會(huì)出現(xiàn)環(huán)節(jié)反復(fù)、重復(fù)的現(xiàn)象,特別是測(cè)試評(píng)價(jià)與其他環(huán)節(jié)之間往往大量反復(fù)交互,這是電子文件智能分析能夠應(yīng)用于業(yè)務(wù)實(shí)際、輔助領(lǐng)導(dǎo)決策的根本保證。

在實(shí)踐過(guò)程中,課題組分析、梳理了業(yè)務(wù)職能部門(mén)對(duì)電子文件智能分析的實(shí)際需求,包括發(fā)現(xiàn)與重大事件相關(guān)的機(jī)構(gòu)、人物、主題;顯示特定人物的人際交往關(guān)系和范圍分布;發(fā)現(xiàn)國(guó)外主流媒體報(bào)道的主要特征和傾向;顯示重大國(guó)際事件的發(fā)展趨勢(shì)及關(guān)聯(lián)特征;發(fā)現(xiàn)國(guó)際著名城市的發(fā)展路徑及優(yōu)勢(shì)領(lǐng)域;顯示國(guó)際非政府組織的活動(dòng)領(lǐng)域或地域;發(fā)現(xiàn)世界著名企業(yè)的投資領(lǐng)域和活動(dòng)特點(diǎn)等。根據(jù)上述需求,通過(guò)技術(shù)手段對(duì)高端人物特征(政治、經(jīng)濟(jì)、軍事、文化、體育等)、國(guó)際活動(dòng)特征(國(guó)際會(huì)議、展覽、體育賽事、文化演出等)、國(guó)際組織特征(政府組織、非政府組織、知名跨國(guó)企業(yè)等)、文化產(chǎn)業(yè)特征(影視、出版、傳媒等)、高新技術(shù)特征(電信、網(wǎng)絡(luò)、環(huán)保、能源等)進(jìn)行了語(yǔ)言方面的統(tǒng)計(jì)分析和優(yōu)化處理,提高了分析維度的精確性。

(二)通過(guò)可視化數(shù)據(jù)挖掘系統(tǒng)實(shí)現(xiàn)電子文件元數(shù)據(jù)智能分析

可視化是利用計(jì)算機(jī)圖形學(xué)和圖像處理技術(shù),將數(shù)據(jù)轉(zhuǎn)換成圖形或圖像在屏幕上顯示以進(jìn)行人機(jī)交互的方法和技術(shù)。電子文件元數(shù)據(jù)智能分析的可視化系統(tǒng)指基于電子文件標(biāo)準(zhǔn)元數(shù)據(jù)和擴(kuò)展元數(shù)據(jù),引入數(shù)據(jù)挖掘理論和方法,從社會(huì)關(guān)系角度入手,數(shù)量化、圖形化地揭示人物、組織和主題之間的靜態(tài)和動(dòng)態(tài)關(guān)系,從而輔助各級(jí)領(lǐng)導(dǎo)開(kāi)展決策的系統(tǒng)。將可視化技術(shù)運(yùn)用于電子文件元數(shù)據(jù)智能分析的目的在于,便于用戶更好地理解和掌握信息,提高科學(xué)決策的效率。電子文件元數(shù)據(jù)智能分析的可視化系統(tǒng)的主要功能包括:

1.關(guān)聯(lián)強(qiáng)度分析。主要用于顯示電子文件內(nèi)容描述元數(shù)據(jù)之間的關(guān)聯(lián)強(qiáng)度。圖1展示的是圍繞“國(guó)際合作”這一主題進(jìn)行的關(guān)聯(lián)強(qiáng)度分析,圓形直徑大小表示特定實(shí)體內(nèi)容在數(shù)據(jù)集里面的絕對(duì)數(shù)量,絕對(duì)數(shù)量越多,圓形直徑越長(zhǎng)。圓形之間的鏈接線表示關(guān)系強(qiáng)度,兩個(gè)圓形之間的鏈接線越短,代表兩個(gè)實(shí)體內(nèi)容的關(guān)系越緊密。

2.時(shí)序演變分析。主要用于顯示電子文件特定內(nèi)容在整個(gè)預(yù)測(cè)時(shí)間內(nèi)呈現(xiàn)出的遞增或遞減的總趨勢(shì)。圖2展示的是在“國(guó)際組織”主題之下,“美國(guó)”和“中國(guó)”這兩個(gè)不同空間概念在2013年1~6月間的趨勢(shì)變化(下面的曲線代表美國(guó),上面的曲線代表中國(guó))。

3.綜合比對(duì)分析。這是關(guān)聯(lián)強(qiáng)度分析和時(shí)序演變分析的綜合。其中,縱向比對(duì)用于揭示相同時(shí)間段不同對(duì)象的比較和分析(圖3-1);橫向比對(duì)用于不同時(shí)間段相同對(duì)象的比較和分析(圖3-2)。圖3-1顯示了在2013年1~6月期間,奧巴馬和默克爾關(guān)注的主題異同情況,上半部分是奧巴馬關(guān)注的主題,下半部分是默克爾所關(guān)注的,中間部分為二者同時(shí)關(guān)注。圖3-2顯示了奧巴馬分別在2012年1~6月和2013年1~6月期間關(guān)注主題的異同。

4.當(dāng)前熱點(diǎn)分析。當(dāng)前熱點(diǎn)分析主要根據(jù)電子文件內(nèi)容描述元數(shù)據(jù)中的實(shí)體名詞在電子文件中出現(xiàn)的頻次,計(jì)算統(tǒng)計(jì)后,以數(shù)量多少為主要依據(jù),用圖形顯示出結(jié)果,可視化可展示特定時(shí)間不同熱點(diǎn)的實(shí)體數(shù)量。

在實(shí)踐過(guò)程中,課題組也深感需要研究的理論內(nèi)容和需要克服的技術(shù)難點(diǎn)還有很多。比如,如何進(jìn)一步提高內(nèi)容描述元數(shù)據(jù)自動(dòng)采集和分類聚類的準(zhǔn)確率,如何結(jié)合業(yè)務(wù)實(shí)際需求研究新的數(shù)據(jù)分析模型;如何進(jìn)一步提高人機(jī)交互設(shè)計(jì)水平以提高系統(tǒng)的易用性等。

參考文獻(xiàn):

[1]王健等譯.電子辦公環(huán)境中文件管理原則與功能要求[M].北京:中國(guó)人民大學(xué)出版社,2012

[2]中華人民共和國(guó)國(guó)家檔案局.DA/T 46-2009文書(shū)類電子文件元數(shù)據(jù)方案[S]. 2009

[3]Julie Steele,Noah Iliinsky.數(shù)據(jù)可視化之美[M].北京:機(jī)械工業(yè)出版社,2011

[4]蘇新寧,楊建林,鄧三鴻,周軍.數(shù)據(jù)挖掘理論與技術(shù)[M].北京:科學(xué)技術(shù)文獻(xiàn)出版社,2003

猜你喜歡
數(shù)據(jù)挖掘可視化智能
基于CiteSpace的足三里穴研究可視化分析
基于Power BI的油田注水運(yùn)行動(dòng)態(tài)分析與可視化展示
云南化工(2021年8期)2021-12-21 06:37:54
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
基于CGAL和OpenGL的海底地形三維可視化
“融評(píng)”:黨媒評(píng)論的可視化創(chuàng)新
智能前沿
文苑(2018年23期)2018-12-14 01:06:06
智能前沿
文苑(2018年19期)2018-11-09 01:30:14
智能前沿
文苑(2018年17期)2018-11-09 01:29:26
智能前沿
文苑(2018年21期)2018-11-09 01:22:32
基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
電力與能源(2017年6期)2017-05-14 06:19:37
主站蜘蛛池模板: 热久久综合这里只有精品电影| 亚洲欧洲日产国产无码AV| 国产真实乱子伦精品视手机观看 | 亚洲狠狠婷婷综合久久久久| 丁香婷婷久久| 亚洲 欧美 日韩综合一区| 亚洲国产中文欧美在线人成大黄瓜| 中文字幕波多野不卡一区| 毛片最新网址| 激情无码字幕综合| 国产毛片高清一级国语| 鲁鲁鲁爽爽爽在线视频观看 | 激情综合图区| 亚洲中文字幕精品| 国产在线观看人成激情视频| 亚洲综合片| 尤物精品国产福利网站| 国产福利一区二区在线观看| 99这里精品| 亚洲日韩精品伊甸| 国产自在线播放| 日韩美一区二区| 成年女人a毛片免费视频| 就去吻亚洲精品国产欧美| 国产美女精品一区二区| 四虎国产成人免费观看| 亚洲天堂日韩在线| 午夜欧美理论2019理论| 国产精品久久久久久久久kt| 久久婷婷人人澡人人爱91| 亚洲人成网站日本片| 亚洲IV视频免费在线光看| 国产综合亚洲欧洲区精品无码| 人妻丰满熟妇av五码区| 精品剧情v国产在线观看| 国产三级a| 国产真实自在自线免费精品| 高清欧美性猛交XXXX黑人猛交 | 亚洲日韩精品无码专区97| 四虎成人免费毛片| 波多野结衣视频网站| 亚洲欧洲日韩久久狠狠爱| 在线观看亚洲成人| 欧美性色综合网| 九九久久99精品| 国产麻豆精品在线观看| 欧美a在线看| 国产激情无码一区二区APP| 免费AV在线播放观看18禁强制| 国产丰满成熟女性性满足视频| 青青草综合网| 综合色亚洲| 国产精品久久久久久久久kt| 99久久精品免费看国产免费软件| 亚洲无码高清一区| 91视频国产高清| 亚洲日本www| 99久久免费精品特色大片| 国产亚洲高清在线精品99| 精品视频免费在线| 无遮挡国产高潮视频免费观看| 成人欧美在线观看| 91小视频在线观看免费版高清| 亚洲香蕉伊综合在人在线| 91精品啪在线观看国产| 毛片网站在线看| 又爽又大又光又色的午夜视频| 欧美成人亚洲综合精品欧美激情| 国内精品自在自线视频香蕉| 国产精品自在拍首页视频8| 在线精品视频成人网| 天堂在线视频精品| 久久精品亚洲中文字幕乱码| 国产人免费人成免费视频| 成人在线观看一区| 91热爆在线| 国产在线第二页| 亚洲欧美日韩另类| 高清国产在线| 色哟哟色院91精品网站| 欧洲极品无码一区二区三区| 亚洲Av激情网五月天|