999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于N層向量空間模型的裝備IETM數(shù)據(jù)查詢

2015-06-15 19:10:58呼凱凱徐宗昌
關(guān)鍵詞:特征故障模型

呼凱凱, 徐宗昌, 劉 凱, 郭 建, 金 飛

(裝甲兵工程學(xué)院技術(shù)保障工程系,北京 100072)

基于N層向量空間模型的裝備IETM數(shù)據(jù)查詢

呼凱凱, 徐宗昌, 劉 凱, 郭 建, 金 飛

(裝甲兵工程學(xué)院技術(shù)保障工程系,北京 100072)

為了提高IETM數(shù)據(jù)查詢的準(zhǔn)確率,通過對(duì)數(shù)據(jù)模塊編碼層與XML內(nèi)容層進(jìn)行分析,結(jié)合N層向量空間模型查詢算法,從IETM數(shù)據(jù)模塊編碼層中的型號(hào)識(shí)別碼、系統(tǒng)層次碼、信息碼以及數(shù)據(jù)模塊內(nèi)部數(shù)據(jù)信息入手,提出了一種基于N層向量空間模型的裝備IETM數(shù)據(jù)查詢算法,并通過IETM實(shí)例驗(yàn)證了該算法的正確性與實(shí)用性。

N層向量空間模型;IETM;數(shù)據(jù)查詢

交互式電子技術(shù)手冊(cè)(Interactive Electronic Technical Manual, IETM)作為裝備綜合保障領(lǐng)域一項(xiàng)新的研究?jī)?nèi)容,為裝備綜合保障活動(dòng)提供了一種全新的信息處理與獲取手段,其涵蓋了裝備維修保障活動(dòng)過程中所需的各種技術(shù)信息。然而,隨著武器裝備的發(fā)展以及高新技術(shù)的不斷應(yīng)用,裝備維修保障活動(dòng)中所需的技術(shù)信息越來越多,如何從IETM中準(zhǔn)確、快速地獲取所需的信息已成為IETM研究急需解決的問題。N層向量空間模型作為一種常用的信息檢索模型,已被廣泛應(yīng)用于不同領(lǐng)域的信息檢索和數(shù)據(jù)分類過程[1-3]。因此,本文將N層向量空間模型引入到IETM的數(shù)據(jù)查詢之中,提出了一種基于N層向量空間模型的IETM數(shù)據(jù)查詢算法。

1 基本概念

1.1 向量空間模型

向量空間模型(Vector Space Model,VSM)最早是由G.Salton提出的一種代數(shù)模型[4]。該模型將每一個(gè)對(duì)象都映射為一個(gè)向量,進(jìn)而利用相似法計(jì)算查詢對(duì)象與查詢語句的相似度,另外,通過設(shè)定相應(yīng)的相似度閾值,篩選出查詢結(jié)果,并根據(jù)相似度大小對(duì)查詢結(jié)果進(jìn)行排序[5]。

向量空間模型作為傳統(tǒng)的查詢模型具有簡(jiǎn)單、直觀、處理快速等優(yōu)點(diǎn)。但是,在實(shí)際應(yīng)用中,向量空間模型也表現(xiàn)出了一些弊端,具體表現(xiàn)在:1)未考慮文檔不同位置對(duì)特征項(xiàng)權(quán)重的影響;2)對(duì)查詢語句與數(shù)據(jù)對(duì)象進(jìn)行向量化的過程中,由于文檔集合中特征項(xiàng)的數(shù)量往往大于單獨(dú)一篇文檔中特征項(xiàng)的數(shù)量,致使所得到的向量中多數(shù)項(xiàng)都為0,最終影響相似度查詢結(jié)果的準(zhǔn)確性。因此,在實(shí)際應(yīng)用中,向量空間模型在很多情況下無法滿足用戶的實(shí)際查詢需求。

1.2N層向量空間模型

N層向量空間模型是在向量空間模型的基礎(chǔ)上提出的,其根據(jù)文檔的結(jié)構(gòu)將文檔劃分為N層,并針對(duì)不同層的內(nèi)容設(shè)定不同的向量空間模型和權(quán)重,進(jìn)而計(jì)算出不同層與查詢語句的相似度。另外,在不同層的權(quán)重計(jì)算上,不同的部分也采用不同的標(biāo)準(zhǔn),將各層中關(guān)鍵詞的權(quán)重分別乘以不同的比例系數(shù),這樣就可以顯著地提高相似度計(jì)算結(jié)果的精度,得到更好的查詢結(jié)果[6-7]。

N層向量空間模型是對(duì)傳統(tǒng)向量空間模型的一種改進(jìn),其通過對(duì)查詢對(duì)象進(jìn)行分層,解決不同位置上的特征項(xiàng)權(quán)重的區(qū)分,另外,分層很大程度上解決了查詢對(duì)象向量化后所得到的向量中多數(shù)項(xiàng)為0的弊端,從而提升了查詢結(jié)果的準(zhǔn)確度。

2 IETM數(shù)據(jù)查詢算法

IETM作為一種電子技術(shù)手冊(cè),其界面文檔顯示的數(shù)據(jù)內(nèi)容主要來源于IETM內(nèi)部的數(shù)據(jù)模塊;而數(shù)據(jù)模塊內(nèi)部各個(gè)層次代表的文檔信息,其重要程度各不相同,層次較為分明。因此,可以根據(jù)IETM數(shù)據(jù)模塊的結(jié)構(gòu)層次,提出基于N層向量空間模型的IETM數(shù)據(jù)查詢算法。

2.1 數(shù)據(jù)層次劃分

1) 數(shù)據(jù)模塊編碼層。IETM是通過數(shù)據(jù)模塊編碼(Data Module Code,DMC)來實(shí)現(xiàn)對(duì)數(shù)據(jù)模塊的區(qū)分。DMC的一般結(jié)構(gòu)如圖1所示。DMC最長是由37個(gè)數(shù)字和字母組成,最小長度是17個(gè)字符,其中主要是型號(hào)識(shí)別碼(Model Identification code,MI)、系統(tǒng)區(qū)分碼(System Difference Code,SDC)、系統(tǒng)層次碼(Standard Numbering System,SNS)、分解碼(Disassembly Code,DC)、分解差異碼(Disassembly Code Variant,DCV)、信息碼(Information Code,IC)、信息差異碼(Information Code Variant,ICV)和位置碼(Item Location Code,ILC)[8]。其中MI、SNS、IC分別描述了裝備的相關(guān)型號(hào)、基本系統(tǒng)結(jié)構(gòu)以及數(shù)據(jù)模塊所描述的信息類型,這3種編碼是數(shù)據(jù)模塊編碼中最重要、最具代表性的編碼體系結(jié)構(gòu)[9-10]。因此,對(duì)于數(shù)據(jù)模塊編碼層的查詢主要從這3個(gè)編碼結(jié)構(gòu)進(jìn)行查詢。

圖1 數(shù)據(jù)模塊編碼的一般結(jié)構(gòu)

2) XML內(nèi)容層。IETM中內(nèi)容信息的描述采用可擴(kuò)展標(biāo)記語言(eXtensible Markup Language,XML),它具有和HTML相似的性質(zhì),因此,同樣可以根據(jù)N層向量空間模型對(duì)頁面進(jìn)行層次劃分。由于頁面的特殊格式,一個(gè)數(shù)據(jù)模塊內(nèi)容層最少由指向該數(shù)據(jù)模塊的標(biāo)題、副標(biāo)題以及正文3部分組成。因此,對(duì)XML內(nèi)容層進(jìn)行查詢時(shí)也可以分為3部分:第1部分是標(biāo)題部分;第2部分是副標(biāo)題部分;第3部分是正文部分。

2.2 特征項(xiàng)選取

特征項(xiàng)作為N層向量空間模型查詢算法過程中對(duì)數(shù)據(jù)進(jìn)行向量表示的元素,其合理性的選擇直接決定了查詢語句與查詢對(duì)象向量化的正確性,并將決定查詢結(jié)果的準(zhǔn)確性。因此,在查詢計(jì)算之前,必須合理地選擇特征項(xiàng)。特征項(xiàng)的選取必須遵循以下原則。

1) 獨(dú)立性原則。在對(duì)特征項(xiàng)進(jìn)行選擇時(shí),必須使得所選取的多個(gè)特征項(xiàng)之間相互獨(dú)立,不存在任何包含與被包含的關(guān)系,進(jìn)而使得查詢向量以及每個(gè)數(shù)據(jù)模塊對(duì)象能夠準(zhǔn)確地進(jìn)行表示。如:在對(duì)相關(guān)故障信息進(jìn)行查詢時(shí),不能選取故障、故障隔離和故障描述同時(shí)作為其特征項(xiàng),而應(yīng)只選取故障隔離與故障描述作為查詢的特征項(xiàng)。

2) 代表性原則。特征項(xiàng)的選取必須能夠?qū)Σ樵儗?duì)象進(jìn)行完整性表達(dá),并且能夠突出不同查詢對(duì)象之間的本質(zhì)區(qū)別,即不同的特征項(xiàng)能夠代表不同類的查詢對(duì)象。同時(shí),在特征項(xiàng)選取過程中要確保該詞是出現(xiàn)在查詢對(duì)象當(dāng)中,尤其是標(biāo)題、副標(biāo)題這類具有明顯性與總結(jié)性的詞語。

3) 簡(jiǎn)潔性原則。在特征項(xiàng)選擇過程中應(yīng)盡量對(duì)選詞進(jìn)行簡(jiǎn)化,在確保能夠表達(dá)相應(yīng)對(duì)象的基礎(chǔ)上,盡量地對(duì)詞語進(jìn)行縮減,進(jìn)而減小向量化計(jì)算的復(fù)雜度,提高系統(tǒng)的計(jì)算速度。同時(shí),所選擇的特征詞中應(yīng)去除虛詞、感嘆詞以及連詞等修飾詞,實(shí)現(xiàn)對(duì)特征項(xiàng)的簡(jiǎn)潔化。

2.3 相似性計(jì)算

在基于N層向量空間模型的IETM數(shù)據(jù)查詢算法中,首先需要根據(jù)相應(yīng)的特征項(xiàng)對(duì)查詢語句與查詢對(duì)象進(jìn)行向量化,但是,并不是每一個(gè)特征項(xiàng)都同等重要,因此需要對(duì)特征項(xiàng)的權(quán)重進(jìn)行調(diào)整,常用的是文件集的統(tǒng)計(jì)頻率權(quán)值(Term Frequency-Inverse Document Frequency,TF-IDF),其由2部分組成:一部分是檢索單元在文件中出現(xiàn)的頻率wTF;另一部分則被稱為反轉(zhuǎn)文件頻率wIDF。其中:

(1)

式中:d為整個(gè)文件集的文件總數(shù);dj為在整個(gè)文件集中包含特征詞j的文件數(shù)。

而對(duì)于一個(gè)給定的檢索單元,其TF-IDF權(quán)值是兩者的乘積,即

(2)

通過對(duì)N層向量空間模型進(jìn)行分析并結(jié)合IETM數(shù)據(jù)模塊內(nèi)部結(jié)構(gòu),本文在N層向量空間模型的基礎(chǔ)上對(duì)其特征項(xiàng)權(quán)重的計(jì)算進(jìn)行完善。

在N層向量空間模型中,由于文檔同一區(qū)域內(nèi)不同的特征項(xiàng)所表達(dá)文檔內(nèi)容的能力不同,故為了提升查詢結(jié)果的精確度,需要對(duì)不同的特征項(xiàng)賦予不同的權(quán)重。在計(jì)算特征項(xiàng)頻率wTFijk時(shí)應(yīng)乘以一個(gè)比例因子log2(M/mk),其中:M為該特征項(xiàng)在數(shù)據(jù)模塊Di中出現(xiàn)的總次數(shù);mk為該特征項(xiàng)在第k個(gè)區(qū)域出現(xiàn)的次數(shù)。但是在對(duì)數(shù)據(jù)模塊層的特征項(xiàng)進(jìn)行加權(quán)的過程中,當(dāng)M=mk時(shí),相應(yīng)的加權(quán)計(jì)算將無法進(jìn)行。因此,在基于N層向量空間模型的IETM數(shù)據(jù)查詢計(jì)算中,本文將其頻率計(jì)算公式調(diào)整為

(3)

在對(duì)查詢語句以及查詢對(duì)象進(jìn)行向量化表示后,還需要選定合適的方法對(duì)兩者之間的相似度進(jìn)行計(jì)算,判定查詢對(duì)象是否是用戶需求的內(nèi)容。余弦相似法作為一種常用的相似性計(jì)算方法,常被用于向量空間模型中的相似性計(jì)算。因此,在基于N層向量空間的IETM數(shù)據(jù)查詢中,可以選用該方法來計(jì)算數(shù)據(jù)模塊di和查詢語句q的相似度:

(4)

(5)

式中:λk為不同層所計(jì)算出的相似度的權(quán)重;n為向量di和q的維數(shù)。

3 算法驗(yàn)證

為了驗(yàn)證本文所提出算法的正確性,以含有5個(gè)數(shù)據(jù)模塊的某型裝備IETM為例,對(duì)其發(fā)動(dòng)機(jī)故障信息進(jìn)行查詢。

1) 對(duì)查詢語句與數(shù)據(jù)模塊進(jìn)行簡(jiǎn)單形象地描述。

Q:“發(fā)動(dòng)機(jī),故障描述”。

D1:“發(fā)動(dòng)機(jī)/曲軸連桿機(jī)構(gòu)的一般故障描述”數(shù)據(jù)模塊。

D2:“發(fā)動(dòng)機(jī)的密封”數(shù)據(jù)模塊。

D3:“發(fā)動(dòng)機(jī)/曲軸連桿機(jī)構(gòu)的組成和功能描述”數(shù)據(jù)模塊。

D4:“傳動(dòng)裝置的主離合器一般故障隔離”數(shù)據(jù)模塊。

D5:“通信設(shè)備VCR-8000電臺(tái)的一般故障描述”數(shù)據(jù)模塊。

2) 查詢語句與數(shù)據(jù)模塊的向量表示以及相似性計(jì)算。

第1步:根據(jù)式(1)計(jì)算各詞語所對(duì)應(yīng)的IDF權(quán)值。計(jì)算結(jié)果如下:

IDF發(fā)動(dòng)機(jī)=0.222;

IDF傳動(dòng)裝置=0.699;

IDF通信設(shè)備=0.699;

IDF發(fā)動(dòng)機(jī)一般故障=0.699;

IDFVCR-8000電臺(tái)一般故障描述=0.699;

IDF主離合器一般故障隔離=0.699;

IDF發(fā)動(dòng)機(jī)密封=0.699;

IDF發(fā)動(dòng)機(jī)組成和功能描述=0.699。

第2步:根據(jù)式(1)中關(guān)于區(qū)域特征項(xiàng)頻率(k=1,2,分別對(duì)應(yīng)系統(tǒng)層次碼、信息碼),計(jì)算出wTFijk,再由式(2)、(3)計(jì)算出在不同數(shù)據(jù)模塊中不同特征詞所對(duì)應(yīng)的ωij和wTFij(假定w1=1.2,w2=1.1),進(jìn)而得到查詢語句和不同數(shù)據(jù)模塊的表示向量。

q=(0.222, 0, 0, 0.699, 0, 0, 0, 0);

d1=(0.266, 0, 0, 0.739, 0, 0, 0, 0);

d2=(0.266, 0, 0, 0, 0, 0, 0.739, 0);

d3=(0.266, 0, 0, 0, 0, 0, 0, 0.739);

d4=(0, 0.839, 0, 0, 0, 0.739, 0, 0);

d5=(0, 0, 0.839, 0, 0.739, 0, 0, 0)。

第3步:利用第2步所得的向量模型,再根據(jù)式(5),得到不同數(shù)據(jù)模塊的編碼層與查詢語句的相似度,如表1所示。

表1 數(shù)據(jù)模塊編碼層與查詢語句的相似度

同理,得到不同數(shù)據(jù)模塊的XML內(nèi)容層與查詢語句的相似度,如表2所示。

表2 數(shù)據(jù)模塊XML內(nèi)容層與查詢語句的相似度

第4步:把利用向量空間模型進(jìn)行計(jì)算的結(jié)果按照一定權(quán)重比例進(jìn)行匯總計(jì)算,分別將數(shù)據(jù)模塊編碼層、XML內(nèi)容層相似度計(jì)算結(jié)果的權(quán)重設(shè)為0.4、0.6。利用式(4)計(jì)算出不同數(shù)據(jù)模塊與查詢語句的最終相似度,結(jié)果如表3所示。

表3 數(shù)據(jù)模塊與查詢語句的相似度

綜合所得查詢排序結(jié)果為D1、D3、D2、D5、D4。可以看出:采用該算法計(jì)算出的相似度與實(shí)際結(jié)果完全吻合;另外,該算法要優(yōu)于現(xiàn)有IETM系統(tǒng)根據(jù)關(guān)鍵字進(jìn)行排序的算法。

4 結(jié)論

本文以N層向量空間模型為基礎(chǔ),提出了基于N層向量空間模型的IETM數(shù)據(jù)查詢算法。與傳統(tǒng)的IETM查詢算法相比,從數(shù)據(jù)模塊的不同數(shù)據(jù)結(jié)構(gòu)層出發(fā)進(jìn)行數(shù)據(jù)查詢具有良好的查詢效果。然而由于不同的用戶在查詢過程中對(duì)相同查詢請(qǐng)求的表達(dá)上存在一定的差異,因此,針對(duì)查詢?cè)~的語義分析將是下一步研究的方向。

[1] Jing L P,Ng M K,Huang J Z. Knowledge-based Vector Space Model for Text Clustering [J].Knowledge and Information Systems,2010,25(1):35-55.

[2] 王方,阮梅花,朱海剛,等. 基于向量空間模型的科技文獻(xiàn)自動(dòng)分類研究[J].情報(bào)探索,2009,194(12):1-3.

[3] De Smet W,Moens M F. Representations for Multi-document Event Clustering [J]. Data Mining and Knowledge Discovery, 2013,26(3):533-558

[4] 張凌宇,陳淑鑫,張光妲,等.一種基于向量空間模型的模糊本體映射方法[J].計(jì)算機(jī)應(yīng)用研究,2014,31(5):1459-1462.

[5] 夏立新,陸偉,沈吟東,等.信息檢索可視化[M].北京:科學(xué)出版社,2009:19-21.

[6] 劉紅芝. 基于N層向量空間模型和兩重過濾方法的文本過濾系統(tǒng)的研究[J].科技信息,2009,32(1):36-37.

[7] 仲華,崔志明. 基于XML的信息抽取和多層向量空間技術(shù)研究[J].計(jì)算機(jī)技術(shù)與發(fā)展,2007,17(7):49-52.

[8] 徐宗昌. 裝備IETM研制工程總論[M].北京:國防工業(yè)出版社,2012:259-260.

[9] 安釗. 裝備交互式電子技術(shù)手冊(cè)若干關(guān)鍵技術(shù)研究[D].北京:裝甲兵工程學(xué)院,2009.

[10] 徐宗昌. 裝備IETM技術(shù)標(biāo)準(zhǔn)實(shí)施指南[M].北京:國防工業(yè)出版社,2012:64-66.

(責(zé)任編輯:尚彩娟)

IETM Data Retrieval of Equipment Based onN-level Vector Model

HU Kai-kai, XU Zong-chang, LIU Kai, GUO Jian, JIN Fei

(Department of Technical Support Engineering, Academy of Armored Force Engineering, Beijing 100072, China)

Aiming at improving the accuracy of IETM data retrieval, through analyzing the levels of data module code and XML content, in combination with the retrieval algorithm ofN-level vector space model, this paper presents a data retrieval method of IETM based onN-level vector space model from model identification code, standard numbering system, information code of data module coding layer and the information in the data module. At last, it proves the correctness and practicability of the algorithm in accordance with IETM instance.

N-level vector space model; IETM; data retrieval

1672-1497(2015)01-0086-04

2014- 07- 16

呼凱凱(1987-),男,博士研究生。

TP391

A

10.3969/j.issn.1672-1497.2015.01.017

猜你喜歡
特征故障模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
故障一點(diǎn)通
如何表達(dá)“特征”
不忠誠的四個(gè)特征
抓住特征巧觀察
3D打印中的模型分割與打包
奔馳R320車ABS、ESP故障燈異常點(diǎn)亮
故障一點(diǎn)通
主站蜘蛛池模板: 中文字幕 91| 久久国产成人精品国产成人亚洲 | 亚洲人成网站在线播放2019| 91免费片| 亚洲中文字幕在线精品一区| 成人午夜免费观看| 女人一级毛片| 波多野结衣AV无码久久一区| 国产高清不卡| 伊人成人在线| 一本大道视频精品人妻| 99热这里只有精品免费| 色AV色 综合网站| 国内丰满少妇猛烈精品播| 日本三区视频| 亚洲第一网站男人都懂| 亚洲无码高清免费视频亚洲| 国产一级毛片高清完整视频版| 91久草视频| 久久婷婷五月综合色一区二区| 全裸无码专区| 直接黄91麻豆网站| 亚洲视频色图| 国产91麻豆免费观看| 国产乱人伦精品一区二区| 全部免费特黄特色大片视频| 国产成人永久免费视频| 午夜国产在线观看| 日韩一级毛一欧美一国产| 成人一级黄色毛片| 婷婷丁香在线观看| 日本一本正道综合久久dvd| 亚洲一级毛片在线观| 在线色国产| 99热精品久久| 亚洲精品无码日韩国产不卡| 毛片视频网址| 亚洲男人的天堂久久精品| 啪啪免费视频一区二区| 国产无码精品在线播放| 红杏AV在线无码| 性视频一区| 亚洲国产精品久久久久秋霞影院| 久久香蕉欧美精品| 日韩123欧美字幕| 久久青草精品一区二区三区| 91色在线观看| 国产在线一区视频| 亚洲91精品视频| 91青青草视频在线观看的| 精品久久久久久久久久久| 亚洲中久无码永久在线观看软件| 国产人成在线观看| 亚洲国产天堂久久综合226114| 在线无码av一区二区三区| 亚洲日韩精品无码专区97| 成人在线亚洲| 亚洲精品天堂在线观看| 在线视频精品一区| 五月天久久综合| 欧美区日韩区| 午夜日b视频| 国产真实乱子伦精品视手机观看 | 免费不卡在线观看av| 国产成人福利在线视老湿机| 免费 国产 无码久久久| 午夜在线不卡| 亚洲网综合| 毛片三级在线观看| 色屁屁一区二区三区视频国产| 日韩国产黄色网站| 最新精品国偷自产在线| 久久无码av三级| 亚洲首页在线观看| 一区二区三区在线不卡免费| 97青青青国产在线播放| 亚洲综合精品第一页| 国产高清色视频免费看的网址| 亚洲欧洲天堂色AV| 免费观看国产小粉嫩喷水| 精品欧美视频| 国产尤物jk自慰制服喷水|