999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

多源自媒體資源知識組織模型構(gòu)建研究

2024-04-14 13:33:15李強劉思得張鎮(zhèn)波鮑玉來
現(xiàn)代情報 2024年4期

李強 劉思得 張鎮(zhèn)波 鮑玉來

關鍵詞:語義關聯(lián):多源自媒體資源:知識組織:元數(shù)據(jù)

多源自媒體資源包含了大量的數(shù)字內(nèi)容,例如博客、微博、微信公眾號、短視頻等,這些內(nèi)容能夠豐富圖書館的館藏,為用戶提供多元化的信息資源。多源自媒體資源的數(shù)量龐大,用戶往往無法通過傳統(tǒng)的檢索方式找到所需的信息。構(gòu)建多源自媒體資源的知識組織模型,可以通過對多源自媒體資源進行分類、標注等方式,提高用戶獲取信息的效率。多源自媒體資源的特點是用戶可以自由發(fā)布和共享自己的知識和經(jīng)驗。通過構(gòu)建多源自媒體資源的知識組織模型,可以促進用戶之間的知識交流與分享,打破傳統(tǒng)知識傳播的壁壘。多源自媒體資源中蘊含了大量的學術研究成果和專業(yè)知識,構(gòu)建多源自媒體資源的知識組織模型可以將這些資源整合起來,為學術研究和學習提供支持。多源自媒體資源的知識組織模型能夠?qū)⒂脩舻男枨笈c資源進行匹配,提供個性化的推薦和服務,從而提升用戶的使用體驗。

1多源自媒體資源知識組織目標與原則

多源自媒體是指來自多個不同平臺和渠道的多源自媒體資源。多源自媒體,也稱為個人媒體或公民媒體,是指個人或團體通過互聯(lián)網(wǎng)等數(shù)字化技術手段發(fā)布、傳播信息的新型媒體形式。在當前的信息時代,多源自媒體已成為人們獲取信息、表達觀點的重要途徑。

1.1多源自媒體的特點

多源自媒體的特點主要體現(xiàn)在以下幾個方面:

1)多樣性:多源自媒體包括各種類型的網(wǎng)絡平臺,如社交媒體(微博、微信)、短視頻平臺(抖音、快手)、問答社區(qū)(知乎)、直播平臺(斗魚、虎牙)等。

2)開放性:多源自媒體門檻低,任何人都可以成為信息的生產(chǎn)者和傳播者,內(nèi)容涵蓋廣泛,從生活瑣事到專業(yè)知識,無所不包。

3)實時性:多源自媒體信息發(fā)布迅速,能夠?qū)崟r反映社會熱點事件和個人即時感受。

4)互動性:多源自媒體具有強烈的社交屬性,用戶之間可以進行評論、點贊、分享等多種形式的互動。

5)多元化:多源自媒體內(nèi)容多樣,不僅有文字,還有圖片、音頻、視頻等多種形式。

因此,多源自媒體的研究對于了解公眾意見、挖掘社會熱點、提升信息服務質(zhì)量等方面具有重要意義。同時,由于多源自媒體資源的多源異構(gòu)特點,如阿有效地組織和管理這些資源也是一項重要的挑戰(zhàn)。

1.2多源自媒體資源知識組織目標

多源自媒體資源知識組織的目標是發(fā)掘館藏與多源自媒體資源在知識上的聯(lián)系,實現(xiàn)多源自媒體資源的有序化組織和高效利用,并為用戶進行信息檢索提供便利,減少其在精細化檢索上耗費的時間,具體內(nèi)容如下:

1)推動多源自媒體資源有序化組織。知識組織被定義為揭示知識單元,挖掘知識關聯(lián)的過程或行為,最為快捷地為用戶提供有效知識或信息。通過引入知識元和語義關聯(lián)等方法,將較為雜亂的多源自媒體資源信息整理為結(jié)構(gòu)化的有序知識來源,挖掘內(nèi)部知識結(jié)構(gòu)和特征規(guī)律,方便圖書館的引用。

2)實現(xiàn)館藏到多源自媒體資源的一對多映射。通過對多源自媒體資源和虛擬館藏資源進行知識元瞄述、抽取、關聯(lián)和應用,采用深度學習、主題建模等多種技術方法對知識內(nèi)容單元進行序化重組,旨在通過尋找館藏與多源自媒體資源在知識結(jié)構(gòu)上的映射關系,使圖書館實現(xiàn)由多源自媒體資源到館藏的利用。

1.3多源自媒體資源知識組織原則

對多源自媒體資源進行知識組織需要遵循一定的原則。①科學性原則,科學性原則是科學研究的首要原則,也是知識組織的首要原則;②有序性原則,當今時代信息量的爆發(fā)式增長,海量信息和虛假信息導致了檢索和甄別困難,因此,實現(xiàn)知識的有序化是知識組織工作的重要目標之一:③實用性原則,實用性原則發(fā)源于實用主義,主要體現(xiàn)為強調(diào)行動和效果,將經(jīng)驗和實踐歸結(jié)為行動的效果,將知識歸結(jié)為行動的工具,將真理歸結(jié)為有用、效用或行動的成功,盡力立足于事實,腳踏實地地進行科學研究;④多維性原則,多維性原則指要從多個維度進行多源自媒體資源的知識組織,其一指從語義方面對館藏資源進行知識元分析:其二是對多源自媒體資源進行知識結(jié)構(gòu)的解析:其三是揭示在上述二者之間的內(nèi)在聯(lián)系。需要借助人工智能技術,有針對性地多角度、多途徑、全方位進行知識組織研究,滿足用戶的多維知識需求。

2多源自媒體資源知識組織模型邏輯框架構(gòu)建

2.1多源自媒體資源知識組織方式和單一來源自媒體資源知識組織方式的區(qū)別

單一來源自媒體資源知識組織方式是指只從一個特定平臺或渠道收集多源自媒體資源進行知識組織。這種方式的優(yōu)點是數(shù)據(jù)來源相對穩(wěn)定,數(shù)據(jù)格式和內(nèi)容類型較為一致,便于管理和處理。例如,如果僅從知乎平臺收集問答信息,那么數(shù)據(jù)主要以文本形式存在,且結(jié)構(gòu)清晰,可以按照問題、回答、評論等維度進行分類和索引。然而,多源自媒體資源知識組織方式則需要面對來自多個不同平臺和渠道的數(shù)據(jù),這些數(shù)據(jù)不僅在格式上可能存在差異(如文字、圖片、視頻等),而且在內(nèi)容和主題上也可能各不相同。這就需要更為復雜的知識組織策略和技術手段。

1)多源自媒體資源的知識組織需要解決數(shù)據(jù)整合的問題。由于各個平臺的數(shù)據(jù)格式和標準可能不同,因此需要進行數(shù)據(jù)轉(zhuǎn)換和標準化,以便于后續(xù)的處理和分析。

2)多源自媒體資源的知識組織需要考慮如何有效地提取和利用信息。這包括對數(shù)據(jù)的內(nèi)容進行深入理解和解析,例如識別關鍵詞、命名實體、情感傾向等,并建立它們之間的語義關聯(lián)。

3)多源自媒體資源的知識組織還需要應對數(shù)據(jù)更新和變化的問題。由于多源自媒體的實時性和動態(tài)性,數(shù)據(jù)可能會快速地產(chǎn)生和消失,因此需要設計合理的數(shù)據(jù)采集和更新策略。

多源自媒體資源知識組織方式相比單一來源自媒體資源知識組織方式,需要更強大的數(shù)據(jù)處理和分析能力,以及更為靈活和適應性的知識組織策略。

2.2多源自媒體資源知識組織邏輯框架

多源自媒體資源知識組織是數(shù)字資源知識組織領域下,基于多源自媒體資源知識內(nèi)涵及與館藏資源的關聯(lián)關系開展的知識組織新模式,旨在從多源自媒體資源中尋求與館藏資源的語義關聯(lián)與映射,并嘗試實現(xiàn)與虛擬館藏資源之間的語義關聯(lián),從而為虛擬館藏提供延伸服務。

將多源自媒體資源知識組織劃分為多源自媒體資源特征知識組織和多源自媒體資源內(nèi)容知識組織兩個維度。在上述兩個維度的知識組織基礎上,再加以對虛擬館藏資源的知識抽取結(jié)果,將三者進行語義關聯(lián),挖掘館藏資源和多源自媒體資源在知識結(jié)構(gòu)、知識內(nèi)涵上的聯(lián)系,并以此思路構(gòu)建了多源自媒體資源知識組織邏輯框架,如圖1所示。

3多源自媒體資源特征信息組織

多源自媒體資源特征信息組織是以知識元為核心要素,對多源自媒體資源的特征,即結(jié)構(gòu)化信息的內(nèi)容和特征進行抽象表示和概括,以促進知識的管理和利用,是知識元抽取、知識關聯(lián)等知識組織工作的基礎。多源自媒體資源特征信息組織結(jié)構(gòu)整體劃分為語義與全局兩個維度,由表及里,由形式到內(nèi)容進行知識元描述。首先從多源自媒體資源結(jié)構(gòu)化信息出發(fā),對結(jié)構(gòu)化信息進行元數(shù)據(jù)描述,構(gòu)建多源自媒體資源特征元數(shù)據(jù)描述框架,并采用形式語言進行規(guī)范化表示。其次通過引入本體,構(gòu)建多源自媒體資源特征元數(shù)據(jù)描述模型。最后,從全局維度人手,為多源自媒體資源特征之間的語義關系構(gòu)建一個系統(tǒng)性的元數(shù)據(jù)體系結(jié)構(gòu),以此全面地對多源自媒體資源特征信息進行抽象化表示,為后續(xù)的語義關聯(lián)做好鋪墊工作。

多源自媒體資源特征元數(shù)據(jù)描述框架構(gòu)建包括4個步驟,分別為多源自媒體資源特征信息分析、多源自媒體資源特征核心要素提取、元數(shù)據(jù)標準復用、元數(shù)據(jù)描述框架構(gòu)建。

3.1多源自媒體資源特征信息分析

多源自媒體資源特征信息的結(jié)構(gòu)和布局較為簡單,根據(jù)多源自媒體平臺常見的作者一作品一觀眾/讀者三元體系,將多源自媒體資源特征信息中作者相關信息定義為作者要素,將資源客觀上存在的、一般不會改變的信息定義為客觀要素,將因觀眾交互產(chǎn)生的、通常用于衡量資源質(zhì)量的信息定義為質(zhì)量要素。此外分別以B站、抖音.知乎3個平臺的自媒體資源為例,分析這些多源自媒體平臺的資源相關特征,從而為多源自媒體資源特征元數(shù)據(jù)描述框架構(gòu)建提供參考依據(jù)。

B站多源自媒體資源特征信息基本分布于詳情頁,包括資源標題、播放量、彈幕量、作者、作者認證信息、作者粉絲量、資源獲認可量(點贊、投幣、收藏)、資源標簽、資源關聯(lián)等。其中作者、作者認證信息、作者粉絲量可歸納為作者要素,資源標題、資源標簽可歸納為客觀要素,播放量、彈幕量、資源獲認可(點贊、投幣、收藏)、資源關聯(lián)可歸納為質(zhì)量要素。

抖音多源自媒體資源特征信息與資源詳情頁的體現(xiàn)不夠完整,需要借助作者主頁來補充信息,包括作者、資源標題、資源標簽、資源獲認可量(點贊、收藏)、作者認證信息、作者粉絲量、總獲贊量等。其中作者、作者認證信息、作者粉絲量、總獲贊量可歸納為作者要素,資源標題、資源標簽、播放量和訪問地址可歸納為客觀要素,播放量、資源獲認可量(點贊、收藏)可歸納為質(zhì)量要素。

知乎多源自媒體資源特征信息與資源詳情頁的體現(xiàn)同樣不夠完整,同樣需要借助作者主頁來補充信息,包括作者、發(fā)布日期、資源標題、資源標簽、資源獲認可量(點贊、評論)、作者從事行業(yè)、作者粉絲量、總獲贊量等。其中作者、作者從事行業(yè)、作者粉絲量、總獲贊量可歸納為作者要素,資源標題、發(fā)布日期、資源標簽可歸納為客觀要素,資源獲認可量(點贊、評論)可歸納為質(zhì)量要素。

3.2提取多源自媒體資源知識元核心要素

結(jié)合上文中所分析和歸納的多源自媒體資源特征信息,并參考現(xiàn)有的成熟元數(shù)據(jù)標準,提煉多源自媒體資源特征要素(如表1所示),為多源自媒體資源知識元元數(shù)據(jù)框架構(gòu)建奠定基礎。

3.3元數(shù)據(jù)標準復用

由于多源自媒體資源方面目前并沒有專業(yè)的元數(shù)據(jù)標準,因此考慮從較為廣泛的網(wǎng)絡資源領域選取了DC元數(shù)據(jù)進行復用。

DC(Dublin Core)元數(shù)據(jù)又稱“都柏林核心元數(shù)據(jù)”,是當前圖書館界應用最廣、影響最大的標準化元數(shù)據(jù),其主要元素構(gòu)成如表2所示。

3.4構(gòu)建多源自媒體報紙資源知識元元數(shù)據(jù)描述框架

參考DC元數(shù)據(jù)標準后,本文復用了其中5個元素(題名、日期、創(chuàng)建者、主題、來源),關于已定義的其余多源自媒體知識元要素,目前尚未找到近似的元數(shù)據(jù)標準,因此,本文進行自定義一個元數(shù)據(jù)標準(wemedia,簡寫為wm)說明,元數(shù)據(jù)元素共計17個,具體信息如表3所示。

4多源自媒體資源內(nèi)容信息組織

多源自媒體資源內(nèi)容信息組織是基于互聯(lián)網(wǎng)環(huán)境下用戶進行信息檢索的主要方式中的視頻檢索,即到視頻中找答案的檢索行為而構(gòu)建的。主要以人工智能技術對多源自媒體資源的內(nèi)容進行知識抽取工作,主要分為實體抽取、事件知識元抽取和主題知識元抽取3部分,對資源中包含的知識元進行具象化概括和標注,以對多源自媒體資源特征信息組織進行補充,為后續(xù)的語義關聯(lián)提供支持。

4.1多源自媒體資源內(nèi)容文本化

在知識組織工作中,組織的對象均為各種形式的文本信息,而非文本類多源自媒體資源中同樣包含著許多有價值的信息,卻由于載體的限制從未成為知識組織的對象。因此,本文嘗試提出一個研究思路,通過若干步驟對非文本類多源自媒體資源進行文本化,提取出資源中的內(nèi)容,使其可以適用于當下常用的知識組織方法,為知識抽取工作提供數(shù)據(jù)支持。當前,非文本類資源包括視頻資源、音頻資源和圖片資源,由于圖片資源內(nèi)容特征涉及非文字性的圖形、色彩、色調(diào)、紋理、內(nèi)容對象、物理制作等要素信息,現(xiàn)有技術對于圖像提取信息的手段缺乏而無法獲得有效信息,因此本文對多源自媒體資源內(nèi)容文本化的設計將忽略圖片資源信息,僅考慮視頻資源和音頻資源。下面將以B站視頻類多源自媒體資源“【羅翔】正當防衛(wèi)的尺度”為例,展示多源自媒體資源內(nèi)容文本化的主要流程。

1)工具選擇與項目搭建

本文選擇的多源自媒體資源文本化工具為深度卷積神經(jīng)網(wǎng)絡(DCNN)、連接時序分類(CTC)方法及語言模型Language Model等,使用語音識別專用數(shù)據(jù)集進行訓練。

首先通過特征提取將音頻文件中普通的語音信號通過分幀加窗等操作轉(zhuǎn)換為神經(jīng)網(wǎng)絡需要的二維頻譜圖像信號,即語譜圖。然后通過DCNN(深度卷積神經(jīng)網(wǎng)絡),將聲學信號轉(zhuǎn)換為拼音標簽序列。

在語音識別系統(tǒng)的聲學模型的輸出中,往往包含了大量連續(xù)重復的符號,因此還需要使用CTC(連接時序分類)方法將連續(xù)相同的符合合并為同一個符號,然后再去除靜音分隔標記符,得到最終實際的語音拼音符號序列。

拼音轉(zhuǎn)漢字的原理參照動態(tài)規(guī)劃算法,與計算機學中的最短路徑的算法基本相同。可將拼音到漢字的轉(zhuǎn)化看成對最短路徑問題的求解,每個漢字有且僅有1個音,但每一組拼音可以對應多個漢字,將拼音符號序列對應的字自左向右相連即構(gòu)成1張有向圖,如圖2所示。

Y1是輸入的拼音符號序列,W11、W12、W13分別為Y1的第一、二、三個候選字,有向箭頭表示該候選字與下一個候選字組成的字段符合原本語義表達的概率,后續(xù)以此類推直到Y(jié)。與最短路徑問題略有不同的是,在語音轉(zhuǎn)化中期望得到的結(jié)果是到終點概率最大的路徑,因此本文使用了最短路徑算法中的貪心算法來進行語音到文本的解碼。

貪心算法(又稱貪婪算法),指在對問題求解時,總是做出在當前看來是最好的選擇。也就是說,不從整體最優(yōu)上加以考慮,他所做出的是在某種意義上的局部最優(yōu)解。貪心算法不是對所有問題都能得到整體最優(yōu)解,關鍵是貪心策略的選擇,選擇的貪心策略必須具備無后效性,即某個狀態(tài)以前的過程不會影響以后的狀態(tài),只與當前狀態(tài)有關。

2)多源自媒體資源下載與音頻提取

由于本文使用的多源自媒體資源文本化工具的輸人格式為音頻文件,因此需要對非音頻資源(即視頻資源)進行預處理,提取出音頻部分。多源自媒體資源的下載渠道為各自媒體資源平臺網(wǎng)站、APP或公眾號等,大多數(shù)多源自媒體平臺的音頻緩存格式為.mp3,視頻緩存格式則為.mp4或.flv,通過一些視頻處理軟件即可實現(xiàn)音頻提取。

B站的視頻緩存格式較為特殊,為.m4s格式,因此不能通過常規(guī)視頻處理軟件,需要用.m4s專用的軟件進行提取,否則會造成文件損壞。B站多源自媒體資源文件緩存index.json為頁面配置文件,audio. m4s和video. m4s分別為該資源的影像部分和音像部分,我們僅需要其中的音像部分即可,即audio.m4s文件,再將該文件使用.m4s專用軟件(如秒轉(zhuǎn)m4s等)將audio. m4s文件轉(zhuǎn)為.mp3的音頻文件即可。

3)格式轉(zhuǎn)化

在音頻識別項目中為了減少環(huán)境的負荷,通常要求音頻文件的shape[list]≤1600。而.mp3文件的shape[list]為42605,遠遠超出臨界值,因此需要對.mp3文件進行輕量級化,轉(zhuǎn)化為更接近原聲的.wav文件,減少對環(huán)境的依賴程度。

由.mp3文件到.wav文件的格式轉(zhuǎn)化可使用Audacity軟件完成,只需使用Audacity打開.mp3文件,重新錄制后再導出為.wav文件即可。

4)語音識別

將處理后的音頻文件路徑輸入語音識別項目后即可輸出識別后的中文文本。

4.2多源自媒體資源內(nèi)容關鍵詞與知識摘要抽取

多源白媒體資源內(nèi)容知識摘要與關鍵詞抽取分別使用了TextRank算法中的Summarize函數(shù)與Key-words函數(shù)。

TextRank算法是由頁面重要性排序算法Pag-eRank算法遷移出來而生成的新算法,PageRank算法依據(jù)頁面間的鏈接性聯(lián)系構(gòu)建網(wǎng)絡,而TextRank算法則依據(jù)字詞間的共現(xiàn)性聯(lián)系構(gòu)建網(wǎng)絡。

PageRank算法所建立的網(wǎng)絡上的邊為有向無權(quán)邊,而TextRank算法把單詞當作萬維網(wǎng)中的節(jié)點,并通過單詞間的共現(xiàn)性關系判斷一個單詞的價值,從而把PageRank中的有向無權(quán)邊轉(zhuǎn)換為無向有權(quán)邊。

首先需要將給定的文本進行分詞和詞性標注,詞性標注與命名實體識別相似但不完全相同,詞性標注指根據(jù)詞性標記所有詞語,而命名實體識別僅選出已被定義的的實體。本文分詞及詞性標注同樣采用Jiagu自然語言處理工具構(gòu)建完成。多源自媒體資源內(nèi)容詞性標注標準如表4所示,以B站視頻類多源自媒體資源“【羅翔】正當防衛(wèi)的尺度”為例,展示分詞及詞性標注結(jié)果,如圖3所示。

在所有詞性標注的結(jié)果中剔除停用詞,只保留名詞、動詞、形容詞等,而后即可構(gòu)建詞圖G=(V,E)。其中V為節(jié)點集合,由經(jīng)過上一步所產(chǎn)生的詞匯構(gòu)成,然后通過共現(xiàn)關系構(gòu)造任何兩個節(jié)點相互之間的邊:在窗口尺寸為K的視窗中(即最多共現(xiàn)K個單詞,通常K取2),兩個節(jié)點相互之間具有邊當且僅當它們所相應的詞匯在尺寸為K的視窗中共現(xiàn)。

根據(jù)式(1).可以迭代求解各節(jié)點占據(jù)的權(quán)重,直到收斂。對節(jié)點的權(quán)重實行倒序排序,由此得出了最關鍵的t個詞,命名為top-t詞。對新獲得的top-t詞,在原始文本上加以標注,如果在它們的中間產(chǎn)生了任意相鄰短語,就當作關鍵詞抽取出來,即最終輸出的結(jié)果。

在給定文本中抽取關鍵句時,把文本中的各個語句單獨視為一個節(jié)點,假設兩個語句具有相似之處,即認為在這兩個語句對應的節(jié)點間具有一條無向有權(quán)邊,判斷語句間相似性的公式見式(2):

其中S1、S2為兩個獨立的句子,w為句子中的詞匯集。式(2)右側(cè)分子部分意為是同一個詞重復出現(xiàn)在兩個句子中的次數(shù),分母則是對句子中詞的個數(shù)求對數(shù)后再求和,如此方可控制較長文本在相似度計算上的誤差。

按照上述相似度計算公式循環(huán)計算出任何兩個節(jié)點間的相似度,并設定閾值以去除兩個節(jié)點中間相似度較低的一邊,進而建立出節(jié)點連接圖,隨后迭代計算各個節(jié)點的TextRank值,在排序后選出TextRank值最大的n個節(jié)點,將其對應的語句作為關鍵句,并作為結(jié)果輸出。

以B站視頻類多源自媒體資源“【羅翔】正當防衛(wèi)的尺度”為例,關鍵詞及知識摘要抽取結(jié)果如圖4所示。

4.3多源自媒體資源內(nèi)容知識組織信息整合

按照多源自媒體資源知識元模型邏輯框架,多源自媒體資源內(nèi)容知識組織所得結(jié)果將會與多源自媒體資源特征知識組織的所得結(jié)果一同進行語義關聯(lián),為方便語義關聯(lián)工作的進行,需要將多源自媒體資源內(nèi)容知識組織的結(jié)果集成到已構(gòu)建的多源自媒體資源特征信息本體中,合并為多源自媒體資源信息本體,如圖5所示。

4.4多源自媒體資源語義網(wǎng)絡構(gòu)建

1)語義網(wǎng)絡

語義網(wǎng)絡(Semantic Network)是奎林(Quillian JR)于1968年提出的一種以網(wǎng)狀脈絡表達數(shù)據(jù)關聯(lián)的形式,是人工智能程序運用的表示方式之一,是一種直觀的知識表示方法。語義網(wǎng)絡本質(zhì)上是多組三聯(lián)組的組合與擴展,其構(gòu)建方法主要是半自動法或自動法,包括概念抽取和關系抽取兩個步驟。

2)多源自媒體資源特征知識元語義網(wǎng)絡

通過Protege內(nèi)的OntoGraf模塊,可對構(gòu)建好的本體模型進行結(jié)構(gòu)脈絡可視化,如圖6所示。

由于語義網(wǎng)絡的表達范圍有限,一旦節(jié)點個數(shù)太多,網(wǎng)絡結(jié)構(gòu)復雜,推理就難以進行,因此在語義網(wǎng)絡的構(gòu)建過程中需要有意控制節(jié)點的數(shù)量。

根據(jù)圖6中的結(jié)構(gòu)脈絡,在多源自媒體資源特征信息分類層次的基礎上,將從事行業(yè)、職業(yè)經(jīng)歷、教育經(jīng)歷概括為履歷知識元。由于日期在語義網(wǎng)絡構(gòu)建中具有格式特殊性,因此將其從客觀信息類中分出,獨立概括為時間知識元,概括后的整體知識元語義網(wǎng)絡如圖7所示。

多源自媒體資源特征語義網(wǎng)絡將多源自媒體資源的屬性以及屬性間的語義聯(lián)系顯示地表現(xiàn)出來,下層結(jié)點可以繼承、新增和變異上層結(jié)點的屬性,從而便于實現(xiàn)信息共享和知識挖掘。

5多源自媒體資源語義關聯(lián)實驗

為對多源自媒體資源知識組織結(jié)果進行延伸和應用,以實現(xiàn)研究目標中的館藏到多源自媒體資源的一對多映射,基于語義學理論,通過計算機領域的關聯(lián)算法對多源自媒體資源知識組織結(jié)果和館藏資源進行語義關聯(lián)研究,設計多個方案進行關聯(lián)并通過實驗比對它們的效果。

5.1語義關聯(lián)實驗設計

對語義關聯(lián)實驗進行設計,實驗的設計將分為4個部分,分別是需求分析、語義關聯(lián)算法選取、語義關聯(lián)方案設計和實驗流程設計。

5.1.1實驗需求分析

算法需要對知識組織的結(jié)果預處理后的數(shù)據(jù)同關聯(lián)對象進行語義關聯(lián)計算,輸出與給定的每個多源自媒體資源知識組織結(jié)果的語義關聯(lián)度,并按語義關聯(lián)度高低進行排序。排序后的各多源自媒體資源知識組織語義關聯(lián)度,關聯(lián)度最高和最低之差應不小于0.01,確保語義關聯(lián)結(jié)果能表現(xiàn)出明顯的高低之分。

5.1.2語義關聯(lián)算法選取

1)語義關聯(lián)算法。語義學理論中認為,任何兩個詞語的相似度取決于它們的共性(Commonality)和個性(Differences),語義關聯(lián)度一般為一個0~1之間的實數(shù)。

目前較為常見的語義關聯(lián)算法主要有:詞向量關聯(lián)法、特征關聯(lián)法、Bert概率關聯(lián)法和詞典關聯(lián)法。由于詞向量關聯(lián)法相較于其他關聯(lián)法較為直接和簡便,因此在目前語義關聯(lián)方面的算法更多會選擇詞向量關聯(lián)法。

2)算法評價指標。衡量機器學習算法的三大指標為:查全率、查準率和F1。

3)語義關聯(lián)算法對比分析。本實驗中選擇了詞向量關聯(lián)法中使用較多的幾種算法,并通過上述評價指標進行對比,如表5所示。

通過表5中的數(shù)據(jù)可見,算法text_similar-matching-tool-master在3項指標上都明顯優(yōu)于其他算法,因止匕選擇text_similar-matching-tool-master來進行語義關聯(lián)實驗。

5.1.3語義關聯(lián)方案設計

通過結(jié)合多源自媒體資源知識組織中的多源自媒體資源語義網(wǎng)絡脈絡,已確定的語義關聯(lián)方案有兩種:整體關聯(lián)法和加權(quán)關聯(lián)法。在本實驗中根據(jù)語義網(wǎng)絡中各節(jié)點之間的距離為多源自媒體資源知識組織結(jié)果中的各個部分賦予權(quán)重,將各部分單獨作為算法的輸入結(jié)果進行語義關聯(lián),再對輸出的結(jié)果進行加權(quán)運算,得出最終的加權(quán)語義關聯(lián)度。

在對算法的測試過程中發(fā)現(xiàn),實驗算法對長文本的語義關聯(lián)度輸入結(jié)果浮動較大且整體偏低,而對短文本的語義關聯(lián)度則較為穩(wěn)定,因此需要進行預實驗加以確定。

如圖8所示,將一段100字的文本分為5段20字的文本,再將它們分別與另一段關聯(lián)文本進行語義關聯(lián),關聯(lián)文本為該100字文本經(jīng)翻譯成英語、德語后再翻譯回中文的結(jié)果,語義關聯(lián)結(jié)果如圖9所示。

圖9中的similarity為100字文本同關聯(lián)文本間的語義關聯(lián)度,而similarity1~5則為分段后的5段文本各自與關聯(lián)文本間的語義關聯(lián)度。

通過預實驗可發(fā)現(xiàn),similarity1~5均高于simi-larity,且對similarity1~5計算平均值后依然遠高于similarity。由此可見同一段文本內(nèi)容,將其整體進行關聯(lián)和分段進行關聯(lián)的結(jié)果存在較大偏差。

多源自媒體資源知識組織結(jié)果由組成結(jié)構(gòu)化信息、命名實體、關鍵詞、知識摘要等組成,因此考慮對多源自媒體資源知識組織結(jié)果進行分段,其中知識摘要字數(shù)相對較多可根據(jù)文段長度適當分為2~3段,再將它們分別與關聯(lián)對象進行語義關聯(lián),以此構(gòu)建分段關聯(lián)法。因為分段需要進行數(shù)倍于整體關聯(lián)法的工作量,因此在保證輸出語義關聯(lián)度最高的5個結(jié)果能夠達成的基礎上,分段關聯(lián)法將僅在整體關聯(lián)法結(jié)果中的語義關聯(lián)度最高的10個結(jié)果中進行。

分段關聯(lián)法對多源自媒體資源知識組織結(jié)果的分割恰好符合加權(quán)關聯(lián)法的數(shù)據(jù)需求,因此加權(quán)關聯(lián)法可在分段關聯(lián)法的基礎上進行。

至此,本實驗的語義關聯(lián)方案全部確定,分別為整體關聯(lián)法、詞句關聯(lián)法和加權(quán)關聯(lián)法,實驗語義關聯(lián)方案設計流程圖如圖10所示。

整體關聯(lián)法為語義關聯(lián)算法的直接調(diào)用,計算出關聯(lián)對象與多源自媒體資源信息的語義關聯(lián)度。

分段關聯(lián)法在整體關聯(lián)法的基礎上,對結(jié)果中語義關聯(lián)度前十的多源自媒體資源進行分段,以所有文段對于關聯(lián)對象信息的平均語義關聯(lián)度,作為該多源自媒體資源信息整體對于關聯(lián)對象信息的語義關聯(lián)度輸出。

加權(quán)關聯(lián)法在詞句關聯(lián)法的基礎上,對分段后的語義關聯(lián)度進行加權(quán)計算后得出加權(quán)語義關聯(lián)度。權(quán)重分配參照多源自媒體資源本體及知識元語義網(wǎng)絡結(jié)構(gòu),以節(jié)點的級別進行分配。

其中內(nèi)容知識元、作者知識元和客觀信息知識元與上一級節(jié)點之間的距離比約為1:1.5:2.5,因此3個知識元與上一級節(jié)點的關聯(lián)程度比為1:111.5:1/2.5,化簡后約為5:3. 33:2,為方便加權(quán)計算,應盡量使比例總和為10個倍數(shù),因此此處將關聯(lián)程度比例近似視為為5:3:20

通過上述比例可對一級節(jié)點進行權(quán)重分配,其中內(nèi)容信息占0.5,作者信息占0.3,客觀信息占0.2,后續(xù)節(jié)點因距離差不夠明顯,計算比例較為困難,因此采用依次平分的形式,具體如表6所示。

5.1.4實驗流程設計

1)數(shù)據(jù)準備,將實驗所需的多源自媒體資源信息數(shù)據(jù)與關聯(lián)對象數(shù)據(jù)分別進行整理。

2)語義關聯(lián)計算,將整理的數(shù)據(jù)集通過3種算法進行語義關聯(lián)度計算,分別得出與之關聯(lián)度最高的5個結(jié)果及其語義關聯(lián)度。

3)結(jié)果檢驗,結(jié)果檢驗分為兩個部分。第一部分為對3種算法的整體關聯(lián)正確率進行人為判斷相關性,第二部分為對比詞句關聯(lián)法和加權(quán)關聯(lián)法下各個結(jié)果所計算出的語義關聯(lián)度。

4)實驗分析及總結(jié)。

5.2實驗數(shù)據(jù)收集及預處理

對實驗所需要的數(shù)據(jù)進行需求分析,確定數(shù)據(jù)的來源、類型和內(nèi)容構(gòu)成。然后通過技術手段對實驗數(shù)據(jù)按需求分類、分結(jié)構(gòu)進行收集。最后對實驗數(shù)據(jù)進行預處理,以方便后續(xù)實驗流程進行。

5.2.1實驗數(shù)據(jù)說明

實驗的數(shù)據(jù)主要分為兩個部分:多源自媒體資源知識組織結(jié)果和關聯(lián)對象數(shù)據(jù),數(shù)據(jù)類型均為txt文本文件。

多源自媒體資源數(shù)據(jù)知識組織結(jié)果通過上文構(gòu)建的多源自媒體資源知識組織方法獲得,分別從B站、抖音、知乎3個社交媒體平臺選取若干多源自媒體資源數(shù)據(jù),進行知識組織后將結(jié)果分別存入本地。出于工作量的考慮,將3個平臺的多源自媒體資源數(shù)量均定位50個。

為驗證語義關聯(lián)效果是否準確,應該在語義關聯(lián)數(shù)據(jù)集中適當加入干擾信息,因此在實驗中設置了20%的干擾信息,即與關聯(lián)對象不相關的多源自媒體資源數(shù)量占總多源自媒體資源數(shù)量的1/5。

5.2.2多源自媒體資源知識組織結(jié)果獲取

1)數(shù)據(jù)來源及類型。多源自媒體資源知識組織的結(jié)果,來源于多源自媒體資源經(jīng)過第二部分多源自媒體資源知識組織的結(jié)果輸出。而知識組織對象的多源自媒體資源從B站、抖音、知乎3個平臺選取主要法律相關的知識性多源自媒體資源,其中200-/0的干擾性信息選取金融相關知識性多源自媒體資源。

2)數(shù)據(jù)采集。以B站為例,通過在網(wǎng)頁中查看源碼可知,B站的分區(qū)及關鍵詞等信息均包含在

  • 版塊中,因此在抓取時,應優(yōu)先加入一段對tag所在行的內(nèi)容的判斷。若tag中同時包含法律和金融等文本,則之間跳過該多源自媒體資源,對下一個多源自媒體資源進行篩查。

    在通過上一步的篩查后,即可對多源自媒體資源進行數(shù)據(jù)采集,采集的對象包括標題、作者、標簽等結(jié)構(gòu)化信息,還包括多源自媒體資源本身,需要將其下載到本地并進行音頻提取等操作。

    3)知識組織。對多源自媒體資源數(shù)據(jù)按多源自媒體資源知識組織模型進行知識組織后,將數(shù)據(jù)分別寫入txt文本文件,如圖11所示。

    5.2.3關聯(lián)對象數(shù)據(jù)獲取

    1)關聯(lián)對象選取。多源自媒體資源知識組織目標之一是實現(xiàn)館藏到多源自媒體資源的一對多映射,尋找館藏與多源自媒體資源在知識結(jié)構(gòu)上的映射關系,以滿足用戶日益增長的知識需求,使圖書館實現(xiàn)由多源自媒體資源到館藏的利用,因此,本實驗中的關聯(lián)對象選擇了圖書館虛擬館藏資源。而由于需要保證語義關聯(lián)的效果,因此關聯(lián)對象與待關聯(lián)的文本之間應該具有相關性,即虛擬館藏的選取應該選用法律相關的館藏資源。本實驗關聯(lián)對象資源選擇了虛擬館藏資源《法律基礎》,如圖12所示。

    2)關聯(lián)對象信息抽取目標分析。對關聯(lián)對象做信息抽取的主要目的是提供與多源自媒體資源信息進行語義關聯(lián)工作的數(shù)據(jù)。而本文的研究主體為對多源自媒體資源信息進行的知識組織,關聯(lián)對象是作為語義關聯(lián)的參照而存在的,因此對關聯(lián)對象的知識抽取,只需對在虛擬館藏所在頁面上能表示該虛擬館藏的信息進行收集和組織即可,不需要對關聯(lián)對象信息抽取的結(jié)果構(gòu)建本體。

    在語義關聯(lián)中,對文本的分段不是必要的,進行語義關聯(lián)的兩段文本在長度相差較大時誤差甚至可以忽略不計,因此不需要對關聯(lián)對象信息抽取的結(jié)果分段,保留其內(nèi)容寫入txt文本中即可。

    3)關聯(lián)對象信息抽取框架構(gòu)建。根據(jù)虛擬館藏資源知識信息目標分析的結(jié)果構(gòu)建了虛擬館藏資源信息抽取框架,如表7所示,抽取結(jié)果如圖13所示。

    5.2.4數(shù)據(jù)預處理

    為方便實驗進行,對知識組織所得結(jié)果的txt文本進行分類整理,文件以【數(shù)據(jù)來源平臺+序號】命名,通過對txt文本進行命名,在后續(xù)試驗中即可通過循環(huán)算法對同一來源的多個文本進行語義關聯(lián),大大減少實驗工作量。

    5.3運行結(jié)果及分析

    5.3.1算法運行結(jié)果

    本實驗采用的3種方案分別為整體關聯(lián)法、分段關聯(lián)法和加權(quán)關聯(lián)法的運行結(jié)果,根據(jù)實驗需求設計,對各個實驗方案輸出結(jié)果中的語義關聯(lián)度最高的5個結(jié)果及其語義關聯(lián)度進行展示,如表8~表10所示。

    5.3.2實驗結(jié)果分析

    本實驗的研究目標是實現(xiàn)虛擬館藏資源到多源自媒體資源的一對多映射,主要的衡量指標應為輸出的結(jié)果具體是否與虛擬館藏資源相關,因此本實驗的運行結(jié)果分析主要通過觀察分析來完成。

    算法的運行結(jié)果顯示,整體關聯(lián)法同其他兩種算法所得的語義關聯(lián)度相差甚遠,詞句關聯(lián)法和加權(quán)關聯(lián)法所得語義關聯(lián)度在0.4~0.5之間,而整體關聯(lián)法所得語義關聯(lián)度均在0.3以下。3種算法均能關聯(lián)出共計150個資源中在標題上與關聯(lián)對象《法律基礎》有直接相關的,也是內(nèi)容上最為相關的一個,即《法律基礎一民事訴訟(一)》這一資源。證明3種算法對高度相關資源的關聯(lián)能力符合預期結(jié)果。

    從整體關聯(lián)正確率來看,詞句關聯(lián)法和加權(quán)關聯(lián)法均能關聯(lián)出5個法律相關多源自媒體資源,符合預期結(jié)果。

    而對比詞句關聯(lián)法和權(quán)重關聯(lián)法可見,加權(quán)關聯(lián)法所得5個結(jié)果的語義關聯(lián)度較為相近,而詞句關聯(lián)法所得5個結(jié)果的語義關聯(lián)度則較為分散。

    以語義關聯(lián)為基礎,綜合運用了語音文本化、語義識別和語義關聯(lián)等人工智能技術,以收集一組織一關聯(lián)一發(fā)現(xiàn)為主要流程對多源自媒體資源進行了知識組織研究,實現(xiàn)了虛擬館藏資源到多源自媒體資源間的一對多映射。

    6總結(jié)

    本文分析了多源自媒體資源特征信息,構(gòu)建了多源自媒體資源元數(shù)據(jù)描述框架。在元數(shù)據(jù)描述框架的基礎上,構(gòu)建了多源自媒體資源本體,對構(gòu)建本體所需的概念分類、層次結(jié)構(gòu)、屬性和關系進行定義,為語義關聯(lián)提供支持。通過融合語音識別、語義識別等技術,將知識組織研究拓展到非文本類資源領域,為知識組織研究提供了新的思路。本文通過分詞和加權(quán)計算,設計了圖書館館藏資源和多源自媒體資源間的語義關聯(lián)算法并進行了檢驗,對比了不同算法下語義關聯(lián)的結(jié)果。達成了虛擬館藏資源到多源自媒體資源之間一對多映射關系的研究目標,且關聯(lián)關系較為準確,在一定程度上對虛擬館藏延伸有參考性。

主站蜘蛛池模板: 五月婷婷激情四射| 美女无遮挡免费视频网站| 怡春院欧美一区二区三区免费| 亚洲 欧美 日韩综合一区| 亚洲精品日产精品乱码不卡| 99热这里只有精品免费国产| 日韩一区精品视频一区二区| 天堂成人在线| 22sihu国产精品视频影视资讯| 国产无码网站在线观看| 99久久精品美女高潮喷水| 国产熟女一级毛片| 高潮毛片免费观看| 91九色视频网| 日韩 欧美 国产 精品 综合| 国产黑丝一区| 国产精品lululu在线观看| 国产午夜不卡| 午夜毛片免费看| 99中文字幕亚洲一区二区| 伊人久久久大香线蕉综合直播| 亚洲欧美在线综合一区二区三区| 国产高清精品在线91| 国产精品成人免费综合| 亚洲精品视频在线观看视频| 精品一区二区无码av| 国产欧美精品一区二区| 成人在线观看不卡| 中文字幕2区| 亚洲精品无码在线播放网站| 精品天海翼一区二区| 亚洲男人的天堂在线| 国产在线精彩视频二区| 超级碰免费视频91| 毛片一级在线| 亚洲精品动漫| 精品视频一区二区观看| 欧美日韩第三页| 2021精品国产自在现线看| 国产在线观看第二页| 中文字幕不卡免费高清视频| 国产精品香蕉在线观看不卡| 六月婷婷精品视频在线观看| 第一页亚洲| 91在线丝袜| 99草精品视频| 永久成人无码激情视频免费| 日韩在线观看网站| 久草青青在线视频| 免费观看国产小粉嫩喷水| 亚洲va在线∨a天堂va欧美va| 久久久久国产精品熟女影院| 色亚洲激情综合精品无码视频 | 精品少妇人妻一区二区| 激情影院内射美女| 亚洲天堂免费| 国产精品观看视频免费完整版| 亚洲男人的天堂网| 国产手机在线ΑⅤ片无码观看| 亚洲成a人片| 色综合久久88| 亚洲中文字幕精品| 永久免费无码成人网站| 免费A级毛片无码无遮挡| 成人在线观看一区| 国产精品女人呻吟在线观看| 国产超薄肉色丝袜网站| 午夜激情婷婷| 久久精品波多野结衣| 久久精品中文无码资源站| 欧洲极品无码一区二区三区| 四虎永久在线精品影院| 亚洲中文字幕日产无码2021| 扒开粉嫩的小缝隙喷白浆视频| 成人在线不卡视频| 中文字幕1区2区| 欧美综合中文字幕久久| 亚洲一区网站| 久久精品视频一| 日韩毛片免费观看| 91青青视频| 亚洲精品日产AⅤ|