999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

輔以大眾分類法的多標(biāo)簽分類深度學(xué)習(xí)信息架構(gòu)

2025-02-26 00:00:00張靜怡王宇曉
現(xiàn)代信息科技 2025年1期
關(guān)鍵詞:深度學(xué)習(xí)

摘" 要:隨著移動(dòng)互聯(lián)網(wǎng)的迅速發(fā)展,信息量和信息維度急速增長(zhǎng),如何組建起便于用戶查找和理解信息的信息架構(gòu)成為亟待優(yōu)化的問(wèn)題。文章重點(diǎn)探討信息分類技術(shù)中的大眾分類法對(duì)信息架構(gòu)的積極作用,在此基礎(chǔ)上,利用深度學(xué)習(xí)算法在處理多標(biāo)簽分類問(wèn)題時(shí)可對(duì)多標(biāo)簽間的相關(guān)性和依賴關(guān)系進(jìn)行自動(dòng)建模的特點(diǎn),提出一種輔以大眾分類算法的多標(biāo)簽分類深度學(xué)習(xí)信息架構(gòu),提高了信息分類關(guān)聯(lián)的準(zhǔn)確度和相關(guān)度,為用戶提供了便利。

關(guān)鍵詞:大眾分類;深度學(xué)習(xí);信息架構(gòu);多標(biāo)簽分類

中圖分類號(hào):TP18" " 文獻(xiàn)標(biāo)識(shí)碼:A" " 文章編號(hào):2096-4706(2025)01-0104-06

Multi-label Classification Deep Learning Information Architecture Supplemented by Folksonomy

Abstract: With the rapid development of the mobile Internet, the amount of information and information dimensions are growing rapidly. How to set up an information architecture that is convenient for users to find and understand information has become an urgent problem to be optimized. This paper focuses on the positive effect of folksonomy in information classification technology on information architecture. On this basis, this paper uses the characteristics that the Deep Learning algorithm can automatically model the correlation and dependency relationships among multi-labels when dealing with multi-label classification problems, to propose a multi-label classification Deep Learning information architecture supplemented by folksonomy algorithm. It improves the accuracy and relevance of information classification association and provides convenience for users.

Keywords: folksonomy; Deep Learning; information architecture; multi-label classification

0" 引" 言

據(jù)QuestMobile研究院統(tǒng)計(jì)報(bào)告顯示,2023年中國(guó)移動(dòng)互聯(lián)網(wǎng)月活用戶規(guī)模突破12.24億,且已有15家互聯(lián)網(wǎng)平臺(tái)的去重用戶突破4億[1]。隨著互聯(lián)網(wǎng)社交媒體等平臺(tái)的蓬勃發(fā)展,數(shù)據(jù)量正在呈爆炸式增長(zhǎng)。大數(shù)據(jù)時(shí)代督促著我們需要著力提升對(duì)數(shù)據(jù)的收集、存儲(chǔ)、處理和分析能力。尋找新型信息處理方法可以使系統(tǒng)在應(yīng)對(duì)爆發(fā)式增長(zhǎng)的數(shù)據(jù)時(shí)保持最大效能[2]。高效地挖掘出海量數(shù)據(jù)中的信息價(jià)值,是急需解決的現(xiàn)實(shí)問(wèn)題[3]。

信息架構(gòu)與機(jī)器學(xué)習(xí)的結(jié)合,可以為企業(yè)、機(jī)構(gòu)和個(gè)人帶來(lái)更高效、精準(zhǔn)和智能的數(shù)據(jù)管理和分析體驗(yàn)。本文圍繞信息架構(gòu)中的組織系統(tǒng)和標(biāo)簽系統(tǒng),探索借助大眾分類法和機(jī)器學(xué)習(xí)的標(biāo)簽分類方法,為搭建以用戶為中心的信息架構(gòu)提供思路。

1" 信息架構(gòu)與多標(biāo)簽分類

信息架構(gòu)(Information Architecture, IA)對(duì)平臺(tái)的建設(shè)和運(yùn)營(yíng)有重要作用,它以提高信息的可用性為目的[4],以一種使用戶易于查找、理解和與信息交互的方式組織、構(gòu)造和標(biāo)記內(nèi)容。創(chuàng)建直觀和用戶友好的信息架構(gòu),可以確保用戶能有效地定位和訪問(wèn)他們需要的信息。大眾分類法(Folksonomy)是互聯(lián)網(wǎng)在支持用戶自主生成內(nèi)容和用戶間互動(dòng)后出現(xiàn)的信息分類技術(shù)。自定義標(biāo)簽體現(xiàn)出用戶對(duì)信息的理解,進(jìn)而標(biāo)簽的共現(xiàn)次數(shù)成為信息分類的依據(jù)。用戶的直接參與使大眾分類法擁有以用戶為中心的優(yōu)勢(shì),但該方法也因?yàn)檫^(guò)高的自由性容易造成信息過(guò)載[5]。機(jī)器學(xué)習(xí)通過(guò)智能化的手段幫助媒體平臺(tái)更好地管理信息資源,提高信息的利用效率。通過(guò)訓(xùn)練和優(yōu)化模型,機(jī)器學(xué)習(xí)可以用于對(duì)信息進(jìn)行自動(dòng)分類和標(biāo)注宜家構(gòu)建個(gè)性化的推薦模型,識(shí)別并過(guò)濾垃圾信息,提高信息的質(zhì)量和可信度。

信息架構(gòu)的概念由建筑師和平面設(shè)計(jì)師Richard Saul Wurman在20世紀(jì)70年代提出。信息架構(gòu)這一概念最初被用在對(duì)物理空間的設(shè)計(jì)中,后來(lái)Wurman將其擴(kuò)展到包括數(shù)字環(huán)境在內(nèi)的各類環(huán)境的信息組織和構(gòu)造中,用來(lái)處理爆炸式增長(zhǎng)的社會(huì)信息。原始的信息架構(gòu)側(cè)重內(nèi)容的組織和結(jié)構(gòu),而當(dāng)今的應(yīng)用程序、網(wǎng)站和產(chǎn)品設(shè)計(jì)與用戶需求緊密相連,信息架構(gòu)成為用戶體驗(yàn)設(shè)計(jì)與數(shù)據(jù)科學(xué)的交叉[6]。對(duì)用戶體驗(yàn)感的關(guān)注將信息架構(gòu)的側(cè)重點(diǎn)擴(kuò)展到了實(shí)用性、易用性和效率等層面,讓用戶可以方便地使用網(wǎng)站成為信息架構(gòu)的根本原則[7]。信息架構(gòu)包括:負(fù)責(zé)組織信息的組織系統(tǒng),用來(lái)描述和分類信息的標(biāo)簽系統(tǒng),提供站內(nèi)信息瀏覽路徑的導(dǎo)航系統(tǒng),和允許用戶查找信息的搜索系統(tǒng)。后兩者涉及用戶界面設(shè)計(jì),本文重點(diǎn)關(guān)注組織系統(tǒng)和標(biāo)簽系統(tǒng)。

為數(shù)據(jù)添加標(biāo)簽提高了數(shù)據(jù)的可解釋性和可利用性,為挖掘深層次的信息關(guān)系提供了便利。信息量的不斷增長(zhǎng)和標(biāo)簽的動(dòng)態(tài)屬性增加了人工編輯和分類的時(shí)間和成本。另外,一個(gè)樣本往往同時(shí)與多個(gè)標(biāo)簽相關(guān)聯(lián),例如豆瓣顯示,電影《星際穿越》同時(shí)帶有劇情、科幻和冒險(xiǎn)三個(gè)標(biāo)簽,動(dòng)畫(huà)片《花木蘭》同時(shí)帶有劇情、動(dòng)畫(huà)和家庭三個(gè)標(biāo)簽。傳統(tǒng)的單標(biāo)簽分類方法無(wú)法完整且準(zhǔn)確地描述屬性復(fù)雜的樣本。

多標(biāo)簽分類算法作為機(jī)器學(xué)習(xí)中的一個(gè)重要研究方向,用于處理同時(shí)具有多個(gè)標(biāo)簽的樣本數(shù)據(jù)分類問(wèn)題。多標(biāo)簽分類算法已在不同的領(lǐng)域得以應(yīng)用,如文檔分類、情緒識(shí)別[8]、社交媒體[9]等。傳統(tǒng)監(jiān)督模式下的單標(biāo)簽分類方法的理論和實(shí)踐為基于傳統(tǒng)機(jī)器學(xué)習(xí)的多標(biāo)簽分類方法的設(shè)計(jì)提供了擴(kuò)展方案和參考價(jià)值。基于傳統(tǒng)機(jī)器學(xué)習(xí)的多標(biāo)簽分類方法有:?jiǎn)栴}轉(zhuǎn)換和算法自適應(yīng)。問(wèn)題轉(zhuǎn)換方法是將多標(biāo)簽的分類問(wèn)題轉(zhuǎn)換為傳統(tǒng)的單標(biāo)簽分類任務(wù)進(jìn)行處理。算法自適應(yīng)是通過(guò)擴(kuò)展傳統(tǒng)解決單標(biāo)簽分類任務(wù)的算法并進(jìn)行相應(yīng)的改進(jìn),從而解決多標(biāo)簽分類問(wèn)題。

基于傳統(tǒng)機(jī)器學(xué)習(xí)的方法存在向量特征表達(dá)能力不足、模型計(jì)算復(fù)雜、人工實(shí)現(xiàn)特征表示的成本過(guò)高等問(wèn)題,無(wú)法靈活應(yīng)對(duì)多標(biāo)簽數(shù)據(jù),使得分類問(wèn)題的輸出空間呈指數(shù)級(jí)增長(zhǎng)的難題。基于深度學(xué)習(xí)的多標(biāo)簽分類方法利用深度神經(jīng)網(wǎng)絡(luò)強(qiáng)大的表征能力對(duì)特征進(jìn)行提取和學(xué)習(xí),主要的深度學(xué)習(xí)模型主要有卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)、Transformer和混合深度學(xué)習(xí)模型。圖1中展示了主流的多標(biāo)簽分類方法。基于深度學(xué)習(xí)的多標(biāo)簽分類算法與計(jì)算機(jī)領(lǐng)域的深度學(xué)習(xí)算法同步發(fā)展。深度學(xué)習(xí)的模型各有優(yōu)勢(shì),需要人們根據(jù)分類問(wèn)題的需求選擇合適的深度學(xué)習(xí)算法。

2" 大眾分類法對(duì)信息架構(gòu)的積極作用

自Web2.0時(shí)代開(kāi)始,互聯(lián)網(wǎng)成為用戶可自主生成內(nèi)容和支持用戶間互動(dòng)的平臺(tái)。大眾分類法是該時(shí)代出現(xiàn)的信息組織方法,是基于大眾意見(jiàn)一致性產(chǎn)生的基于用戶的分類體系。用戶為內(nèi)容創(chuàng)建和添加的標(biāo)簽直接反映了用戶對(duì)信息的理解,將用戶的行為加入完善信息架構(gòu)的過(guò)程中捕捉用戶多樣化的觀點(diǎn),可以輔助信息的分類和組織,助力于實(shí)現(xiàn)推薦機(jī)制的個(gè)性化。而個(gè)性化是推薦機(jī)制發(fā)展的核心問(wèn)題[10-11],也是眾多學(xué)者關(guān)注的重點(diǎn)。

在多標(biāo)簽分類深度學(xué)習(xí)算法的基礎(chǔ)上輔以大眾分類法的信息結(jié)構(gòu),在實(shí)現(xiàn)構(gòu)建一個(gè)以用戶為中心的信息架構(gòu)的目標(biāo)上有促進(jìn)作用:

在系統(tǒng)層面,用戶個(gè)人行為構(gòu)建起社會(huì)集體行為,大眾分類法在用戶集、內(nèi)容集和標(biāo)簽集之間搭建起基于大眾意識(shí)的網(wǎng)絡(luò)。一方面有助于區(qū)分社會(huì)群體,反映不同群體對(duì)相同事物的認(rèn)知,另一方面集體行為可以及時(shí)反映熱點(diǎn)和關(guān)注趨勢(shì)。大眾分類法優(yōu)化了互聯(lián)網(wǎng)信息的結(jié)構(gòu)和秩序。

在分類成本層面,每天都在增加的新產(chǎn)品、新動(dòng)態(tài)和其所屬類別的動(dòng)態(tài)性質(zhì)增加了分類工作中人工編輯的時(shí)間和成本,在用戶與算法的交互過(guò)程中,用戶的行為可以完善個(gè)性化標(biāo)簽集,簡(jiǎn)化標(biāo)簽的創(chuàng)建工作[12]。

在用戶創(chuàng)作層面,用戶擁有了組織網(wǎng)絡(luò)信息的能力。用戶的標(biāo)注一方面方便了用戶對(duì)自己以往信息的再次查找和使用,另一方面,用戶自定義的特點(diǎn)給了用戶充足的發(fā)揮空間,激發(fā)了用戶的創(chuàng)造興趣,給平臺(tái)帶來(lái)了更多樣的創(chuàng)作內(nèi)容。

在信息交互層面,用戶間的信息交互更為便捷。從信息編輯者的視角來(lái)看,為了將自己的內(nèi)容可以被推送到特定用戶群體中可以添加與內(nèi)容并不相關(guān)的標(biāo)簽。從信息接收者的視角來(lái)看,被推送的內(nèi)容種類更加豐富,緩解了推薦算法在追求推薦精度時(shí)所帶來(lái)的“信息繭房”問(wèn)題。例如添加“寶寶輔食”標(biāo)簽的內(nèi)容大多被推送到孕媽或者帶娃群體。這得益于大眾分類法的標(biāo)簽被允許出現(xiàn)在創(chuàng)作之后,而傳統(tǒng)分類方法的標(biāo)簽在分類前就已被確定。

3" 信息架構(gòu)設(shè)計(jì)說(shuō)明

一種輔以大眾分類法的多標(biāo)簽分類深度學(xué)習(xí)分類系統(tǒng)如圖2所示。如第2節(jié)所述,提取大眾分類結(jié)果中的內(nèi)容-標(biāo)簽特征關(guān)系作為優(yōu)化多標(biāo)簽分類神經(jīng)網(wǎng)絡(luò)的參考,更新信息組織和標(biāo)簽推薦系統(tǒng),使多標(biāo)簽分類結(jié)果向大眾認(rèn)知靠攏。系統(tǒng)中各部分的流程介紹如下文所述。

3.1" 用戶創(chuàng)作階段

根據(jù)用戶輸入的內(nèi)容使用基于注意力機(jī)制的卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行多標(biāo)簽分類,高相關(guān)度標(biāo)簽被推薦給用戶進(jìn)行選擇。圖2展示了一個(gè)將經(jīng)典的通道注意力機(jī)制模型SENet與卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks, CNN)結(jié)合得到的基于注意力機(jī)制的卷積神經(jīng)網(wǎng)絡(luò)。注意力機(jī)制受啟發(fā)于觸發(fā)詞理論[13],即一句話的主旨可以通過(guò)一些重要詞語(yǔ)來(lái)表示。這些重要詞語(yǔ)在深度學(xué)習(xí)中又稱觸發(fā)詞,是理解和分類過(guò)程中需要被關(guān)注的重點(diǎn),而注意力機(jī)制通過(guò)捕捉觸發(fā)詞幫助神經(jīng)網(wǎng)絡(luò)更加關(guān)注文本的重要特征。CNN在自然語(yǔ)言處理的分類[14]和特征提取[15]上表現(xiàn)出了優(yōu)越的性能。數(shù)據(jù)在卷積層使用一維卷積提取序列模型的特征后在池化層通過(guò)最大池化或平均池化保留卷積層輸出的重要信息。SENet通過(guò)激活函數(shù)對(duì)輸入的各部分進(jìn)行加權(quán),輔助卷積神經(jīng)網(wǎng)絡(luò)自動(dòng)聚焦高權(quán)重特征。權(quán)重計(jì)算常用的方法是術(shù)語(yǔ)頻率-逆文檔頻率(TF-IDF)的權(quán)重計(jì)算方法,用于判斷字詞對(duì)于一個(gè)字符串或者文檔的重要性。全連接層作為多層感知機(jī)在輸出層使用Softmax激活函數(shù)計(jì)算得到歸一化的內(nèi)容與標(biāo)簽的相關(guān)程度,高相關(guān)度標(biāo)簽被推薦給用戶進(jìn)行標(biāo)簽選擇。

3.2" 數(shù)據(jù)收集階段

整理生成包含了大眾認(rèn)知的內(nèi)容-標(biāo)簽特征,作為更新多標(biāo)簽分類網(wǎng)絡(luò)的依據(jù)。算法通過(guò)網(wǎng)絡(luò)門戶提供的服務(wù)接口訪問(wèn)和采集數(shù)據(jù),同時(shí)對(duì)數(shù)據(jù)集進(jìn)行實(shí)時(shí)更新和維護(hù),以保證所收集數(shù)據(jù)的時(shí)效性和準(zhǔn)確性。內(nèi)容-標(biāo)簽-評(píng)分元組包含了基于大眾認(rèn)知的內(nèi)容-標(biāo)簽關(guān)系和衡量該關(guān)系重要程度的評(píng)分項(xiàng)。評(píng)分可自定義為當(dāng)前標(biāo)簽關(guān)系在數(shù)據(jù)庫(kù)中出現(xiàn)的頻率,頻率越高意味著該內(nèi)容-標(biāo)簽關(guān)系越符合大眾認(rèn)知而需要被重點(diǎn)關(guān)注。

3.3" 預(yù)處理階段

數(shù)據(jù)預(yù)處理分為兩個(gè)步驟。首先對(duì)收集的數(shù)據(jù)進(jìn)行數(shù)據(jù)清理,檢測(cè)垃圾或者意義不明的信息,解決用戶定義標(biāo)簽時(shí)帶來(lái)的同義性(多個(gè)標(biāo)簽表達(dá)相同的概念)和多義性(單個(gè)標(biāo)簽使用多個(gè)相關(guān)的含義)問(wèn)題,以初步提高數(shù)據(jù)質(zhì)量。其次,將數(shù)據(jù)轉(zhuǎn)換為可用于深度學(xué)習(xí)模型訓(xùn)練的數(shù)據(jù)格式,具體流程為:

1)分詞,將連續(xù)的字序列組合成詞序列的過(guò)程。

2)命名實(shí)體識(shí)別,識(shí)別出詞序列中可能存在的命名實(shí)體(人名地名等)。

3)詞性標(biāo)注,對(duì)詞分類,標(biāo)注出詞序列中每個(gè)詞匯的詞性。

4)文本張量表示,將詞匯表示成向量,形成可以作為計(jì)算機(jī)處理程序的輸入。特定的和有價(jià)值的信息可能只存在于數(shù)據(jù)集中的一部分或者在數(shù)據(jù)集中多次出現(xiàn),因此有必要進(jìn)行特征提取以幫助壓縮數(shù)據(jù)減少數(shù)據(jù)處理的復(fù)雜度以及對(duì)數(shù)據(jù)進(jìn)行重建以減少數(shù)據(jù)噪聲。

圖2中展示了一個(gè)卷積自編碼器,是對(duì)輸入數(shù)據(jù)的重建。卷積層和池化層被稱為編碼器,負(fù)責(zé)壓縮元組信息獲得數(shù)據(jù)的潛在空間。選擇經(jīng)過(guò)預(yù)處理后的內(nèi)容-標(biāo)簽-評(píng)分的數(shù)據(jù)元組作為卷積層的輸入,因此使用三維卷積實(shí)現(xiàn)數(shù)據(jù)降維。反卷積層被稱為解碼器,是卷積操作的逆過(guò)程,通過(guò)使用卷積核的轉(zhuǎn)置,在輸入特征矩陣上進(jìn)行插值,通過(guò)填充和擴(kuò)展低維特征來(lái)生成高維特征。

3.4" 更新階段

經(jīng)過(guò)特征提取獲得的標(biāo)記數(shù)據(jù)集在該階段用來(lái)訓(xùn)練更新原有的基于注意力機(jī)制的卷積神經(jīng)網(wǎng)絡(luò)。要將分類系統(tǒng)的分類結(jié)果靠近大眾認(rèn)知,網(wǎng)絡(luò)更新的目標(biāo)一方面是所獲得推薦標(biāo)簽的準(zhǔn)確性,即根據(jù)內(nèi)容得到的推薦標(biāo)簽應(yīng)該與特征提取中的該內(nèi)容對(duì)應(yīng)的標(biāo)簽集高度重合。另一方面,神經(jīng)網(wǎng)絡(luò)輸出的屬于各個(gè)標(biāo)簽的概率值應(yīng)該與特征提取后歸一化的內(nèi)容-標(biāo)簽評(píng)分接近。因此將這兩個(gè)指標(biāo)作為網(wǎng)絡(luò)更新的損失函數(shù),采用批量更新的方式,對(duì)于一組輸入樣本首先通過(guò)前向傳播計(jì)算得到損失值之后進(jìn)行反向傳播,求解損失值對(duì)于全連接層節(jié)點(diǎn)和卷積層中卷積核的梯度,按照梯度下降法以一定的學(xué)習(xí)率更新全連接層參數(shù)和卷積核參數(shù)。訓(xùn)練得到的從特征空間到標(biāo)簽空間的新映射會(huì)在下一批用戶生成新內(nèi)容時(shí),進(jìn)行更精準(zhǔn)的和符合大眾意識(shí)的標(biāo)簽推薦和預(yù)測(cè)。

4" 實(shí)驗(yàn)效果

為了驗(yàn)證效果,從今日頭條客戶端選取187 150條與文化、娛樂(lè)、財(cái)經(jīng)、科技、軍事和國(guó)際六大類有關(guān)的數(shù)據(jù)。數(shù)據(jù)格式為:“6552135862929326600_!_ 104_!_news_finance_!_踐行‘軍民融合’,助力‘一帶一路’_!_財(cái)經(jīng),中國(guó)電子,軍民融合,民營(yíng)企業(yè),中國(guó)電子科技集團(tuán)公司”。以_!_為分隔符從左至右分別為數(shù)據(jù)ID、標(biāo)簽的數(shù)字表示、標(biāo)簽的英文表示、正文內(nèi)容、用戶標(biāo)注標(biāo)簽。接下來(lái),我們定義客戶端已有的分類結(jié)果為該數(shù)據(jù)的“主標(biāo)簽”,提取正文內(nèi)容和用戶標(biāo)注標(biāo)簽的特征并作為輸入,學(xué)習(xí)用戶生成內(nèi)容與標(biāo)簽間映射關(guān)系以及挖掘新的標(biāo)簽間相關(guān)關(guān)系。圖3為主標(biāo)簽混淆矩陣圖,圖的縱坐標(biāo)為數(shù)據(jù)的主標(biāo)簽,橫坐標(biāo)為分類系統(tǒng)的預(yù)測(cè)標(biāo)簽。混淆矩陣顯示,“財(cái)經(jīng)”和“科技”標(biāo)簽間混淆程度最大,有待挖掘的相關(guān)關(guān)系。接下來(lái)在數(shù)據(jù)庫(kù)中加入用戶行為,我們手動(dòng)添加了798個(gè)與“財(cái)經(jīng)”和“科技”同時(shí)相關(guān)的內(nèi)容,數(shù)據(jù)的用戶標(biāo)注標(biāo)簽部分可以自定義為“財(cái)經(jīng)”和“科技”的其中之一或者兩者的組合,或者不添加任何屬于主標(biāo)簽集的標(biāo)簽。用戶行為強(qiáng)調(diào)了在近期用戶們的話題傾向,例如添加的數(shù)據(jù):“6552354112107708935_!_104_!_news_finance_!_重磅:漲停板復(fù)盤(pán)!_!_金剛玻璃,智光電氣,星星科技,廣聯(lián)達(dá),高斯貝爾,永泰能源,金運(yùn)激光,云計(jì)算”。中正文內(nèi)容屬于“財(cái)經(jīng)”但用戶標(biāo)注標(biāo)簽與“科技”高度相關(guān),這使數(shù)據(jù)庫(kù)包含了更多可以探索“財(cái)經(jīng)”和“科技”間相關(guān)關(guān)系的數(shù)據(jù)。

對(duì)總共187 150個(gè)數(shù)據(jù)進(jìn)行特征提取并在原系統(tǒng)上完成分類,根據(jù)損失值更新原系統(tǒng)。對(duì)比試驗(yàn)基于20個(gè)主標(biāo)簽為“財(cái)經(jīng)”的數(shù)據(jù)集,且包含了一個(gè)在初始中被分類為“科技”的數(shù)據(jù),該數(shù)據(jù)集與手動(dòng)添加的數(shù)據(jù)集并無(wú)交叉。圖4為20個(gè)數(shù)據(jù)在初始網(wǎng)絡(luò)中計(jì)算得到的與6個(gè)標(biāo)簽的相關(guān)程度,1到6號(hào)標(biāo)簽按順序?qū)?yīng)“文化”“娛樂(lè)”“財(cái)經(jīng)”“科技”“軍事”和“國(guó)際”。

圖4中的20個(gè)數(shù)據(jù)再次在更新后的系統(tǒng)中計(jì)算每條數(shù)據(jù)與標(biāo)簽們的相關(guān)程度,圖5是相關(guān)程度變化最明顯的6個(gè)數(shù)據(jù)的前后對(duì)比圖。如圖5所示,與數(shù)據(jù)1高度相關(guān)的標(biāo)簽從“財(cái)經(jīng)”變成“科技”,該條數(shù)據(jù)為“6554693078899229191_!_104_!_news_finance_!_關(guān)注女性創(chuàng)業(yè):創(chuàng)業(yè)是在亞太地區(qū)賦予婦女權(quán)力的關(guān)鍵_!_女企業(yè)家,研討會(huì),威立雅,這與數(shù)據(jù)集中新增的關(guān)于科技創(chuàng)新的內(nèi)容有關(guān)。從標(biāo)簽推薦角度分析,相似的內(nèi)容再次被新的用戶生成時(shí),分類系統(tǒng)會(huì)優(yōu)先為用戶推薦“科技”標(biāo)簽。類似地,還有與數(shù)據(jù)4高度相關(guān)的標(biāo)簽從“財(cái)經(jīng)”變?yōu)榱恕拔幕薄4送猓谠W(wǎng)絡(luò)中被分類為“科技”的數(shù)據(jù),在新網(wǎng)絡(luò)中屬于“科技”的概率被提高,其科技屬性被更加明確。

5" 信息架構(gòu)的未來(lái)研究重點(diǎn)

除了優(yōu)化信息和標(biāo)簽系統(tǒng),信息架構(gòu)中需要關(guān)注的問(wèn)題還包括:

1)挖掘標(biāo)簽關(guān)系,分析、利用和挖掘多個(gè)標(biāo)簽間的相關(guān)性和依賴性一直是被高度關(guān)注的問(wèn)題[16]。一些針對(duì)性用來(lái)捕獲標(biāo)簽依賴關(guān)系的多標(biāo)簽分類方法通常表現(xiàn)出優(yōu)越的預(yù)測(cè)性能[17]。挖掘多標(biāo)簽的依賴關(guān)系一方面可以緩解多標(biāo)簽分類模型輸出的壓力,還可以在標(biāo)簽缺失時(shí)彌補(bǔ)分類誤差。

2)降低特征維度,信息量和其維度的增長(zhǎng)意味著需要更大的內(nèi)存、更大的算法規(guī)模和更多的時(shí)間成本。特征提取和特征選擇是數(shù)據(jù)降維的兩種方法。在已有研究中,負(fù)采樣方法可以解決數(shù)據(jù)的時(shí)空復(fù)雜度過(guò)高的問(wèn)題[18]。空間尺度壓縮方法[19]可以將數(shù)據(jù)的高維特征映射到低維空間。

3)不平衡多標(biāo)簽分類,不同標(biāo)簽的樣本數(shù)量分布不均,主要有三種表現(xiàn)形式,標(biāo)簽內(nèi)不平衡、標(biāo)簽間不平衡和標(biāo)簽集之間的不平衡。這些因素同時(shí)發(fā)生時(shí)會(huì)加劇多標(biāo)簽分類任務(wù)的復(fù)雜性。目前有改進(jìn)采樣方式[20]、為樣本加權(quán)[21]和構(gòu)建針對(duì)性損失函數(shù)[22]的方法。

4)人機(jī)交互設(shè)計(jì),在用戶和基于深度學(xué)習(xí)算法的交互過(guò)程中,用戶的參與細(xì)化了個(gè)性化標(biāo)簽,簡(jiǎn)化了標(biāo)簽的創(chuàng)建工作。信息架構(gòu)設(shè)計(jì)師必須在信息架構(gòu)中設(shè)計(jì)用戶與算法的交互方法,這依賴于信息架構(gòu)師理解和利用智能學(xué)習(xí)算法的能力[23]。

6" 結(jié)" 論

本文提出了一種輔以大眾分類法的多標(biāo)簽分類深度學(xué)習(xí)架構(gòu)。在基于深度學(xué)習(xí)的多標(biāo)簽分類問(wèn)題上輔以大眾分類法,在用戶的行為豐富和完善了信息的組織結(jié)構(gòu)的同時(shí),使得信息管理系統(tǒng)可以提供給用戶更加個(gè)性化的使用體驗(yàn),兩者相輔相成有助于搭建合理清晰的信息架構(gòu)。不斷探索和實(shí)踐,利用計(jì)算機(jī)技術(shù)的不斷發(fā)展推動(dòng)信息管理技術(shù)效率的提升,以及為大眾提供便利將始終是信息架構(gòu)領(lǐng)域的研究重點(diǎn)。

參考文獻(xiàn):

[1] QuestMobile. QuestMobile2023中國(guó)移動(dòng)互聯(lián)網(wǎng)年度報(bào)告:二線以上城市用戶占比增10.5%,用戶集聚促互聯(lián)網(wǎng)使用及消費(fèi)模式三大劇變 [EB/OL].(2024-01-30).https://questmobile.com.cn/research/report/1752183696050458625.

[2] 唐創(chuàng).基于中心控制的大數(shù)據(jù)架構(gòu)設(shè)計(jì)研究 [C]//第十三屆全國(guó)信號(hào)和智能信息處理與應(yīng)用學(xué)術(shù)會(huì)議.漢中:[出版者不詳].2019:5.

[3] 唐榮輝.大數(shù)據(jù)時(shí)代計(jì)算機(jī)信息處理技術(shù)分析 [J].網(wǎng)絡(luò)安全技術(shù)與應(yīng)用,2022(6):65-67.

[4] 鄔江興,鄒宏,張帆,等.Web3.0與網(wǎng)絡(luò)技術(shù)發(fā)展范式若干問(wèn)題研究 [J].科技導(dǎo)報(bào),2023,41(15):12-21.

[5] 王娜,田曉蒙.大眾分類法對(duì)信息過(guò)載的影響及優(yōu)化策略研究——以豆瓣網(wǎng)為例 [J].現(xiàn)代情報(bào),2016,36(9):74-81+87.

[6] 盧昆,張嘉宇,張宏莉,等.面向社交網(wǎng)絡(luò)的異常傳播研究綜述 [J].通信學(xué)報(bào),2024,45(5):191-213.

[7] ROSENFELD L,MORVILLE P,ARANGO J.信息架構(gòu):超越Web設(shè)計(jì) [M].樊旺斌,師蓉,譯.北京:電子工業(yè)出版社,2016.

[8] AMEER I,SIDOROV G,GóMEZ-ADORNO H,et al. Multi-Label Emotion Classification on Code-Mixed Text: Data and Methods [J].IEEE Access,2022,10:8779-8789.

[9] HUANG A,XU R,CHEN Y,et al. Research on Multi-Label User Classification of Social Media Based on ML-KNN Algorithm [J/OL].Technological Forecasting and Social Change,2023,188:122271[2024-05-26].https://doi.org/10.1016/j.techfore.2022.122271.

[10] GUPTA M,KUMAR P. Recommendation Generation Using Personalized Weight of Meta-Paths in Heterogeneous Information Networks [J].European Journal of Operational Research,2020,284(2):660-674.

[11] 楊堃.基于機(jī)器學(xué)習(xí)的個(gè)性化推薦方法研究 [D].沈陽(yáng):沈陽(yáng)工業(yè)大學(xué),2021.

[12] KANG H,LOU C. AI Agency VS. Human Agency: Understanding Human-AI Interactions on TikTok and Their Implications for User Engagement [J/OL].Journal of Computer-Mediated Communication,2022,27(5):zmac014 [2024-05-10].https://doi.org/10.1093/jcmc/zmac014.

[13] DING Z Y,QIU X P,ZHANG Q. Learning Topical Translation Model for Microblog Hashtag Suggestion [C]//IJCAI'13: Proceedings of the Twenty-Third International Joint Conference on Artificial Intelligence.Beijing:AAAI Press,2013:2078-2084.

[14] NGUYEN T H,GRISHMAN R. Relation Extraction: Perspective from Convolutional Neural Networks [C]//Proceedings of the 1st Workshop on Vector Space Modeling for Natural Language Processing.Denver:Association for Computational Linguistics,2015:39-48.

[15] GAO J F,PANTEL P,GAMON M,et al. Modeling Interestingness with Deep Neural Networks [C]//Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing(EMNLP).Doha:Association for Computational Linguistics,2014:2-13.

[16] 宋攀.基于標(biāo)簽依賴關(guān)系的多標(biāo)簽分類方法 [D].北京:北京交通大學(xué),2019.

[17] ZHU Y,KWOK J T,ZHOU Z H. Multi-Label Learning with Global and Local Label Correlation [J].IEEE Transactions on Knowledge and Data Engineering,2018,30(6):1081-1094.

[18] DAHIYA K,SAINI D,MITTAL A,et al. DeepXML: A Deep Extreme Multi-Label Learning Framework Applied to Short Text Documents [C]//WSDM'21: Proceedings of the 14th ACM International Conference on Web Search and Data Mining.New York:Association for Computing Machinery,2021:31-39.

[19] YANG Y Y,ZHOU J Z,LIU J P,et al. Epileptic Seizure Detection Based on Multi-Synchrosqueezing Transform and Multi-label Classification [C]//Proceedings of the 8th International Conference on Signal and Information Processing,Networking and Computers(ICSINC).Ji'nan:Springer,2023,917:1017-1024.

[20] CHARTE F,RIVERA A J,JESUS M J,et al. MLSMOTE: Approaching imbalanced multilabel learning through synthetic instance generation [J].Knowledge-Based Systems,2015,89:385-397.

[21] RASTOGI R,KUMAR S. Discriminatory Label-Specific Weights for Multi-label Learning with Missing Labels [J].Neural Process Letters,2023,55(2):1397-1431.

[22] LIN T Y,GOYAL P,GRISHICK R,et al. Focal Loss for Dense Object Detection [J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2017,42(2):318-327.

[23] ABBAS A M H,GHAUTH K I,TING C Y. User Experience Design Using Machine Learning: A Systematic Review [J].IEEE Access,2022,10:51501-51514.

猜你喜歡
深度學(xué)習(xí)
從合坐走向合學(xué):淺議新學(xué)習(xí)模式的構(gòu)建
面向大數(shù)據(jù)遠(yuǎn)程開(kāi)放實(shí)驗(yàn)平臺(tái)構(gòu)建研究
基于自動(dòng)智能分類器的圖書(shū)館亂架圖書(shū)檢測(cè)
搭建深度學(xué)習(xí)的三級(jí)階梯
有體驗(yàn)的學(xué)習(xí)才是有意義的學(xué)習(xí)
電子商務(wù)中基于深度學(xué)習(xí)的虛假交易識(shí)別研究
利用網(wǎng)絡(luò)技術(shù)促進(jìn)學(xué)生深度學(xué)習(xí)的幾大策略
考試周刊(2016年94期)2016-12-12 12:15:04
MOOC與翻轉(zhuǎn)課堂融合的深度學(xué)習(xí)場(chǎng)域建構(gòu)
大數(shù)據(jù)技術(shù)在反恐怖主義中的應(yīng)用展望
深度學(xué)習(xí)算法應(yīng)用于巖石圖像處理的可行性研究
主站蜘蛛池模板: 制服丝袜在线视频香蕉| 亚洲人成色77777在线观看| 久久婷婷六月| 欧美午夜在线观看| 国产在线观看一区二区三区| 国产午夜在线观看视频| 无码乱人伦一区二区亚洲一| 原味小视频在线www国产| 亚洲美女高潮久久久久久久| 在线精品亚洲国产| 亚洲精品第1页| 激情乱人伦| 三上悠亚一区二区| 福利国产微拍广场一区视频在线| 色综合国产| 一区二区午夜| 国产a v无码专区亚洲av| 国产午夜福利在线小视频| 欧美一区二区丝袜高跟鞋| 四虎在线高清无码| 久久99热66这里只有精品一| 国产精品夜夜嗨视频免费视频| 午夜成人在线视频| 亚洲熟妇AV日韩熟妇在线| 2018日日摸夜夜添狠狠躁| 国产日韩精品欧美一区喷| 国产精品区网红主播在线观看| 国产精品爽爽va在线无码观看| 国产精品黄色片| 91亚洲精品国产自在现线| 中国毛片网| 亚洲高清资源| 99久久免费精品特色大片| 国产丝袜一区二区三区视频免下载| 高潮毛片无遮挡高清视频播放| 一级毛片无毒不卡直接观看| 99激情网| 久久国产精品夜色| 99在线免费播放| 欧洲欧美人成免费全部视频| 国产一区二区影院| h视频在线播放| 婷婷丁香色| 极品国产在线| av在线无码浏览| 综合色在线| 亚洲伊人电影| 青青网在线国产| 日本a∨在线观看| 喷潮白浆直流在线播放| 无码 在线 在线| 国产亚洲欧美另类一区二区| 亚洲天堂日韩在线| 天堂av综合网| 白浆免费视频国产精品视频| 亚洲欧美一区二区三区麻豆| 尤物成AV人片在线观看| 精品视频免费在线| 永久在线精品免费视频观看| 91在线一9|永久视频在线| 精品夜恋影院亚洲欧洲| 国产日韩欧美黄色片免费观看| 99视频在线免费看| 在线视频亚洲欧美| 精品国产亚洲人成在线| 高h视频在线| 四虎国产精品永久一区| 成人国产精品一级毛片天堂| av尤物免费在线观看| 99在线视频网站| 亚洲一区二区在线无码| 亚洲不卡无码av中文字幕| 香蕉久久国产超碰青草| 免费无码又爽又黄又刺激网站| 蝴蝶伊人久久中文娱乐网| 亚洲欧美精品日韩欧美| 狠狠色噜噜狠狠狠狠奇米777| 久久综合九色综合97网| 又黄又爽视频好爽视频| 中文无码日韩精品| 欧美在线伊人| 波多野结衣久久精品|