龍?jiān)?潘婭* 代尚靈 余偉 李琦
(1.西南科技大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院 四川省綿陽市 621010 2.四川長虹電子控股集團(tuán)有限公司 四川省綿陽市 628000)
實(shí)驗(yàn)室是多數(shù)高校進(jìn)行科學(xué)研究的重要組成部分,專業(yè)實(shí)驗(yàn)室成員主要包括管理員、教師和學(xué)生,他們共同協(xié)作完成專業(yè)的研究工作[1]。經(jīng)過多年科學(xué)研究積累,實(shí)驗(yàn)室往往包含許多實(shí)驗(yàn)所需資源、數(shù)據(jù)以及大量的科研成果,以實(shí)驗(yàn)語料、工具平臺、視頻圖片、各類文檔等多種形式存在。隨著科學(xué)研究的不斷開放,跨學(xué)科、多領(lǐng)域的合作研究日益頻繁,各個(gè)實(shí)驗(yàn)室之間的科研成果實(shí)現(xiàn)順利共享的需求凸顯[2]。如果缺乏對專業(yè)實(shí)驗(yàn)室的資源進(jìn)行統(tǒng)一管理,就可能導(dǎo)致實(shí)驗(yàn)室成員重復(fù)做同一研究、不同實(shí)驗(yàn)室之間也重復(fù)做同一課題,對已有資源使用效率低等問題。如何更好的管理實(shí)驗(yàn)室的設(shè)備、數(shù)據(jù)和各種科成果,讓實(shí)驗(yàn)室已有的資源、成果在后續(xù)的研究中發(fā)揮應(yīng)有的作用,為老師、實(shí)驗(yàn)室成員提供便利,都是實(shí)驗(yàn)室管理急需解決的問題[3],而且這個(gè)問題顯得越來越重要。目前專業(yè)實(shí)驗(yàn)室資源管理任務(wù)比較繁重,主要存在如下的問題:
(1)缺乏對實(shí)驗(yàn)室資源的統(tǒng)一管理,導(dǎo)致實(shí)驗(yàn)室重復(fù)進(jìn)行相同的實(shí)驗(yàn),對已有的數(shù)據(jù)使用效率低等;
(2)國內(nèi)高等教育的迅猛發(fā)展,大多數(shù)高校實(shí)驗(yàn)室面臨著管理經(jīng)驗(yàn)不足及資源使用不當(dāng)?shù)葐栴}。
針對上述問題,結(jié)合目前實(shí)驗(yàn)室資源管理和技術(shù)的發(fā)展,國內(nèi)外研究人員已經(jīng)開展了一定的研究工作[4-6],但主要偏重歸檔存儲、人工驅(qū)動的粗放管理模式。隨著AI 的誕生與發(fā)展使人類解放自己、提高了生產(chǎn)力,就資源管理而言,很多基礎(chǔ)性的、理性的、可量化的工作都可以由AI 完成,通過AI 和大數(shù)據(jù)技術(shù),可以實(shí)現(xiàn)算法驅(qū)動的全方位綜合利用專業(yè)資源的智能管理模式。
本文基于智能管理模式理念研發(fā)了智能技術(shù)驅(qū)動的專業(yè)實(shí)驗(yàn)室資源統(tǒng)一管理平臺(以下簡稱:實(shí)驗(yàn)室資源管理平臺),使用人工智能技術(shù)進(jìn)行資源的自動收集、分類、智能推薦等,能夠?qū)?shí)驗(yàn)室專業(yè)相關(guān)的資源進(jìn)行有效的整合管理,方便平臺使用者下載和使用這些資源,減少實(shí)驗(yàn)室人員在傳承這些信息中的遺漏或錯(cuò)誤,實(shí)現(xiàn)實(shí)驗(yàn)室研究資源高效,高質(zhì)量的共享。
實(shí)驗(yàn)室資源管理平臺采用B/S 架構(gòu)[5],整體框架設(shè)計(jì)分為服務(wù)器端和瀏覽器端,兩者通過 Http 協(xié)議進(jìn)行連接,如圖1 所示。用戶在不同終端(電腦、平板、手機(jī)等)的瀏覽器,訪問Web 服務(wù)器,Web 服務(wù)器向統(tǒng)一資源管理云平臺通過Http 請求傳輸數(shù)據(jù),讓用戶實(shí)現(xiàn)上傳、下載、分享資源等功能,后臺服務(wù)器進(jìn)行資源收集、整理、存儲,通過不同協(xié)議將在數(shù)據(jù)庫服務(wù)器和文件服務(wù)器中。關(guān)聯(lián)平臺是指實(shí)驗(yàn)室內(nèi)部專業(yè)平臺,使用平臺1...平臺n 泛指各個(gè)專業(yè)實(shí)驗(yàn)室部署的不同平臺,為資源管理云平臺提供擴(kuò)展功能。統(tǒng)一資源管理云平臺可以通過Http 協(xié)議與其他關(guān)聯(lián)的平臺進(jìn)行信息交換,提高各平臺的使用率。采用這種結(jié)構(gòu)具有以下幾個(gè)優(yōu)點(diǎn):使用者可以打破時(shí)空限制,隨時(shí)隨地的進(jìn)行資源上傳、瀏覽、下載等,從而實(shí)現(xiàn)資源共享、提高資源利用效率;平臺采取嚴(yán)格的權(quán)限分配,不同角色的人可以進(jìn)行不同的操作;實(shí)時(shí)地將資源使用情況、資源管理結(jié)合起來。

圖1:基于智能技術(shù)實(shí)驗(yàn)室資源統(tǒng)一管理平臺整體部署圖

圖2:基于智能技術(shù)實(shí)驗(yàn)室資源統(tǒng)一管理平臺整體框架圖

圖3:資源智能搜索和分類存儲實(shí)現(xiàn)圖

圖4:推薦算法結(jié)構(gòu)圖

圖5:個(gè)性化推薦訓(xùn)練圖
實(shí)驗(yàn)室資源管理平臺根據(jù)功能和處理邏輯分為門戶模塊、支持應(yīng)用模塊、資源管理模塊、數(shù)據(jù)集成交換模塊、數(shù)據(jù)存儲這幾個(gè)模塊,整體框架圖如圖2 所示。門戶模塊主要用于和用戶交互,包括數(shù)據(jù)監(jiān)控與分析,資源分類展示,資源查詢與搜索和常用業(yè)務(wù)。支撐應(yīng)用是完成云平臺功能的基礎(chǔ)應(yīng)用,包括成員管理,權(quán)限管理,評論管理,日志管理和資源可視化等。資源管理是平臺的核心功能,主要分為資源獲取(人工上傳、自動用工具爬取);資源分類(人工分類、智能分類);資源檢索(全局檢索,外部檢索);資源推薦(搜索推薦,智能推薦);資源存儲(文件存儲、數(shù)據(jù)庫存儲)。數(shù)據(jù)集成交換,主要用于和關(guān)聯(lián)平臺互換信息,包含Web 服務(wù)接口的管理和接口運(yùn)行的監(jiān)控以及關(guān)聯(lián)的各個(gè)實(shí)驗(yàn)室專業(yè)平臺。
實(shí)驗(yàn)室資源管理平臺在實(shí)現(xiàn)過程中采用前端后臺分離和開發(fā)模型與代碼解耦思維,主要分為Java Web工程和機(jī)器學(xué)習(xí)模型兩部分。Java web 工程中前后端分離開發(fā),前端使用Vue 框架,后臺采用SpringBoot 框架,用Shiro 進(jìn)行權(quán)限分配與管理。機(jī)器學(xué)習(xí)模型主要使用Python 編寫并在Linux 服務(wù)器上進(jìn)行模型訓(xùn)練,用于完成資源相似度計(jì)算,資源推薦等功能。在平臺中使用Java 調(diào)用python進(jìn)程進(jìn)而使用相關(guān)模型,利用這些技術(shù)實(shí)現(xiàn)了資源獲取、資源分類、資源推薦等平臺的核心功能。
資源智能搜索和分類存儲主要涉及資源智能搜索模塊、采集分類模塊,包含分詞、過濾、主題歸類、聚合描述、離散分布、文本聚類等技術(shù),將人工與機(jī)器學(xué)習(xí)算法結(jié)合,通過網(wǎng)絡(luò)爬取所需的資源,對于所爬取的資源經(jīng)過濾解析然后利用Probabilistic Linear Discriminant Analysis(PLDA)算法嘗試提取和歸并不同的文章的各種關(guān)鍵詞或主題,再使用不同關(guān)鍵詞的權(quán)重去聚類,實(shí)現(xiàn)文本資源自動分類并存儲到服務(wù)器,整個(gè)流程如圖3 所示。
2.1.1 智能搜索模塊
用戶在搜索資源時(shí),因?yàn)閭€(gè)人的對資源的認(rèn)知情況,表達(dá)能力不一樣,并且對事物的描述不一定準(zhǔn)確,用戶可能不能描繪出自己想要搜索事物的關(guān)鍵詞,導(dǎo)致搜索結(jié)果的準(zhǔn)確性不高,不能滿足實(shí)現(xiàn)用戶的搜索需求,對用戶使用造成困擾。對此平臺引入智能分詞技術(shù)并將其應(yīng)用于接收分析用戶的搜索語句,該技術(shù)能夠識別多種語言的語句,對各種不同的中文和英文句子能實(shí)現(xiàn)智能分詞,提取出搜索語句中的關(guān)鍵字,在一定層面上能理解用戶想要表達(dá)的意思是什么。在本平臺中智能分詞采用多種分詞技術(shù),主要使用的分詞策略是基于分詞詞典分詞、組合型歧義和交集型歧義的統(tǒng)計(jì)消歧算法。
平臺依據(jù)用戶需求(智能分詞后的結(jié)果),通過網(wǎng)絡(luò)爬蟲技術(shù)對各種各樣相關(guān)的資源進(jìn)行搜索,網(wǎng)絡(luò)爬蟲從多個(gè)資源網(wǎng)站(百度或谷歌等),按照分詞后的關(guān)鍵詞逐個(gè)檢索,網(wǎng)站搜索反饋的策略是在一個(gè)相關(guān)檢索的網(wǎng)站下讀取一個(gè)網(wǎng)頁的內(nèi)容,有其他的鏈接根據(jù)網(wǎng)站是否一致,選擇是否跳轉(zhuǎn)讀取,如此重復(fù)操作,直到把這個(gè)網(wǎng)站的網(wǎng)頁所有鏈接爬取完,自動爬取工作才結(jié)束,最終將爬取得網(wǎng)頁存儲為html 格式的Web 頁面集。
2.1.2 采集分類模塊
采集分類模塊把搜索模塊爬取的Web 頁面集作為樣本,使用常用的數(shù)據(jù)處理方式包括分詞、類型改變、停用詞過濾等,對其進(jìn)行清洗和并解析轉(zhuǎn)化為文檔對象模型,然后結(jié)合專業(yè)實(shí)驗(yàn)室的資源基本數(shù)據(jù)單元制定標(biāo)準(zhǔn)來生成頁面的基本語義模塊,再使用這個(gè)模塊去標(biāo)記文檔對象模型,從而建立頁面相關(guān)模塊單元與語義對象的關(guān)系,然后再使用PLDA 算法對文檔對象模型進(jìn)行關(guān)鍵詞計(jì)算描述,再通過不同關(guān)鍵詞的權(quán)重進(jìn)行聚合分類 ,實(shí)現(xiàn)資源文件自動分類。
平臺允許用戶自定義采集規(guī)則,能實(shí)現(xiàn)擴(kuò)展專業(yè)實(shí)驗(yàn)室資源信息采集知識,加強(qiáng)平臺的資源獲取能力,獲取的知識能保存在專業(yè)實(shí)驗(yàn)室資源庫中,在實(shí)時(shí)的獲取中,也能將數(shù)據(jù)發(fā)送給用戶的本地存儲并在平臺網(wǎng)頁中展示給用戶。

圖6:平臺部分成果展示
資源推薦先分析用戶特征和用戶軌跡方面,當(dāng)用戶進(jìn)入本平臺時(shí),首先判斷這名用戶是否是新用戶,一旦發(fā)現(xiàn)是新用戶將啟動冷啟動策略,即提供資源熱門排行榜,為用戶提供大眾資源,當(dāng)收集的用戶數(shù)據(jù)達(dá)到一定量時(shí),基于用戶注冊標(biāo)簽特征和平臺行為特征構(gòu)建了完整的用戶畫像,再進(jìn)行個(gè)性化推薦。如果用戶不涉及冷啟動問題,則直接根據(jù)已經(jīng)構(gòu)建的用戶畫像,進(jìn)行個(gè)性化推薦。本平臺涉及推薦的應(yīng)用場景有兩個(gè):
(1)當(dāng)用戶訪問實(shí)驗(yàn)室專業(yè)資源平臺的首頁時(shí),推薦系統(tǒng)會計(jì)算出一系列用戶可能感興趣的資源,推薦給用戶。推薦的資源都是根據(jù)用戶偏好和資源屬性來計(jì)算的;
(2)當(dāng)用戶訪問專業(yè)資源詳細(xì)頁時(shí),推薦系統(tǒng)會根據(jù)當(dāng)前訪問的資源和用戶的習(xí)慣記錄來推薦跟當(dāng)前資源類似且用戶可能感興趣的專業(yè)資源。
用戶對專業(yè)資源進(jìn)行操作時(shí)(瀏覽、下載、評論等),平臺會收集用戶的行為,在閑暇調(diào)用對推薦模型的訓(xùn)練,使得首頁推薦和資源相關(guān)推薦的結(jié)果更加精準(zhǔn)、更加接近用戶的喜好,從而實(shí)現(xiàn)個(gè)性化推薦,提高用戶的體驗(yàn),發(fā)現(xiàn)用戶潛在喜歡的專業(yè)資源。本平臺實(shí)現(xiàn)的推薦算法主要包括兩大部分,全局推薦模塊和用戶個(gè)性化推薦模塊,整個(gè)推薦算法結(jié)構(gòu)如圖4 所示。下面將分別對兩個(gè)大模塊的設(shè)計(jì)和實(shí)現(xiàn)進(jìn)行詳細(xì)介紹。
2.2.1 全局推薦模型
本平臺的推薦算法是基于神經(jīng)網(wǎng)絡(luò)的分層混合推薦模型,其中全局推薦模塊,包括多個(gè)子模塊,分別是基于神經(jīng)網(wǎng)絡(luò)推薦模塊、基于用戶協(xié)同過濾推薦模塊和基于資源屬性推薦模塊。
基于用戶協(xié)同過濾推薦模塊和基于資源屬性推薦模塊的輸出作為基于神經(jīng)網(wǎng)絡(luò)推薦模塊的輸入,來得到最終的推薦結(jié)果。推薦算法的輸入是圖4 最左側(cè)的五個(gè)矩陣,分別是資源屬性矩陣、用戶瀏覽矩陣、用戶下載矩陣、用戶下載矩陣和用戶標(biāo)簽信息。資源屬性矩陣保存的是專業(yè)資源的屬性內(nèi)容,主要作為基于資源屬性推薦模塊的輸入;用戶瀏覽矩陣記錄的是用戶是否瀏覽過某專業(yè)資源以及瀏覽次數(shù);用戶下載矩陣記錄了用戶是否下載過某專業(yè)資源;用戶評論矩陣記錄了用戶是否評論過某專業(yè)資源以及好評或者差評,無評論記為0,好評記為1,差評記為-1;用戶標(biāo)簽信息主要記錄用戶注冊標(biāo)簽特征。用戶瀏覽矩陣、用戶下載矩陣、用戶下載矩陣這三個(gè)矩陣主要作為基于用戶協(xié)同過濾模塊的輸入。用戶標(biāo)簽信息結(jié)合用戶行為信息(瀏覽、下載、評論等)共同構(gòu)建用戶畫像,進(jìn)而實(shí)現(xiàn)個(gè)性化推薦。
平臺模型訓(xùn)練集是在收集用戶行為內(nèi)容以及用戶特征后,組成平臺上的內(nèi)容總庫以及用戶總庫,將二者合并構(gòu)建出的訓(xùn)練集。訓(xùn)練集記錄并匯總平臺上全部的行為日志,因此可以通過算法訓(xùn)練出一個(gè)資源推薦模型。由于基于用戶協(xié)同過濾模塊的計(jì)算量比較大,不可能實(shí)時(shí)計(jì)算,因此采用離線計(jì)算的方法,將其輸出保存日志文件中,然后基于神經(jīng)網(wǎng)絡(luò)推薦模塊會根據(jù)需要從日志文件中讀取并解析出數(shù)據(jù)。在首頁推薦中,基于用戶協(xié)同過濾模塊的輸出是平臺將各個(gè)資源對用戶的推薦度,而在詳細(xì)頁推薦中,基于資源屬性推薦模塊的輸出是同用戶當(dāng)前瀏覽專業(yè)資源的有關(guān)聯(lián)的多個(gè)資源相似度。
2.2.2 用戶個(gè)性化推薦模塊
用戶個(gè)性化推薦模塊可以很好新用戶冷啟動問題同時(shí)實(shí)現(xiàn)用戶的個(gè)性化推薦功能,整個(gè)模塊訓(xùn)練和調(diào)用過程如圖5 所示。在本模塊中維護(hù)了基于全局用戶操作習(xí)慣的人工神經(jīng)網(wǎng)絡(luò),當(dāng)新用戶注冊時(shí),就把此人工神經(jīng)網(wǎng)絡(luò)復(fù)制到新用戶的神經(jīng)網(wǎng)絡(luò)推薦模塊,給用戶做全局推薦。
在個(gè)性化推薦涉及啟動前,平臺中已經(jīng)訓(xùn)練好了基于全局用戶偏好習(xí)慣的首頁推薦神經(jīng)網(wǎng)絡(luò)和資源頁面推薦神經(jīng)網(wǎng)絡(luò),將其作為最開始的全局神經(jīng)網(wǎng)絡(luò),此神經(jīng)網(wǎng)絡(luò)可以直接根據(jù)輸入的特征值(包括專業(yè)資源屬性、基于用戶協(xié)同過濾推薦結(jié)果)來計(jì)算推薦結(jié)果,這樣在新用戶注冊后,不需要對用戶進(jìn)行額外的偏好獲取,就可以推薦資源給用戶,很好地解決了新用戶的冷啟動問題。通過復(fù)制全局推薦模型作為新用戶的推薦模型,然后根據(jù)新用戶之后的操作修正推薦模型,使推薦模型更加貼近用戶的偏好。當(dāng)新用戶進(jìn)行瀏覽、下載、評論等操作時(shí),本模塊會根據(jù)用戶的操作構(gòu)建用戶畫像并對其神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,從而達(dá)到個(gè)性化推薦。
實(shí)驗(yàn)室資源管理平臺已投入本校軟件測試實(shí)驗(yàn)室管理中,實(shí)際使用效果良好(如圖6 所示),目前支持200 人同時(shí)在線,50 人同時(shí)操作資源,并在3s 內(nèi)給出反饋。平臺為實(shí)驗(yàn)室管理員、實(shí)驗(yàn)室老師、實(shí)驗(yàn)室同學(xué)提供資源上傳、資源搜索、資源評論、推薦資源等功能,方便平臺使用者下載和使用這些資源,減少實(shí)驗(yàn)室人員在傳承這些信息中的遺漏或錯(cuò)誤,實(shí)現(xiàn)實(shí)驗(yàn)室研究資源高效,高質(zhì)量的共享。
本文研發(fā)了智能技術(shù)驅(qū)動的專業(yè)實(shí)驗(yàn)室資源統(tǒng)一管理平臺,從技術(shù)方案設(shè)計(jì)、核心技術(shù)實(shí)現(xiàn)等方面對平臺的設(shè)計(jì)與實(shí)現(xiàn)進(jìn)行了闡述,并在實(shí)驗(yàn)室進(jìn)行了實(shí)際使用,該平臺能夠?qū)?shí)驗(yàn)室專業(yè)相關(guān)的資源進(jìn)行有效的整合管理,使用人工智能技術(shù)進(jìn)行資源的自動收集、分類、智能推薦等,方便平臺使用者下載和使用這些資源,減少實(shí)驗(yàn)室人員在傳承這些信息中的遺漏或錯(cuò)誤,實(shí)現(xiàn)實(shí)驗(yàn)室研究資源高效,高質(zhì)量的共享。