999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

東盟信息特色資源庫建設初探

2021-11-30 03:16:04蘇瑞竹胡云龍何瑋
魅力中國 2021年50期
關鍵詞:資源內容信息

蘇瑞竹 胡云龍 何瑋

(廣西民族大學管理學院,廣西 南寧 3 260262)

一、建設東盟信息特色資源庫的總體要求

1.切入點為更為新穎全面的東盟文化,更加系統地整合東盟信息資源,力求普及東盟文化知識。

2.根據資源平臺的要求和標準,建立數據處理和索引,編目并提交到資源包中。

3.每一套資源包都具有自主知識產權,充分體現東盟文化特色,并應結合當前熱點話題,以豐富的內容、新穎的形式去拓展東盟文化知識。

4.要注重知識產權的保護,對于那些比較敏感的內容,必須要有相關版權保護措施。

二、東盟信息特色資源庫系統非功能需求

本系統的非功能性需求主要有以下幾個方面:

(一)保持流暢的訪問速度

東盟特色資源庫每年都有一些額外的資源,一方面要求服務器在處理請求時能夠快速完成資源的上傳、檢索和修改任務。此外,在向客戶端返回數據時,應該盡量減少數據冗余。

(二)資源定位迅速

為了提高用戶體驗,除了保持訪問速度流暢外,用戶還應該能夠快速找到他們需要的資源。一方面,資源包的作者需要修改和維護每次成千上萬的資源屬性,要求作者的包可以很容易地找到他所需要的資源在系統中修改,否則,每次資源屬性的調整將是一個噩夢。另一方面,由于圖書館資源眾多,游客需要通過系統快速滿足需求的資源。

三、數據采集研究

(一)資源庫內容信息收集要素

資源庫分為國內資源庫及國外資源庫,依據出版形式又可分為期刊資源庫、圖書資源庫、專利資源庫等,依據存儲類型又可分為題目目錄式資源庫、全文資源庫等,本次信息收集的目的是將網絡上所有有關東盟政治、經濟、文化、科技、商業、教育等的信息進行收集與整合。因此需要進行專業檢索,通過建立檢索式使用檢索工具進行檢索,并進行批量下載與存儲。

1.檢索課題分析:基于知識發現的東盟商業、政府、科學、旅游等信息整理、挖掘與應用

2.關鍵詞:東盟

(二)資源庫的選擇

ESI(Essential Science Indicators)、JCR(Joural Citation Report)、Mathscinet 數據庫、IEEE/IEE Electronic Library(IEL)、Elsevier(SD)資源庫(1700多種刊)、方正數字資源平臺-中華數字書苑、中數圖中文電子圖書、維普信息資源系統、萬方資源庫跨庫檢索、中國知網(cnki)、http://koran.tempo.co/ 印尼時代報、https://www.msn.com/en-my/ MNS 馬來西亞、https://www.brudirect.com/文萊BruDirect、http://www.vientianetimes.org.la/ 老撾新聞、https://mthai.com/ 泰國MThai、https://zingnews.vn/ 越南Zing.vn、https://sabay.com/ 柬埔寨Sabay、https://www.sg.issworld.com/ 新加坡ISS、https://www.msn.com/en-ph MSN 菲律賓、http://www.myanmar.com/ 緬甸日報。

(三)選擇檢索工具:火車頭采集器

四、采集器相關理論及環境要求

(一)功能

火車采集器主要包含八大特色功能,下面進行一一列舉并且說明。

1.網址采集

通過設置網站收集規則,火車頭可以快速收集到所需的網站信息。手動輸入、批量添加或直接從文字進入網站,并能自動過濾刪除重復的網站信息。

2.內容采集

火車頭收集器通過對網頁源代碼的分析和內容采集規則的設置,可以準確地采集網頁中零散的內容數據,支持多階段、多頁面等復雜頁面的內容采集。通過定義標簽,可以在類別中收集數據。

3.數據處理

對于采集到的信息和數據進行一系列智能化處理,使采集到的數據更符合使用標準。主要包括1)標簽過濾;2)替換;3)數據轉換;4)自動文摘分詞;5)下載選項。

4.數據發布

收集完數據后,收集器默認將數據保存在本地存儲庫(SQLite、MySQL 和SQLServer)中。您可以根據需要執行后續操作,發布數據。它支持數據的直接查看、數據的在線發布、存儲庫的輸入以及用戶發布界面的使用和開發。

5.多任務多線程運行

收集器可以同時運行多個任務。支持不同網站或同一網站下不同欄目的內容同時收集,定時任務。在收集和發布內容時,單個任務可以使用多個線程運行,從而提高效率。

6.HTTP 二級代理服務器

采集器可以通過輔助代理服務器的功能實現IP 替換,避免了IP 受限訪問導致的獲取失敗。獲取代理IP 地址,并將代理IP 地址導入采集器。

7.計劃任務管理器

采集器可以進行自動的收集和釋放時間,為實現自動更新功能,添加到計劃任務中的任務在任務設定的頻率和運行時間內執行。

8.任務運行日志管理

采集監控系統配置在運行任務管理器將記錄信息收集和監控模塊生成裝配成一個日志條目,管理員會將收集和監控模塊匯編產生的信息記錄到日志條目中,如果啟用了自動運行功能或需要監控程序的運行狀況。

(二)采集器的系統環境

Win10/Win7/Win8/Win2012/Win2010/Win2008/Win2003/Vista/Xp 以及Linux 要求電腦安裝.NET4.0 框架支持,下載地址:

http://www.microsoft.com/zh-cn/download/details.aspx?id=17718

如果需要在 ia64 上進行安裝,請使用在此處找到的 ia64 安裝程序。

五、采集過程

(一)網址采集規則的制定

1.網址采集規則測試

起始網址以新浪新聞為例

將https://search.sina.com.cn/?q=%E4%B8%9C%E7%9B%9F&c=news&from=home&c ol=

&range=all&source=&country=&size=10&stime=&etime=&time=&dpc=0&a=&ps=0&p f=0&page=2 設置為網站起始站,然后進行批量設置。設置完成點擊確定。然后進行測試。

2.網頁內容采集規則的設置

通過點擊其列表頁中其中一個內容頁跳轉至內容采集規則。與此同時點開內容頁的源代碼查看。

設置標題規則

字符串為<title>首趟長沙-河內東盟國際貨運班列從憑祥鐵路口岸出境|東盟|憑祥|河內_新浪新聞</title>

選擇內容進行規則設置

選擇字符串為

<!--正文 start -->

<div class=”article”id=”article”>

<p> <font>4 月3 日,首列長沙-河內東盟國際貨運班列從憑祥鐵路口岸開出。</font></p><p> <font>該班列在憑祥海關監管下辦理了通關手續,啟程前往越南河內,開辟了中歐班列從東南亞出發的新的陸海通道。</font></p><div class=”img_wrapper”><img src=”//n.sinaimg.cn/sinakd10117/290/w1080h810/20210406/3cf5-knipfse8474593.jpg”w=”1080”h=”810”wh=”1.33”/></div><p> <font>▲憑祥海關關員對“長沙-河內”班列進行關鎖核驗以便快速放行 </font></p><div class=”img_wrapper”><img src=”//n.sinaimg.cn/sinakd10117/290/w1080h810/20210406/d6fa-knipfse8476603.jpg”w=”1080”h=”810”wh=”1.33”/></div><p> <font>中外運廣西有限公司憑祥分公司業務員韋晶賢:“長沙—東盟國際貨運路線的開通能進一步降低物流成本,也為中部地區貨物出口東南亞提供新的通道。”</font></p><p> <font>據了解,憑祥鐵路口岸是中歐班列往東南亞方向的主要出境口岸,2020 年憑祥海關共監管進出境為進一步推進中國與中南半島經貿合作、維護全球供應鏈穩定貢獻中國力量。(來源:邊關憑祥)</font></p>

<!--正文 end -->

通過點擊進行測試 那么最初的兩項數據采集就已經形成,包括了標題和內容的設置。只代碼可以在源代碼中找到,就能提取出來。

3.導入本地硬盤

接下來跳轉第三步,內容的發布。這里選擇導入到本地硬盤,可選擇以WORD 或者textPDF 等格式保存。

選擇text 文本保存保底。開始運行程序,點開一個內容設置就能查看到改采集的內容,將所有的數據導出。點擊我的任務,進行新建任務并且進行任務規則制定。然后點擊保存并啟動。

開始數據收集與整理,數據收集以主題為分類進行全面收集。收集內容涉及科技、商業、文化、教育、人文、社交、政策等多項類別的內容,分別采集的數據為文獻名、文獻鏈接、作者、來源、發表時間、資源庫、北引次數、下載次數。

數據爬取過程以中國知網為例、還需要爬取其他資源庫的數據。

以上只是一部分資源庫的提取,由于大數據的數據量在TB-PB 級別,這里只引用其中一部分作為解釋,多余不做贅述。采集完成后進行下一步,數據的整理與加工。

(二)網頁內信息的收集和組織

1.信息整理加工

由于數據的分析處理軟件需要采用結構化數據,因此需要將數據整理為電腦和人皆可識別的結構化數據,這里方便數據分析與碰撞需要將他加工為EXCEL 表格進行分析。

2.語義描述

東盟文獻資源收集完成后,需要對收集到的數據進行語義描述,以實現資源的后續檢索和定位,呈現相關知識。通過提取東盟文檔資源元數據,如事件、時間、地點和其他實體,將原始的東盟文檔資源元數據轉換為新的元數據三元組。通過三元模型,可以表示任何數據和知識,實現計算機的可理解。參考DC、CDWA、VRC 等元數據標準,文檔資源元數據可以從標題、標識符、事件、背景、日期、地點、主題、資源類型、作者等方面獲得。在提取和描述文檔元數據的相關元素之后,使用RDF 和XML 語法規則來描述元數據,以便計算機能夠理解和識別任何數據和知識。

3.知識關聯

在對東盟文獻資源進行元數據描述之后,需要通過相關維度的連接,在資源之間建立更豐富的知識關系網絡。建立內部語義關系,通過語義關系標注,形成基于主題、事件、時間、地點、類型的內部關系。主題:東盟的文獻資源,如泰國、文萊、新加坡等,在建立專有名詞列表時,應從詞語的語法位置提取關鍵詞。事件:東盟文獻資源對象的具體行為大多與當時的社會生產活動相結合,如新加坡的多元宗教交流、新加坡的文化交流等。對這些語義詞進行相關性分析,可以為當時新加坡與外國的友好交往和文化交流提供歷史證據。這類詞通常是動詞,需要根據語境的詞性進行分析和提取。時代性:印度文獻資源的內容和意義具有時代性特征。按照時間線對資源進行排序,有利于縱向比較和建立相關性的縱向分類。對于時間語義詞,可以建立時間詞匯或構建詞語規則。位置:泰國文獻資源的主題空間范圍,如“泰姬陵”“玉佛寺”等,可以通過分析上下文句子中的詞匯來標記。類型:東盟文獻資源可分為宗教多元交流、海外貿易等多種類型。通過外部關聯和內部關聯的建立,東盟文獻資源由松散的資源集合體轉變為復雜而有序的東盟文獻資源知識元知識網絡。為用戶提供更直觀的視覺體驗和新的研究思路。

結語

隨著東盟區域一體化進程的不斷加快,使得東盟文獻信息需求不斷增加,作為文化信息交流中心的圖書館,在發展機遇下,應突出重點信息資源建設,利用東盟的館藏,結合網絡資源的深度整合,開發建設具有東盟區域文化特色的知識庫,打造特色優質服務,實現優勢互補,以達到特色信息資源共享的目的。

猜你喜歡
資源內容信息
內容回顧溫故知新
科學大眾(2022年11期)2022-06-21 09:20:52
基礎教育資源展示
一樣的資源,不一樣的收獲
資源回收
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
資源再生 歡迎訂閱
資源再生(2017年3期)2017-06-01 12:20:59
主要內容
臺聲(2016年2期)2016-09-16 01:06:53
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
健康信息
祝您健康(1987年3期)1987-12-30 09:52:32
健康信息(九則)
祝您健康(1987年2期)1987-12-30 09:52:28
主站蜘蛛池模板: 99热这里只有精品免费| 日本人妻丰满熟妇区| 国产日韩欧美一区二区三区在线| 爱做久久久久久| 日本免费新一区视频| 国产精品欧美在线观看| 99国产精品一区二区| 亚洲中文字幕无码爆乳| 国产精品自拍露脸视频 | 日韩国产精品无码一区二区三区| 任我操在线视频| 国产传媒一区二区三区四区五区| 国产精品.com| 沈阳少妇高潮在线| 欧美A级V片在线观看| 国产剧情伊人| 国产精品女同一区三区五区| 成人午夜在线播放| 97精品伊人久久大香线蕉| 免费aa毛片| 亚洲最黄视频| 55夜色66夜色国产精品视频| 亚洲国产黄色| 国产综合精品一区二区| 在线观看热码亚洲av每日更新| 色婷婷在线播放| 欧美a在线视频| 亚洲中文字幕久久无码精品A| www精品久久| 欧美日韩中文国产va另类| 欧美自慰一级看片免费| 亚洲三级成人| 幺女国产一级毛片| 亚洲系列中文字幕一区二区| 国产精品天干天干在线观看| 欧美日韩一区二区在线免费观看| 亚洲精品自在线拍| 国产欧美又粗又猛又爽老| 国产H片无码不卡在线视频| 亚洲精品第1页| 日韩在线播放欧美字幕| 手机精品福利在线观看| 欧美 亚洲 日韩 国产| 国产精品性| 一级香蕉人体视频| 熟女视频91| 免费A级毛片无码无遮挡| 中文字幕2区| 欧美亚洲欧美| 亚洲 欧美 偷自乱 图片| 久久大香香蕉国产免费网站| 97无码免费人妻超级碰碰碰| 狠狠综合久久| 在线色综合| 2021天堂在线亚洲精品专区| 欧美人人干| 欧美国产精品不卡在线观看| 免费人成视网站在线不卡| 久久中文字幕av不卡一区二区| 黄色免费在线网址| 伊人久久福利中文字幕| 色婷婷狠狠干| 成人免费视频一区| 国产女同自拍视频| 欧美亚洲国产一区| 女人一级毛片| 国产综合精品日本亚洲777| 中文字幕啪啪| 永久毛片在线播| 久久久久久久久久国产精品| 在线观看免费黄色网址| 在线观看无码av免费不卡网站 | 最新日本中文字幕| 五月婷婷精品| 伊人天堂网| 成人字幕网视频在线观看| 日本亚洲欧美在线| 久久99国产综合精品女同| 精品国产自| 日本成人在线不卡视频| 999国产精品| 国产精品欧美日本韩免费一区二区三区不卡 |