999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

科技政策庫的系統(tǒng)集成與建設(shè)①

2019-08-16 09:09:16楊寶龍杜治高李涵露
關(guān)鍵詞:文本科技系統(tǒng)

武 虹,楊寶龍,杜治高,李涵露

1(中國科協(xié)創(chuàng)新戰(zhàn)略研究院,北京 100086)

2(北京航空航天大學(xué),北京 100083)

科技政策是國家為實(shí)現(xiàn)一定歷史時期的科技任務(wù)而規(guī)定的基本行動準(zhǔn)則,是確定科技事業(yè)發(fā)展方向,指導(dǎo)整個科技事業(yè)的戰(zhàn)略和策略原則.科技政策是否高效合理,對科學(xué)技術(shù)能否快速發(fā)展具有重要的影響.為了提升科技政策制定過程的系統(tǒng)性和科學(xué)性,2005年美國提出了“科學(xué)政策學(xué)” (Science of Science Policy,SoSP) ,把科技政策研究作為一門“科學(xué)”[1],并將SoSP作為建立美國政府“基于證據(jù)的決策系統(tǒng)”的重要舉措[2].2008年國家科學(xué)技術(shù)委員會 (NSTC) 和白宮科技政策辦公室 (OSTP) 聯(lián)合發(fā)布了《科技政策學(xué):聯(lián)邦研究路線圖》,指導(dǎo)國家科技政策學(xué)的發(fā)展[3].2009年日本科學(xué)技術(shù)振興機(jī)構(gòu) (JST) 在日本發(fā)起科技政策學(xué)的研究與梳理工作,加強(qiáng)日本科技政策的證據(jù)基礎(chǔ),推進(jìn)科技政策科學(xué)的發(fā)展[4].2010年,歐盟與美國聯(lián)合舉辦了歐美科技政策學(xué)討論會,以推進(jìn)歐洲科技政策學(xué)的規(guī)范化研究[5].自此,世界科技政策研究邁入了科技政策科學(xué)的新階段[6],并形成了大量高水平的研究成果.近年來,科技政策研究在國內(nèi)也得到了越來越多的關(guān)注[7,8].

作為科技政策研究的主體,國內(nèi)外的歷史科技政策種類繁多、數(shù)量龐大,近些年的歷史政策散落在互聯(lián)網(wǎng)各處,2000年以前的歷史政策則一般只有紙版文檔,這些政策文獻(xiàn)很難得到有效的收集整理,對科技政策研究帶來了不便和障礙.隨著網(wǎng)絡(luò)爬蟲技術(shù)的發(fā)展,利用信息技術(shù)從互聯(lián)網(wǎng)收集歷史科技政策文獻(xiàn)成為了可能;而自然語言處理、大數(shù)據(jù)、機(jī)器學(xué)習(xí)等技術(shù)的發(fā)展,則為科技政策研究提供了新的技術(shù)手段[9].部分科技政策研究單位已經(jīng)開始收錄和整理科技政策文獻(xiàn),但是這項研究整體上仍然處于起步階段.部分現(xiàn)有科技政策數(shù)據(jù)庫僅采集國內(nèi)政策,缺乏對國際先進(jìn)經(jīng)驗(yàn)的整理;或者僅限于科技政策收集,對政策解讀、領(lǐng)導(dǎo)講話、政策研究等相關(guān)文獻(xiàn)缺乏關(guān)注;還有部分政策庫采集了政府部門制定的所有政策,對科技政策研究而言針對性不強(qiáng).另外,現(xiàn)有科技政策庫建設(shè)的關(guān)注焦點(diǎn)仍集中在數(shù)據(jù)采集方面,對數(shù)據(jù)清洗,以及統(tǒng)計分析等研究支持能力缺乏深入研究 .

本文基于Scrapy 爬蟲框架[10]設(shè)計和實(shí)現(xiàn)了可管理的網(wǎng)絡(luò)爬蟲,從225 個互聯(lián)網(wǎng)站點(diǎn)采集國內(nèi)外科技政策文獻(xiàn);并進(jìn)一步對原始政策數(shù)據(jù)進(jìn)行結(jié)構(gòu)化信息提取、數(shù)據(jù)去重、非相關(guān)數(shù)據(jù)清洗等數(shù)據(jù)清洗操作,構(gòu)建了完整和統(tǒng)一的科技政策庫;在政策庫的基礎(chǔ)上實(shí)現(xiàn)文本分類、關(guān)聯(lián)分析、全文檢索、統(tǒng)計分析功能,為科技政策的研究與制定提供了參考和依據(jù).

1 系統(tǒng)總體設(shè)計方案

1.1 系統(tǒng)功能目標(biāo)

(1) 面向225 個國內(nèi)國外、結(jié)構(gòu)不一、安全策略各異的互聯(lián)網(wǎng)站點(diǎn),設(shè)計可配置、可管理的網(wǎng)絡(luò)爬蟲,采集科技政策相關(guān)的數(shù)據(jù),實(shí)現(xiàn)數(shù)據(jù)的增量更新.利用OCR 技術(shù)識別歷史文獻(xiàn)圖書,提取文獻(xiàn)的結(jié)構(gòu)化信息,實(shí)現(xiàn)歷史文獻(xiàn)的批量入庫.

(2) 采用機(jī)器學(xué)習(xí)、自然語言處理等技術(shù),對從互聯(lián)網(wǎng)采集的56 萬條科技政策相關(guān)網(wǎng)頁進(jìn)行數(shù)據(jù)清洗,通過數(shù)據(jù)去重、非相關(guān)數(shù)據(jù)清洗、數(shù)據(jù)屬性缺陷處理等一系列操作,去除噪音數(shù)據(jù),提升數(shù)據(jù)質(zhì)量.

(3) 在數(shù)據(jù)清洗基礎(chǔ)上實(shí)現(xiàn)科技政策庫文獻(xiàn)的分類、關(guān)聯(lián)關(guān)系分析、全文索引,并向用戶提供文獻(xiàn)檢索、查閱和下載功能;針對有效入庫的文獻(xiàn)實(shí)現(xiàn)時域分析、地域分析等功能.

1.2 系統(tǒng)流程設(shè)計

科技政策庫系統(tǒng)通過網(wǎng)絡(luò)爬蟲采集互聯(lián)網(wǎng)上的政策數(shù)據(jù),對紙版歷史文獻(xiàn)進(jìn)行OCR 識別;這兩類原始數(shù)據(jù)在采集之后被寫入消息隊列;數(shù)據(jù)清洗子系統(tǒng)作為消息隊列消費(fèi)者,對原始數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗,并將有效數(shù)據(jù)寫入文獻(xiàn)存儲子系統(tǒng);數(shù)據(jù)分析子系統(tǒng)則對文獻(xiàn)存儲子系統(tǒng)內(nèi)的文獻(xiàn)進(jìn)行全文索引、文本分類、關(guān)聯(lián)分析,并向管理員和研究人員提供文獻(xiàn)檢索、查閱、下載、統(tǒng)計分析接口.系統(tǒng)的具體流程見圖1.

(1) 數(shù)據(jù)采集子系統(tǒng)包括網(wǎng)絡(luò)爬蟲、增量爬取調(diào)度器、數(shù)據(jù)屬性識別、爬蟲配置、爬蟲異常管理等組件.對225 個國內(nèi)外站點(diǎn)按照網(wǎng)站結(jié)構(gòu)、安全策略等特點(diǎn)進(jìn)行分類,基于Scrapy 爬蟲框架設(shè)計一系列爬蟲,每個爬蟲負(fù)責(zé)一類站點(diǎn)的數(shù)據(jù)采集.

(2) OCR 子系統(tǒng)基于ABBYY FineReader 軟件實(shí)現(xiàn)歷史文獻(xiàn)的電子化,并進(jìn)一步提取電子文獻(xiàn)的結(jié)構(gòu)化數(shù)據(jù),批量導(dǎo)入消息隊列.

(3) 采用Redis 軟件實(shí)現(xiàn)消息隊列.本系統(tǒng)采集的文獻(xiàn)可以分為核心政策、領(lǐng)導(dǎo)講話、政策解讀、科技政策相關(guān)新聞、科技政策研究論文、科技政策研究項目等10 類.不同類型文獻(xiàn)的數(shù)據(jù)屬性存在較大差異,通常來自同一站點(diǎn)欄目或者搜索結(jié)果列表的文獻(xiàn)結(jié)構(gòu)化信息類似.因此,基于文獻(xiàn)來源在消息隊列中劃分消息主題,同一消息主題下的文獻(xiàn)具有相同的數(shù)據(jù)結(jié)構(gòu).

(4) 數(shù)據(jù)清洗子系統(tǒng)包括數(shù)據(jù)去重、非相關(guān)數(shù)據(jù)清洗、數(shù)據(jù)屬性缺陷處理等組件,清除原始數(shù)據(jù)中的臟數(shù)據(jù).

(5) 文獻(xiàn)存儲子系統(tǒng)包括:Mysql 數(shù)據(jù)庫,存儲文獻(xiàn)的數(shù)據(jù)屬性信息;文件系統(tǒng),存儲原始html、txt、pdf、doc 等各種格式的政策文本;Solr,存儲文本和部分結(jié)構(gòu)化信息,實(shí)現(xiàn)全文索引.

圖1 系統(tǒng)流程示意圖

(6) 數(shù)據(jù)分析子系統(tǒng)包括文本分類,文本關(guān)聯(lián)關(guān)系分析,文獻(xiàn)檢索、查閱、下載,文獻(xiàn)統(tǒng)計分析等組件.

(7) 系統(tǒng)包括管理員和研究人員兩類用戶,管理員具有爬蟲配置、異常處理、文獻(xiàn)增刪改查等系統(tǒng)管理權(quán)限,研究人員則可以從系統(tǒng)檢索、查閱、下載文獻(xiàn),進(jìn)行文獻(xiàn)的統(tǒng)計分析和結(jié)果可視化查看.

2 系統(tǒng)組成

2.1 數(shù)據(jù)采集子系統(tǒng)

科技政策庫系統(tǒng)的采集源共225 個站點(diǎn),其中中央政府和部委站點(diǎn)80 個,地方政府站點(diǎn)50 個,第三方門戶和垂直資訊站點(diǎn)9 個,政策研究機(jī)構(gòu)站點(diǎn)13 個,美國政府站點(diǎn)18 個,印度政府站點(diǎn)48 個,芬蘭政府站點(diǎn)7 個.

由于源站點(diǎn)范圍廣、種類多,數(shù)據(jù)采集子系統(tǒng)的設(shè)計面臨諸多挑戰(zhàn).首先,這些網(wǎng)站的結(jié)構(gòu)差異明顯,部分站點(diǎn)科技政策相關(guān)的數(shù)據(jù)集中在某個欄目,其他站點(diǎn)則需要通過檢索接口查詢獲??;各站點(diǎn)的政策列表頁面翻頁機(jī)制不盡相同;部分站點(diǎn)的內(nèi)容由Javascript代碼動態(tài)生成.其次,各站點(diǎn)的政策列表和政策詳情網(wǎng)頁結(jié)構(gòu)差異較大,無法開發(fā)一致的數(shù)據(jù)屬性識別策略.最后,各站點(diǎn)的數(shù)據(jù)保護(hù)策略不盡相同,常見的策略包括監(jiān)控訪問頻度、賬號認(rèn)證、動態(tài)URL (Uniform Resource Locator)等.

2.1.1 基于Scrapy 框架的爬蟲設(shè)計

本文基于Scrapy 框架和Splash 實(shí)現(xiàn)網(wǎng)絡(luò)爬蟲.Scrapy 是Python 開發(fā)的一個快速Web 抓取框架,用于抓取web 站點(diǎn)并從頁面中提取結(jié)構(gòu)化的數(shù)據(jù).Scrapy是目前廣泛應(yīng)用的爬蟲框架,非常適合特定站點(diǎn)和欄目的定向爬取.Splash 是一個實(shí)現(xiàn)了HTTP API 的輕量級瀏覽器,支持Javascript 渲染.Scrapy 框架通過Scrapy-Splash 模塊引入Splash 軟件,彌補(bǔ)了Scrapy 無法抓取網(wǎng)頁動態(tài)內(nèi)容的缺陷.

根據(jù)網(wǎng)站結(jié)構(gòu)和網(wǎng)頁結(jié)構(gòu)對源站點(diǎn)進(jìn)行分組,比如大部分部委的網(wǎng)站結(jié)構(gòu)相似,可以分成一個組.針對每組站點(diǎn)設(shè)計單獨(dú)的爬蟲,實(shí)現(xiàn)站點(diǎn)數(shù)據(jù)的爬取和結(jié)構(gòu)化信息提取.

2.1.2 基于XPath 的數(shù)據(jù)屬性識別

本文基于XPath 實(shí)現(xiàn)網(wǎng)頁的數(shù)據(jù)屬性識別.XPath使用路徑表達(dá)式來選取 XML 文檔中的節(jié)點(diǎn)或者節(jié)點(diǎn)集,由于HTML 和XML 結(jié)構(gòu)基本一致,因此XPath 非常適合從網(wǎng)頁中提取結(jié)構(gòu)化信息.例如XPath 表達(dá)式"http://*[@id='article_author']/text()"在網(wǎng)頁中查找所"article_author"標(biāo)簽,提取列表中各篇文章的作者姓名.

2.1.3 反爬設(shè)計

為了應(yīng)對各站點(diǎn)的數(shù)據(jù)保護(hù)措施,本文采取了3 種反爬方法.首先,在爬蟲工作時,設(shè)置了最小訪問時間間隔,并動態(tài)調(diào)整頁面請求時間間隔.第二種方法是采用動態(tài)UserAgent,部分站點(diǎn)會根據(jù)UserAgent判斷用戶的訪問是否合理,為了避免誤判,使用Python 的fake_useragent 插件動態(tài)模擬UserAgent.第三種反爬方法是動態(tài)代理IP,部分站點(diǎn)會對頻繁訪問的IP 暫時或永久的禁止,針對這些站點(diǎn)爬蟲維護(hù)一個可用的代理IP 庫,每次請求隨機(jī)從該庫中選擇一個IP 訪問.

2.1.4 爬蟲配置和管理

網(wǎng)絡(luò)爬蟲必須適應(yīng)網(wǎng)站改版、站點(diǎn)安全策略的變化,因此本文支持對爬蟲的行為進(jìn)行配置,包括初始URL、搜索關(guān)鍵字、最大失敗重試次數(shù)、結(jié)構(gòu)化信息的XPath 表達(dá)式配置等.

對于爬蟲采集數(shù)據(jù)中發(fā)生的各種錯誤,例如404、502、Timeout 等錯誤,系統(tǒng)進(jìn)行記錄、報警,并提供了錯誤查詢接口.

為了實(shí)現(xiàn)科技政策數(shù)據(jù)的增量更新,實(shí)現(xiàn)了爬蟲調(diào)度器,定期啟動爬蟲對源站點(diǎn)進(jìn)行新的數(shù)據(jù)采集操作.為了多次采集造成數(shù)據(jù)重復(fù),將曾經(jīng)爬取的網(wǎng)頁URL 保存在Redis 中,每次采集時進(jìn)行比對過濾.

2.2 數(shù)據(jù)清洗子系統(tǒng)

數(shù)據(jù)采集子系統(tǒng)從互聯(lián)網(wǎng)上收集的原始數(shù)據(jù)質(zhì)量無法保證,首先,雖然數(shù)據(jù)采集子系統(tǒng)避免了相同URL 網(wǎng)頁的重復(fù)采集,但是很多文獻(xiàn)在不同站點(diǎn)反復(fù)出現(xiàn),導(dǎo)致了原始數(shù)據(jù)集存在大量數(shù)據(jù)重復(fù).第二,由于大部分站點(diǎn)的數(shù)據(jù)是通過其檢索接口采集的,因此爬蟲程序采集了大量與科技政策無關(guān)的數(shù)據(jù).第三,部分?jǐn)?shù)據(jù)存在關(guān)鍵屬性缺失、屬性錯誤、屬性值格式不統(tǒng)一等缺陷.原始數(shù)據(jù)中夾雜的臟數(shù)據(jù)會誤導(dǎo)科技政策的研究,因此必須予以清除.

2.2.1 基于Simhash 的數(shù)據(jù)去重

Simhash 是一種LSH 算法(Locality-Sensitive Hashing,局部敏感哈希)[11],是目前最好的海量文本去重算法.Simhash 算法對文本經(jīng)過分詞、散列、加權(quán)、合并、降維等一系列計算,最終為文本生成64-bit 的信息指紋.判斷兩個文本相似度的方法是對其Simhash值進(jìn)行異或操作:

其中,hammingDist為計算兩個整數(shù)海明距離的函數(shù),即為兩個整數(shù)二進(jìn)制編碼中不同的位數(shù),K是最大容忍的不同位數(shù),取值3.

本文采用Jieba 分詞軟件對文本進(jìn)行分詞,基于詞表去除停用詞,采用TF-IDF(Term Frequency-Inverse Document Frequency)[12]算法進(jìn)行權(quán)重計算并降維,將文本表示為特征向量;之后為每篇文獻(xiàn)進(jìn)行Simhash 計算;最后逐篇文本進(jìn)行Simhash 計算,比較去重.

為了降低計算次數(shù),將文本的64 位Simhash 值均分為4 份,并建立16 bit 索引進(jìn)行存儲.分析可知,這種方案的存儲開銷變?yōu)樵瓉淼? 倍,但是單個文本的相似度計算次數(shù)降為:4×4n/216,其中n為文獻(xiàn)總量.常規(guī)的兩兩比較計算次數(shù)整體為:n×(n-1)/2,因此整體計算次數(shù)約降為原來的1/213.

2.2.2 基于機(jī)器學(xué)習(xí)的非相關(guān)數(shù)據(jù)清洗

本文采用邏輯回歸算法[13]將爬蟲采集的原始數(shù)據(jù)分為科技政策相關(guān)、非科技政策相關(guān)兩類,從而實(shí)現(xiàn)對非相關(guān)數(shù)據(jù)的清洗.邏輯回歸模型作為廣義線性模型類別,屬于概率性回歸,主要用來推斷兩分類或者多分類應(yīng)變量與多維解釋變量的關(guān)系.使用邏輯回歸算法進(jìn)行科技政策文本分類的流程:

(1) 構(gòu)建訓(xùn)練集.從爬蟲采集的原始數(shù)據(jù)中選擇1000 篇科技政策相關(guān)的數(shù)據(jù),政策類型覆蓋核心政策、政策解讀、政策研究等各種類型;并選擇1000 篇非科技政策相關(guān)的數(shù)據(jù).

(2) 文本預(yù)處理.對訓(xùn)練集文本使用Jieba 分詞軟件分詞,根據(jù)詞表去除停用詞.

(3) 特征提取.使用TF-IDF 算法構(gòu)建文本的特征向量,并降維.

(4) 訓(xùn)練模型.從2000 篇標(biāo)注的文本中隨機(jī)選擇1000 篇進(jìn)行模型訓(xùn)練,并利用其他1000 篇驗(yàn)證模型分類概率.不斷調(diào)整梯度下降等算法參數(shù),以達(dá)到理想的分類效果.

(5) 使用訓(xùn)練好的模型對爬蟲采集的數(shù)據(jù)進(jìn)行分類,并清除非科技政策相關(guān)數(shù)據(jù).

2.2.3 數(shù)據(jù)屬性缺陷處理對爬蟲提取的結(jié)構(gòu)化信息進(jìn)行分析,常見的屬性缺陷可以分成四類:第一類缺陷是數(shù)據(jù)屬性值缺失,例如文獻(xiàn)沒有標(biāo)題;第二類缺陷是數(shù)據(jù)屬性錯誤,例如日期屬性的值為一段描述文字;第三類缺陷是多個屬性之間違反完整性約束,例如政策的發(fā)布日期、生效日期、失效日期違反了先后順序;第四類缺陷是不同文獻(xiàn)的統(tǒng)一屬性格式不統(tǒng)一,例如日期格式五花八門,對后續(xù)的統(tǒng)計分析造成障礙.

本文采取基于規(guī)則的方法結(jié)合人工參與,來識別和校正數(shù)據(jù)屬性錯誤.對于前三類類缺陷,系統(tǒng)定義一系列規(guī)則去識別缺陷;如果標(biāo)題和正文等關(guān)鍵信息缺失或者錯誤,則丟棄改文獻(xiàn);如果非關(guān)鍵屬性缺失,則依賴人工補(bǔ)充.對于第四類缺陷,系統(tǒng)采用正則表達(dá)式實(shí)現(xiàn)數(shù)據(jù)屬性的規(guī)格化,首先針對每個數(shù)據(jù)屬性,枚舉所有格式的正則表達(dá)式,例如日期格式的[0-9]{4}[-./年][0-9]{2}[-./月][0-9]{2}或者[0-9]{2}[/][0-9]{2}[/][0-9]{4}等;然后針對每個文獻(xiàn)的屬性值,與這些正則表達(dá)式進(jìn)行模式匹配;不同的格式采用不同的轉(zhuǎn)換方式,最終全部轉(zhuǎn)換為標(biāo)準(zhǔn)格式.

系統(tǒng)對于數(shù)據(jù)屬性錯誤標(biāo)識、審閱修正保留了記錄,方便后續(xù)對這些操作進(jìn)行跟蹤評估.

2.3 數(shù)據(jù)分析子系統(tǒng)

2.3.1 基于規(guī)則的政策分類

科技政策研究需要對文獻(xiàn)進(jìn)行多種維度的分類:按照國別和地區(qū)分類;按照政策性質(zhì)分成核心政策、政策解讀、領(lǐng)導(dǎo)講話、政策研究論文、政策法案、政策研究課題等類別;按照政策手段可以分成財稅政策、人才政策等類別;按照政策層次可以分成中長期規(guī)劃、具體政策等類別.

系統(tǒng)依據(jù)數(shù)據(jù)來源和文本特點(diǎn)實(shí)現(xiàn)了國別和地區(qū)、政策性質(zhì)的分類.政策的采集來源可以作為重要的分類依據(jù),例如不同國家、不同地方政府發(fā)布的政策采集來源是非常明確的;政策研究課題信息則來源于政策研究機(jī)構(gòu);政策研究論文則來自于科研論文數(shù)據(jù)庫等.

另外核心政策具有很多明確的特點(diǎn):發(fā)文機(jī)構(gòu)有確定的范圍,政策具有發(fā)文字號,標(biāo)題中一般包含決議、決定、命令(令)、公報、公告、通告、意見、通知、通報、報告、請示、批復(fù)、議案、函、紀(jì)要等字眼.

2.3.2 基于Apriori 算法的關(guān)聯(lián)分析

科技政策之間存在替代、合并、規(guī)劃與落實(shí)等許多關(guān)聯(lián)關(guān)系,如果能夠發(fā)現(xiàn)這些關(guān)聯(lián)關(guān)系,并在用戶瀏覽政策時以推薦、可視化圖譜的形式進(jìn)行展示,對科技政策研究具有重要意義.Apriori 算法[14,15],是最有影響的挖掘布爾關(guān)聯(lián)規(guī)則頻繁項集的算法,其核心是基于兩階段頻集思想的遞推算法.本文基于Apriori 算法,以政策文本中所包含的關(guān)鍵詞作為政策的特征描述,并結(jié)合政策發(fā)布的時效性特點(diǎn),計算政策之間的關(guān)聯(lián)關(guān)系.具體的分析流程:

(1) 所有政策數(shù)據(jù)集合為D(Data),通過預(yù)設(shè)以及關(guān)鍵詞提取得到的關(guān)鍵詞庫集合為K(Keyword),單個政策文本數(shù)據(jù)為P(Policy),三者可以抽象表示為:

(2) 定義一個政策特征變量S,可表示為一組關(guān)鍵詞的集合S={K1,K2,…,Ks},需要注意S與P的區(qū)別:P是某個政策文本中提取出的關(guān)鍵詞的集合,而S是所有關(guān)鍵詞組成的集合.如果S?P,則說明政策P包含政策特征S,政策與政策特征的包含關(guān)系表明S中的各關(guān)鍵詞是相互關(guān)聯(lián)的.

(3) 政策數(shù)據(jù)集合D中包含特征S的政策文本數(shù)據(jù)P的數(shù)量為該特征政策的支持?jǐn)?shù)σs,則該政策特征的支持度support(S)為:

其中,D為所有政策數(shù)據(jù)的數(shù)量,若support(S)小于系統(tǒng)規(guī)定的最小支持度,則S為不頻繁政策特征集;若S大于等于最小支持度,則S為頻繁特征集.在本系統(tǒng)中,除了統(tǒng)計計算得到的頻繁特征集外,還可以預(yù)設(shè)頻繁特征集.

(4) 若有兩個互不包含的政策特征SA,SB,SA?SB記為特征關(guān)聯(lián)關(guān)系,這個關(guān)聯(lián)關(guān)系的可信度為在D 中包含了政策特征SA的政策文本同時又包含了政策特征SB的數(shù)量百分比,特征關(guān)聯(lián)可信度confidence(SA?SB)為:

如果confidence(SA?SB)小于系統(tǒng)規(guī)定的最小可信度,則它們?yōu)槿蹶P(guān)聯(lián)關(guān)系,否則為強(qiáng)關(guān)聯(lián)關(guān)系.

系統(tǒng)在得到頻繁特征集集合和強(qiáng)可信關(guān)聯(lián)關(guān)系集合后,根據(jù)每個集合中的政策文本的發(fā)文時間以及發(fā)布機(jī)構(gòu)字段來確定同一集合內(nèi)的政策間的追溯關(guān)系.

2.3.3 統(tǒng)計分析

系統(tǒng)在數(shù)據(jù)采集和數(shù)據(jù)清洗的基礎(chǔ)上實(shí)現(xiàn)了初步的統(tǒng)計分析功能.系統(tǒng)支持統(tǒng)計每個省、每年發(fā)布的科技政策數(shù)量,以此為基礎(chǔ)支持從時域、地域兩個維度進(jìn)行統(tǒng)計分析.支持分析指定區(qū)域發(fā)布科技政策數(shù)量隨時間的變化趨勢;支持分析在一定時間范圍內(nèi),各地區(qū)發(fā)布的科技政策總量的對比.

3 成果應(yīng)用

從2018年10月在中國科協(xié)正式上線應(yīng)用以來,科技政策庫系統(tǒng)對225 個互聯(lián)網(wǎng)站點(diǎn)進(jìn)行了數(shù)據(jù)采集;并實(shí)現(xiàn)了一套圖書的OCR 識別入庫,即《中共中央文件選集:1949年10月-1966年5月(全五十冊)》;共計獲取564 749 條科技政策相關(guān)的原始數(shù)據(jù);經(jīng)過數(shù)據(jù)清洗,有效入庫數(shù)據(jù)404 083 條.

3.1 數(shù)據(jù)清洗統(tǒng)計

通過基于Simhash 算法的去重清洗了重復(fù)數(shù)據(jù)62 336 條,通過基于邏輯回歸分類方法清洗了非科技政策相關(guān)數(shù)據(jù)94 706 條,清洗標(biāo)題和文本等關(guān)鍵屬性缺失的數(shù)據(jù)3624 條.經(jīng)過數(shù)據(jù)清洗之后,有效入庫數(shù)據(jù)404 083 條.

為了驗(yàn)證數(shù)據(jù)清洗的效果,本文從有效入庫的文獻(xiàn)中隨機(jī)抽取1000 篇文獻(xiàn),進(jìn)行人工的重復(fù)、非相關(guān)文獻(xiàn)統(tǒng)計.經(jīng)過10 次試驗(yàn)求平均值,可知數(shù)據(jù)清洗之后,數(shù)據(jù)重復(fù)率約為0.07%,非相關(guān)文獻(xiàn)數(shù)量比率約為0.6%.

表1 科技政策庫數(shù)據(jù)清洗效果

3.2 有效入庫統(tǒng)計

對于有效入庫的404 083 條數(shù)據(jù)按照國別和政策性質(zhì)兩個維度進(jìn)行了統(tǒng)計,結(jié)果見表2和表3.表3中的177 423 篇核心政策中,包括中共中央文件選集4248 篇,美國科技政策法案8157 篇.相關(guān)數(shù)據(jù)包括科技政策相關(guān)的領(lǐng)導(dǎo)講話、科技政策解讀、科技政策新聞等相關(guān)文獻(xiàn).

表2 有效入庫數(shù)據(jù)按國別分類統(tǒng)計

表3 有效入庫數(shù)據(jù)按政策性質(zhì)統(tǒng)計

3.3 關(guān)鍵UI 頁面

系統(tǒng)基于Spring Boot 和Javascript、Vue(一種JavaScrip 前端開發(fā)框架)等技術(shù)實(shí)現(xiàn)了B/S 架構(gòu)的管理功能和UI,圖2-圖4展示了科技政策庫系統(tǒng)的部分界面.

圖2 政策檢索結(jié)果列表

圖3 政策在線閱讀

圖4 政策發(fā)布趨勢分析

圖5 政策發(fā)布地區(qū)對比

4 結(jié)論與展望

科技政策庫系統(tǒng)基于Scrapy 框架針對大量異構(gòu)站點(diǎn)設(shè)計了可管理的網(wǎng)絡(luò)爬蟲,基于機(jī)器學(xué)習(xí)算法實(shí)現(xiàn)了數(shù)據(jù)去重、非相關(guān)數(shù)據(jù)識別、數(shù)據(jù)屬性缺陷識別等數(shù)據(jù)清洗功能,對有效入庫的科技政策進(jìn)一步進(jìn)行了文本分類、關(guān)聯(lián)關(guān)系分析,系統(tǒng)基于B/S 架構(gòu)向用戶提供了政策檢索、在線閱讀、統(tǒng)計分析等功能.系統(tǒng)上線之后總計采集科技政策相關(guān)數(shù)據(jù)564 749 條,數(shù)據(jù)清洗之后有效入庫404 083 條數(shù)據(jù),為科技政策研究工作提供了堅實(shí)的基礎(chǔ).下一步需要從國內(nèi)外、歷史文件等方面擴(kuò)大數(shù)據(jù)采集范圍,引入眾包等最新方法進(jìn)一步提升數(shù)據(jù)清洗能力,從自定義分析、數(shù)據(jù)可視化等方面豐富系統(tǒng)的統(tǒng)計分析手段,以便更好地為科技政策研究提供支持.

猜你喜歡
文本科技系統(tǒng)
Smartflower POP 一體式光伏系統(tǒng)
WJ-700無人機(jī)系統(tǒng)
ZC系列無人機(jī)遙感系統(tǒng)
北京測繪(2020年12期)2020-12-29 01:33:58
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
科技助我來看云
連通與提升系統(tǒng)的最后一塊拼圖 Audiolab 傲立 M-DAC mini
科技在線
科技在線
科技在線
主站蜘蛛池模板: 亚洲国产综合自在线另类| 韩日午夜在线资源一区二区| 五月婷婷导航| 久久综合成人| 免费看a毛片| 日韩精品专区免费无码aⅴ| 99精品伊人久久久大香线蕉| 亚洲人成网站色7799在线播放| 精品91在线| 国产乱肥老妇精品视频| AV无码无在线观看免费| 亚洲色欲色欲www网| 99久久性生片| 91色在线视频| 中文无码精品A∨在线观看不卡 | 婷婷成人综合| 国产鲁鲁视频在线观看| 国产精品欧美日本韩免费一区二区三区不卡| 精品国产中文一级毛片在线看 | 中文字幕日韩丝袜一区| 国产成人夜色91| 欧美成人日韩| 亚洲Av激情网五月天| 亚洲欧美日韩视频一区| 免费看美女毛片| 久久精品这里只有国产中文精品 | 亚洲天堂视频网| 中文字幕伦视频| 一级全免费视频播放| 97免费在线观看视频| 九九久久99精品| 波多野结衣中文字幕一区二区| 亚洲成人在线免费观看| 日韩毛片视频| 一级成人欧美一区在线观看| 在线日韩一区二区| 99久久精品免费看国产免费软件| 色婷婷在线影院| 四虎AV麻豆| 91无码视频在线观看| 欧美黄网在线| 天堂成人在线| 亚洲精品视频网| 日韩午夜片| 亚洲综合婷婷激情| 黄色福利在线| 久久黄色小视频| 国产精品视频a| 亚洲国产天堂久久综合| 亚洲 成人国产| 国产欧美又粗又猛又爽老| 国产欧美日韩在线一区| 国产日韩久久久久无码精品| 亚洲欧洲综合| 亚洲欧美日韩中文字幕在线一区| 一级黄色片网| 久久99国产综合精品女同| 天天做天天爱夜夜爽毛片毛片| 1024国产在线| 国产精品第| 日本在线免费网站| 午夜啪啪网| 国产91麻豆免费观看| 国产在线拍偷自揄拍精品| 午夜精品一区二区蜜桃| 成年女人a毛片免费视频| 一本二本三本不卡无码| 毛片免费高清免费| 亚洲第一精品福利| 色偷偷一区| 亚洲无码熟妇人妻AV在线| 亚洲VA中文字幕| 91亚洲免费| 丝袜久久剧情精品国产| 在线观看视频99| 亚洲国产综合自在线另类| 亚洲视频一区在线| 中文字幕自拍偷拍| 99热免费在线| 亚洲福利视频一区二区| 亚洲欧美成人网| 国产精品露脸视频|