


摘" "要:[研究目的]科技智庫統(tǒng)計理論可以理解為在科技智庫場景中,將互聯(lián)網(wǎng)技術(shù)注入傳統(tǒng)統(tǒng)計學(xué)理論體系所發(fā)展形成的現(xiàn)代統(tǒng)計科學(xué)的重要分支。給服務(wù)科學(xué)決策咨詢提供方法與工具,系統(tǒng)梳理科技智庫統(tǒng)計理論,可以為該理論在真實數(shù)據(jù)、業(yè)務(wù)工作和結(jié)論導(dǎo)向中發(fā)揮重要功能提供參考與借鑒。[研究方法]從理論基礎(chǔ)與實踐以及理論傳播角度,通過文獻(xiàn)綜述、Python可視化編程等方法對科技智庫統(tǒng)計理論進(jìn)行分析和解讀。[研究結(jié)論]數(shù)據(jù)科學(xué)時代,大數(shù)據(jù)成為國家重要的基礎(chǔ)性戰(zhàn)略資源。科技智庫統(tǒng)計理論通過互聯(lián)網(wǎng)技術(shù)的蓬勃發(fā)展以及統(tǒng)計學(xué)與其他學(xué)科領(lǐng)域的交叉融合,將在真實數(shù)據(jù)、業(yè)務(wù)工作和結(jié)論導(dǎo)向這三個維度發(fā)揮重要功能。
關(guān)鍵詞:科技智庫;互聯(lián)網(wǎng)統(tǒng)計;指標(biāo)關(guān)系;變系數(shù)結(jié)構(gòu)方程模型;分位數(shù);可視化
中圖分類號:O213 文獻(xiàn)標(biāo)識碼:A DOI:10.19881/j.cnki.1006-3676.2024.12.06
隨著大數(shù)據(jù)時代到來,人們的生產(chǎn)生活方式、社會組織和社會關(guān)系均發(fā)生了翻天覆地的變化。互聯(lián)網(wǎng)+、大數(shù)據(jù)、云服務(wù)、人工智能等數(shù)字技術(shù)的創(chuàng)新與應(yīng)用,使得數(shù)據(jù)的生成、獲取、儲存、共享乃至處理技術(shù)得到前所未有的發(fā)展和推廣[1]。世界各國及國際組織推出了大數(shù)據(jù)發(fā)展戰(zhàn)略:美國于2012年發(fā)布《大數(shù)據(jù)研究與發(fā)展倡議》,2016年發(fā)布《聯(lián)邦大數(shù)據(jù)研究與開發(fā)戰(zhàn)略計劃》,不斷加強(qiáng)大數(shù)據(jù)的研發(fā)和應(yīng)用發(fā)展布局;歐盟于2014年推出《數(shù)據(jù)驅(qū)動經(jīng)濟(jì)》戰(zhàn)略,倡導(dǎo)成員國盡早實施大數(shù)據(jù)戰(zhàn)略;日本也出臺了推動大數(shù)據(jù)研發(fā)和應(yīng)用的政策。在我國,黨的十八屆五中全會明確提出要實施“國家大數(shù)據(jù)戰(zhàn)略”,國務(wù)院于2015年8月印發(fā)《促進(jìn)大數(shù)據(jù)發(fā)展行動綱要》,全面推進(jìn)大數(shù)據(jù)的發(fā)展與應(yīng)用。這一文件的出臺,意味著大數(shù)據(jù)發(fā)展正式成為國家戰(zhàn)略。2019年11月,《中共中央關(guān)于堅持和完善中國特色社會主義制度、推進(jìn)國家治理體系和治理能力現(xiàn)代化若干重大問題的決定》將“數(shù)據(jù)”納入生產(chǎn)要素,進(jìn)一步奠定了數(shù)據(jù)作為生產(chǎn)資源的重要地位[2]。
作為戰(zhàn)略上必爭的資源,大數(shù)據(jù)正逐漸成為當(dāng)代社會各行業(yè)、各領(lǐng)域?qū)崿F(xiàn)自身高質(zhì)量發(fā)展的重要元素,其蘊(yùn)含的巨大潛在價值,也引起了政府部門、科技界、產(chǎn)業(yè)界的高度重視。如何讓作為科技領(lǐng)域決策專業(yè)機(jī)構(gòu)的科技智庫在數(shù)據(jù)時代更好地發(fā)揮作用,需要從方法工具研制、方法論研究以及數(shù)據(jù)長期積累三個方面開展扎實工作。作為收集、處理、分析、解釋數(shù)據(jù)并從數(shù)據(jù)中得出結(jié)論的科學(xué),統(tǒng)計學(xué)是為數(shù)據(jù)統(tǒng)計描述和統(tǒng)計推斷提供科學(xué)的方法工具[3]。在統(tǒng)計學(xué)基礎(chǔ)上發(fā)展起來的互聯(lián)網(wǎng)統(tǒng)計學(xué),利用互聯(lián)網(wǎng)思想支撐科技智庫統(tǒng)計理論方法,成為實現(xiàn)全球互聯(lián)、互通、互動一體化量化的根本手段[4]。
一、科技智庫統(tǒng)計理論基礎(chǔ)
科技智庫統(tǒng)計理論可以理解為在科技智庫場景中,將互聯(lián)網(wǎng)技術(shù)注入傳統(tǒng)統(tǒng)計學(xué)理論體系所發(fā)展形成的現(xiàn)代統(tǒng)計科學(xué)的重要分支。在數(shù)據(jù)資源日益膨脹和互聯(lián)網(wǎng)技術(shù)蓬勃發(fā)展的時代,在科技智庫統(tǒng)計理論基礎(chǔ)中首先要考慮的是互聯(lián)網(wǎng)統(tǒng)計理論,其次便是統(tǒng)計對互聯(lián)網(wǎng)技術(shù)的具體要求。
(一)科技智庫互聯(lián)網(wǎng)統(tǒng)計理論體系
傳統(tǒng)統(tǒng)計學(xué)包括描述統(tǒng)計和推斷統(tǒng)計兩個部分。描述統(tǒng)計包括數(shù)據(jù)收集、數(shù)據(jù)處理、數(shù)據(jù)匯總、圖表描述、概括與分析等內(nèi)容。推斷統(tǒng)計是指通過有限數(shù)據(jù)來推斷總體特征和規(guī)律。總體特征和規(guī)律需要用表達(dá)統(tǒng)計關(guān)系的模型加以刻畫,能夠?qū)@種關(guān)系明確量化的就是模型中的參數(shù)。因此,推斷統(tǒng)計需要解決的問題,一是通過有限數(shù)據(jù)估計未知參數(shù),二是證明參數(shù)估計結(jié)果及統(tǒng)計結(jié)論的正確性[4]。
科技智庫互聯(lián)網(wǎng)統(tǒng)計理論在傳統(tǒng)統(tǒng)計學(xué)理論體系的基礎(chǔ)上注入了互聯(lián)網(wǎng)技術(shù)的強(qiáng)大活力,逐漸形成多學(xué)科融會貫通的現(xiàn)代統(tǒng)計科學(xué),為科技智庫服務(wù)科技領(lǐng)域決策提供了更大價值。科技智庫互聯(lián)網(wǎng)統(tǒng)計理論體系同樣包括科技智庫互聯(lián)網(wǎng)描述統(tǒng)計和科技智庫互聯(lián)網(wǎng)推斷統(tǒng)計。確切地說,科技智庫互聯(lián)網(wǎng)統(tǒng)計理論是決策咨詢服務(wù)過程中的描述統(tǒng)計和推斷統(tǒng)計的共存并舉和融合交匯。在互聯(lián)網(wǎng)技術(shù)的支持下,科技智庫互聯(lián)網(wǎng)理論更有機(jī)、更完整地實現(xiàn)了科技智庫互聯(lián)網(wǎng)描述統(tǒng)計和科技智庫互聯(lián)網(wǎng)推斷統(tǒng)計兩部分內(nèi)容的密切配合。
科技智庫互聯(lián)網(wǎng)統(tǒng)計理論體系不僅包括描述統(tǒng)計和推斷統(tǒng)計,還包括互聯(lián)網(wǎng)技術(shù)支持下的方法和算法,這部分內(nèi)容與數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)、大數(shù)據(jù)分析、人工智能、云計算等諸多領(lǐng)域交叉和重疊。從理論方法的角度來看,科技智庫互聯(lián)網(wǎng)統(tǒng)計理論不僅包括概率論與數(shù)理統(tǒng)計的隨機(jī)性統(tǒng)計對象的理論方法,還包括確定性統(tǒng)計對象的理論方法,以及二者相結(jié)合的理論方法研究和面向互聯(lián)網(wǎng)的數(shù)字孿生的復(fù)雜統(tǒng)計系統(tǒng)等理論方法。
(二)科技智庫互聯(lián)網(wǎng)統(tǒng)計技術(shù)要求
科技智庫互聯(lián)網(wǎng)統(tǒng)計理論是在互聯(lián)網(wǎng)技術(shù)基礎(chǔ)上形成的現(xiàn)代統(tǒng)計科學(xué)分支。顯然,科技智庫互聯(lián)網(wǎng)統(tǒng)計理論離不開互聯(lián)網(wǎng)技術(shù)的支持。在統(tǒng)計學(xué)領(lǐng)域,互聯(lián)網(wǎng)技術(shù)是指在計算機(jī)科學(xué)基礎(chǔ)上開發(fā)和建立的,用于收集、處理、分析、解釋數(shù)據(jù)并從數(shù)據(jù)中得出結(jié)論的一種信息技術(shù)。具體來說,互聯(lián)網(wǎng)技術(shù)可以從數(shù)字化技術(shù)、智能化技術(shù)和可視化技術(shù)這三個方面加以理解。
一是科技智庫互聯(lián)網(wǎng)統(tǒng)計理論中的數(shù)字化技術(shù)。數(shù)字化技術(shù)是指利用互聯(lián)網(wǎng)技術(shù),將生產(chǎn)、生活等社會活動中的信息轉(zhuǎn)換為數(shù)字格式,從而形成全新生產(chǎn)方式和社會組織機(jī)制。按照中文通識概念,數(shù)字化就是將互聯(lián)網(wǎng)技術(shù)獲取的數(shù)據(jù)信息進(jìn)行全面量化,而全面量化就是全面統(tǒng)計。基于數(shù)字化技術(shù)的全面量化有助于增強(qiáng)對概念和事物關(guān)系的理解,有助于運用數(shù)理邏輯進(jìn)行統(tǒng)計,準(zhǔn)確歸納統(tǒng)計分布和統(tǒng)計預(yù)測的客觀規(guī)律。
二是科技智庫互聯(lián)網(wǎng)統(tǒng)計理論中的智能化技術(shù)。科技智庫互聯(lián)網(wǎng)統(tǒng)計理論發(fā)展的基本特征是建立了全社會量化解析的生態(tài)體系,這是人工智能的應(yīng)用基礎(chǔ)。人工智能離不開計算機(jī)技術(shù),但不等同于計算機(jī)技術(shù)。人工智能是通過自學(xué)積累人類知識體系的進(jìn)化與優(yōu)化,并通過計算機(jī)技術(shù)實現(xiàn)全面量化與統(tǒng)計分析。科技智庫互聯(lián)網(wǎng)統(tǒng)計理論中的智能化技術(shù)實際上就是通過計算機(jī)學(xué)習(xí)數(shù)據(jù)信息的規(guī)律和路徑模式,在思維和操作層面實現(xiàn)“人工智能”,自動化、智能化地收集、處理、分析、解釋數(shù)據(jù)并從數(shù)據(jù)中得出重要結(jié)論。
三是科技智庫互聯(lián)網(wǎng)統(tǒng)計理論中的可視化技術(shù)。科技智庫互聯(lián)網(wǎng)統(tǒng)計理論中的可視化技術(shù)可以理解為把數(shù)字置于視覺空間中,更加直觀地展示數(shù)據(jù)中的潛在模式,并從中發(fā)現(xiàn)常規(guī)統(tǒng)計方法很難挖掘到的信息。科技智庫互聯(lián)網(wǎng)統(tǒng)計理論中的可視化技術(shù)不僅包括作表繪圖,還包括根據(jù)分析需求提供直觀化、關(guān)聯(lián)化、藝術(shù)性、可交互的可視化結(jié)果。在互聯(lián)網(wǎng)技術(shù)的支持下,科技智庫互聯(lián)網(wǎng)統(tǒng)計理論中的可視化技術(shù)能夠?qū)崿F(xiàn)潛在信息的深度展示和實時數(shù)據(jù)的動態(tài)描繪。
二、科技智庫統(tǒng)計理論的實踐
科技智庫統(tǒng)計理論實踐往往離不開指標(biāo)研究與分析。在指標(biāo)實踐中,指標(biāo)基本類型的界定、指標(biāo)選擇原則是構(gòu)建科技智庫統(tǒng)計專題研究的重要基礎(chǔ)。伴隨這些指標(biāo)數(shù)據(jù)的積累,指標(biāo)間結(jié)構(gòu)關(guān)系日趨復(fù)雜,這為指標(biāo)間結(jié)構(gòu)關(guān)系的統(tǒng)計測度帶來挑戰(zhàn)。結(jié)構(gòu)關(guān)系的測度本質(zhì)上是對指標(biāo)間結(jié)構(gòu)關(guān)系的估計,面對客觀存在的復(fù)雜結(jié)構(gòu)關(guān)系特點,本文介紹前沿統(tǒng)計賦權(quán)方法,為實現(xiàn)多水平動態(tài)結(jié)構(gòu)關(guān)系的測度提供方法支持和重要參考。
(一)科技智庫研究指標(biāo)基本類型
通常情況下,科技智庫研究涉及諸多指標(biāo),這些指標(biāo)在統(tǒng)計學(xué)上包括數(shù)值型指標(biāo)、文本型指標(biāo)等與數(shù)據(jù)類型相對應(yīng)的不同類型。在具體研究過程中,指標(biāo)數(shù)據(jù)可能是直接來源于一手觀測或者實驗的指標(biāo)數(shù)據(jù),也可能是需要經(jīng)過簡單比重計算的兩個指標(biāo)的合成數(shù)據(jù),還可能是經(jīng)過復(fù)雜指標(biāo)綜合計算的測算型指標(biāo)。下面以新質(zhì)生產(chǎn)力為例,介紹指標(biāo)研究中的三種主要類型。
新質(zhì)生產(chǎn)力是先進(jìn)生產(chǎn)力的具體表現(xiàn)形式,也是馬克思主義生產(chǎn)力理論在中國的創(chuàng)新和實踐過程,在科技創(chuàng)新交叉融合突破進(jìn)程中形成的高科技、高效能、高質(zhì)量的先進(jìn)生產(chǎn)力質(zhì)態(tài)。勞動者、勞動資料、勞動對象及其優(yōu)化組合對于大幅提高高水平現(xiàn)代化生產(chǎn)力起到巨大作用。無論從科學(xué)技術(shù)的革命性突破、生產(chǎn)要素的創(chuàng)新性配置,還是產(chǎn)業(yè)深度轉(zhuǎn)型升級的角度,新質(zhì)生產(chǎn)力都是發(fā)揮主導(dǎo)作用的核心力量[5]。
有專家認(rèn)為,新質(zhì)生產(chǎn)力的評價應(yīng)該以科技創(chuàng)新為核心,強(qiáng)調(diào)整合科技創(chuàng)新能力[6]。馬克思認(rèn)為,現(xiàn)實財富的創(chuàng)造較多地取決于在勞動時間內(nèi)所運用動因的力量,而這種動因本身卻取決于一般的科學(xué)水平和技術(shù)進(jìn)步,或者說取決于科學(xué)在生產(chǎn)上的運用。這在一定程度上印證了發(fā)揮科技創(chuàng)新對于提升生產(chǎn)力的重要性[7]。
目前,關(guān)于新質(zhì)生產(chǎn)力指標(biāo)體系構(gòu)建的方法可劃分為兩類。一是用勞動者、勞動對象和生產(chǎn)資料的生產(chǎn)力三要素構(gòu)建指標(biāo)體系[8]。二是從科技創(chuàng)新、產(chǎn)業(yè)生態(tài)、發(fā)展條件等維度設(shè)計新質(zhì)生產(chǎn)力指標(biāo)體系[6]。無論哪種研究角度,支撐指標(biāo)體系中不同要素或維度的具體指標(biāo)都可歸納為3種類型:直接取值型、比重計算型和統(tǒng)計測算型。具體情況及指標(biāo)列舉如表1所示。
(二)科技智庫研究指標(biāo)選擇原則
科技智庫研究中,指標(biāo)體系構(gòu)建是一類重要的基礎(chǔ)性研究工作。在針對不同國家或地區(qū)進(jìn)行指標(biāo)體系構(gòu)建時,需要先進(jìn)行指標(biāo)選擇基本原則的設(shè)計,內(nèi)容包括:保證盡可能多的國家或地區(qū)具備該指標(biāo)數(shù)據(jù);指標(biāo)數(shù)量盡可能少,所帶信息避免冗余重復(fù);充分考慮現(xiàn)有指標(biāo)體系共有的指標(biāo);考慮全球范圍內(nèi)跨國或跨地區(qū)數(shù)據(jù)收集難度;保證該指標(biāo)體系具有廣泛適用性,簡潔易懂且能夠說明問題[11]。
(三)科技智庫指標(biāo)結(jié)構(gòu)關(guān)系特點
在長期認(rèn)識世界和改造世界的過程中,人類將所積累的科學(xué)知識、方法技能、設(shè)備手段用于生產(chǎn)實踐,形成涵蓋科技能力與科技成果、科技硬實力與科技軟實力、認(rèn)識論、方法論及實踐論多層次要素有機(jī)結(jié)合的一類大數(shù)據(jù),稱為科技數(shù)據(jù)。這種多層次要素有機(jī)結(jié)合的方式造就了科技數(shù)據(jù)間普遍存在的結(jié)構(gòu)關(guān)系。這種結(jié)構(gòu)關(guān)系既反映出各要素間的關(guān)聯(lián)程度,又表達(dá)出各要素的內(nèi)部構(gòu)成以及它們之間的相互影響。參考錢力等人對科技大數(shù)據(jù)的定義,科技數(shù)據(jù)包括科技成果數(shù)據(jù)(如全球創(chuàng)新指數(shù)報告)、科技活動數(shù)據(jù)(如科技人才流動數(shù)據(jù))和科技資訊數(shù)據(jù)(如智能手機(jī)APP數(shù)據(jù))[12]。
以安卓系統(tǒng)智能手機(jī)APP監(jiān)測數(shù)據(jù)為例,該數(shù)據(jù)總量1.8T,包括13余萬用戶,變量個數(shù)遠(yuǎn)遠(yuǎn)超過用戶數(shù)量,屬于高維數(shù)據(jù)。該數(shù)據(jù)集包括用戶地理位置信息(個人ID、時間、地點等)、手機(jī)信息(品牌、型號、分辨率、尺寸等)、APP使用信息(APP名稱、使用起止時間、使用時長、上下行流量等)三部分。這三部分之間有一定的關(guān)聯(lián)并且會相互影響,形成比較復(fù)雜的結(jié)構(gòu)關(guān)系。而且,手機(jī)信息會隨用戶所在地區(qū)發(fā)生變化,APP使用信息隨時間呈現(xiàn)出一定的規(guī)律。在這種情況下,結(jié)構(gòu)關(guān)系會受某種因素(如空間或時間)的影響,呈現(xiàn)出動態(tài)變化的特點。APP使用信息反映出,不同年齡層次、職業(yè)類型、消費水平的用戶群體在APP的選擇和使用方面有不同的表現(xiàn),呈現(xiàn)出不同維度、不同類別的結(jié)構(gòu)關(guān)系,且這種結(jié)構(gòu)關(guān)系會隨某個因素的影響而動態(tài)變化,在不同研究對象群體中有不同的表現(xiàn),因此需要考慮采用變系數(shù)多水平結(jié)構(gòu)關(guān)系模型進(jìn)行測度[13-14]。
(四)科技智庫統(tǒng)計賦權(quán)方法前沿
科技智庫研究中,統(tǒng)計賦權(quán)方法很多,但就目前指標(biāo)間存在的變系數(shù)多水平結(jié)構(gòu)關(guān)系特點,需要考慮提出新的統(tǒng)計模型和參數(shù)估計算法,以便更好地挖掘指標(biāo)間復(fù)雜的結(jié)構(gòu)關(guān)系。針對潛變量間以及潛變量與可測變量間關(guān)系量化問題,要充分考慮變量間相關(guān)關(guān)系,建立潛變量間及其與可測變量間的關(guān)系,較為客觀地反映實際數(shù)據(jù),還要具有較好的解釋性并能廣泛地應(yīng)用。變系數(shù)多水平結(jié)構(gòu)關(guān)系模型本質(zhì)上是將變系數(shù)模型和分位回歸引入結(jié)構(gòu)方程模型[15-16]。作為一種常用的統(tǒng)計建模技術(shù),結(jié)構(gòu)方程模型在當(dāng)前得到了較大程度的發(fā)展和應(yīng)用,并擁有專屬期刊Structural Equation Modeling:A Multidisciplinary Journal。在結(jié)構(gòu)方程模型理論中,一類常用的參數(shù)估計方法包括極大似然、廣義最小二乘等,在可測變量獨立同分布于多元正態(tài)的假設(shè)條件下,通過構(gòu)造一個模型估計協(xié)方差與樣本協(xié)方差的擬合函數(shù),得到使擬合函數(shù)值達(dá)到最優(yōu)的參數(shù)估計。變系數(shù)模型將一般線性模型的回歸系數(shù)推廣為一維變量(如空間、時間)的函數(shù),可用于解決結(jié)構(gòu)關(guān)系中的變系數(shù)問題[17]。分位回歸能夠精確描述不同分位水平下自變量對因變量的變化范圍以及條件分布形狀的影響,為解決結(jié)構(gòu)關(guān)系中多水平問題提供思路[18-19]。
已有學(xué)者利用變系數(shù)模型構(gòu)建了一種非線性動態(tài)結(jié)構(gòu)方程模型,并提出一種極大似然參數(shù)估計方法,要求可測變量獨立同分布且服從正態(tài)分布,外生潛變量、誤差項相互獨立且服從均值為0的正態(tài)分布[20]。在Voelkle和Oud在Molenaar等人研究的基礎(chǔ)上,研究動態(tài)因子模型的極大似然估計,要求數(shù)據(jù)滿足獨立且服從多元正態(tài)的假定條件[21-23]。當(dāng)不滿足假設(shè)條件時(比如數(shù)據(jù)服從某種偏態(tài)分布)可能會導(dǎo)致估計效果很差、標(biāo)準(zhǔn)誤差錯誤以及參數(shù)估計值偏高。Davino等人和Cheng將分位回歸引入結(jié)構(gòu)方程模型和高階因子模型中,通過偏最小二乘算法實現(xiàn)參數(shù)估計和潛變量得分的計算[24-27]。但是,這些方法仍然屬于靜態(tài)估計范疇,未同時考慮其他變量(如時空因素)對結(jié)構(gòu)關(guān)系帶來的影響。
在綜合考慮變系數(shù)多水平結(jié)構(gòu)關(guān)系特點的情況下,Cheng提出變系數(shù)多水平結(jié)構(gòu)方程模型,其基本原理為:不同潛變量(維度)之間的結(jié)構(gòu)關(guān)系通過結(jié)構(gòu)模型加以刻畫;由于潛變量無法直接觀測,各個潛變量的測量通過構(gòu)建測量模型反映。結(jié)構(gòu)方程模型包括結(jié)構(gòu)模型和測量模型,變系數(shù)多水平結(jié)構(gòu)關(guān)系模型的構(gòu)建本質(zhì)上是將結(jié)構(gòu)模型和測量模型中系數(shù)推廣為某個變量和分位數(shù)水平的函數(shù),構(gòu)建變系數(shù)多水平結(jié)構(gòu)模型和變系數(shù)多水平測量模型,刻畫不同分位數(shù)水平下各個潛變量間以及它們與可測變量間關(guān)系隨某個變量的動態(tài)變化[14]。
三、科技智庫統(tǒng)計理論傳播
科技智庫統(tǒng)計理論可視化是將復(fù)雜理論產(chǎn)品化的重要方式,通過直觀的可讀性強(qiáng)的圖表,將科技智庫統(tǒng)計研究后發(fā)現(xiàn)的復(fù)雜規(guī)律展示出來。可視化功能的強(qiáng)弱和呈現(xiàn)效果的好壞,主要取決于可視化理念和可視化技術(shù),尤其是伴隨數(shù)據(jù)量級的增加和數(shù)據(jù)內(nèi)部關(guān)系復(fù)雜程度的增加,可視化技術(shù)也需要通過Python等編程語言加以實現(xiàn)。
(一)科技智庫統(tǒng)計理論可視化理念
科技智庫互聯(lián)網(wǎng)統(tǒng)計理論中的可視化可以理解為把數(shù)字置于視覺空間中,更加直觀地展示數(shù)據(jù)中的潛在模式,并從中發(fā)現(xiàn)常規(guī)統(tǒng)計方法很難挖掘到的信息。科技智庫互聯(lián)網(wǎng)統(tǒng)計理論中的可視化不僅包括作表繪圖,還包括根據(jù)分析需求提供直觀化、關(guān)聯(lián)化、藝術(shù)性、可交互的可視化結(jié)果。在互聯(lián)網(wǎng)技術(shù)的支持下,科技智庫互聯(lián)網(wǎng)統(tǒng)計理論中的可視化能夠?qū)崿F(xiàn)潛在信息的深度展示和實時數(shù)據(jù)的動態(tài)描繪。
(二)科技智庫統(tǒng)計理論可視化技術(shù)
以Python為例,介紹科技智庫統(tǒng)計可視化技術(shù)研究中的基本情況。Python是由吉多·范羅蘇姆(Guido van Rossum)研發(fā)的[28]。常用的模塊包括:一是Numpy包,提供數(shù)組支持,同時Scipy、Matplotlib、Pandas等很多高級模塊依賴它。二是Scipy提供矩陣支持,以及矩陣相關(guān)的數(shù)值計算模塊。三是Pandas,這是Python最強(qiáng)大的數(shù)據(jù)分析和探索工具,因金融數(shù)據(jù)分析工具而開發(fā),支持類似SQL的數(shù)據(jù)增刪改查,支持時間序列分析,靈活處理缺失數(shù)據(jù)。四是Scikit-Learn,這是用于數(shù)據(jù)挖掘和數(shù)據(jù)分析的重要工具,包括分類、回歸、聚類、數(shù)據(jù)降維、模型選擇和數(shù)據(jù)預(yù)處理等六項基本功能。五是Matplotlib,主要用于繪圖和繪表,是強(qiáng)大的數(shù)據(jù)可視化工具。
Python可以幫助實現(xiàn)三維曲面圖的繪制。首先利用np.arange(-5,5,0.1)生成取值范圍為[-5,5]的間距為0.1的一組數(shù),并用matplotlib繪制誤差棒圖。需要說明的是,Matplotlib是Python中最受歡迎的繪圖庫,和NumPy和SciPy都是科學(xué)Python社區(qū)中的主要驅(qū)動力之一。Python有一種pylab模式,是專門設(shè)計使用matplotlib進(jìn)行交互式繪圖。Python的編程程序如圖1所示。
(三)科技智庫統(tǒng)計理論可視化產(chǎn)品
通過Python編程,可以得到如圖2所示的三維曲面圖[28]。以新質(zhì)生產(chǎn)力為例,三維曲面圖能夠展示出新質(zhì)生產(chǎn)力發(fā)展水平在勞動者(X軸)、勞動對象(Y軸)和生產(chǎn)資料(Z軸)這三個方面的基本情況。
四、科技智庫統(tǒng)計理論展望
數(shù)據(jù)科學(xué)時代,大數(shù)據(jù)成為國家重要的基礎(chǔ)性戰(zhàn)略資源。科技智庫統(tǒng)計理論通過互聯(lián)網(wǎng)技術(shù)的蓬勃發(fā)展、多元學(xué)科領(lǐng)域的交叉融合以及在科技人才等實際科技數(shù)據(jù)中的應(yīng)用分析,將傳統(tǒng)統(tǒng)計學(xué)轉(zhuǎn)變?yōu)楦玫貫榭茖W(xué)決策咨詢提供理論與實踐相結(jié)合服務(wù)的方法與工具[29]。科技智庫統(tǒng)計理論將在真實數(shù)據(jù)、業(yè)務(wù)工作和結(jié)論導(dǎo)向這三個維度發(fā)揮重要功能。
一是面向真實數(shù)據(jù)的科技智庫統(tǒng)計理論。在網(wǎng)頁爬蟲等互聯(lián)網(wǎng)技術(shù)的支持下,從傳統(tǒng)統(tǒng)計調(diào)查數(shù)據(jù)到各個方面的業(yè)務(wù)數(shù)據(jù)、技術(shù)數(shù)據(jù)、行政數(shù)據(jù),以及軟件數(shù)據(jù)、文本數(shù)據(jù)和具有潛在量化可能的大量圖像和音頻信息,數(shù)據(jù)范疇在不斷擴(kuò)大,映射客觀實際的統(tǒng)計總體范圍也在擴(kuò)大。反映個體、單位、市場、組織等主體在內(nèi)的真實數(shù)據(jù)逐漸形成了從微觀到宏觀、從靜態(tài)到動態(tài)、龐大且復(fù)雜的一體化數(shù)據(jù)體系。
二是基于業(yè)務(wù)工作的科技智庫統(tǒng)計理論。從傳統(tǒng)人工統(tǒng)計報表到各個環(huán)節(jié)的計算機(jī)普及、軟件操作、系統(tǒng)平臺搭建,從多機(jī)并行的分布式計算方式到互聯(lián)網(wǎng)大數(shù)據(jù)編程語言的廣泛應(yīng)用和更新迭代,科技智庫統(tǒng)計理論在收集、處理、分析和解釋數(shù)據(jù)方面表現(xiàn)出從傳統(tǒng)到前沿、從方法到技術(shù)、從離線到實時的根本性轉(zhuǎn)變。顯然,在科技智庫統(tǒng)計理論中,計算機(jī)科學(xué)扮演著重要角色,為科技智庫統(tǒng)計理論中間過程的具體操作提供全面支持。
三是按照結(jié)論導(dǎo)向的科技智庫統(tǒng)計理論。從傳統(tǒng)統(tǒng)計圖表到結(jié)論的歸納提煉、可視化展示、交互式變化,以及數(shù)據(jù)背后隱藏信息的挖掘和剖析、非常規(guī)路徑模式的捕捉和還原、流式數(shù)據(jù)沖擊下結(jié)論的實時變化,科技智庫統(tǒng)計理論在得出結(jié)論方面表現(xiàn)出多元化、準(zhǔn)確性高、時效性強(qiáng)的特征。高效且準(zhǔn)確地歸納和提煉研究結(jié)論,并將有價值信息置于視覺空間中,是科技智庫統(tǒng)計理論的一大特色。
參考文獻(xiàn):
[1] 趙彥云.互聯(lián)網(wǎng)統(tǒng)計研究[J].統(tǒng)計研究,2016,3(12):3-10.
[2] 尹建鑫.數(shù)據(jù)科學(xué)概率基礎(chǔ)[M].北京:中國人民大學(xué)出版社,2023.
[3] 賈俊平,何曉群,金勇進(jìn).統(tǒng)計學(xué)(第8版)[M].北京:中國人民大學(xué)出版社,2021.
[4] 程豪.互聯(lián)網(wǎng)統(tǒng)計:方法與應(yīng)用[M].北京:電子工業(yè)出版社,2023.
[5] 程豪.青年科技人才賦能新質(zhì)生產(chǎn)力[N].重慶科技報,2024-04-02(2).
[6] 孫麗偉,郭俊華.新質(zhì)生產(chǎn)力評價指標(biāo)體系構(gòu)建與實證測度[J].統(tǒng)計與決策,2024,40(9):5-11.
[7] 中共中央馬克思恩格斯列寧斯大林著作編譯局.馬克思恩格斯全集(第四十六卷下冊)[M].北京:人民出版社,1979.
[8] 王玨,王榮基.新質(zhì)生產(chǎn)力:指標(biāo)構(gòu)建與時空演進(jìn)[J].西安財經(jīng)大學(xué)學(xué)報,2024,37(1):30-47.
[9] 趙濤,張智,梁上坤.數(shù)字經(jīng)濟(jì)、創(chuàng)業(yè)活躍度與高質(zhì)量發(fā)展:來自中國城市的經(jīng)驗證據(jù)[J].管理世界,2020,36(10):65-76.
[10] 吳非,胡慧芷,林慧妍,等.企業(yè)數(shù)字化轉(zhuǎn)型與資本市場表現(xiàn):來自股票流動性的經(jīng)驗證據(jù)[J].管理世界,2021,37(7):130-144,10.
[11] 程豪.全球化國家科技創(chuàng)新能力綜合評價指數(shù)統(tǒng)計模型:基于互聯(lián)網(wǎng)科技統(tǒng)計視閾[J].調(diào)研世界,2020(6):25-31.
[12] 錢力,謝靖,常志軍,等.基于科技大數(shù)據(jù)的智能知識服務(wù)體系研究設(shè)計[J].數(shù)據(jù)分析與知識發(fā)現(xiàn),2019,3(1):4-14.
[13] CHENG H. A class of new partial least square algorithms for first and higher order models[J]. Communications in statistics-simulation and computation,2022,51(8):4349-4371.
[14] CHENG H. Quantile varying-coefficient structural equation models[J]. Statistical methods amp; applications,2023,32(5):1-37.
[15] CONNELL J P,TANAKA J S. Introduction to the special section on structural equation modeling[J]. Child development,1987,58(1):2.
[16] J?RESKOG K G,S?RBOM D. Recent developments in structural equation modeling[J]. Journal of marketing research,1982,19(4):404-416.
[17] HASTIE T,TIBSHIRANI R.Varying-coefficient models[J]. Journal of the royal statistical society: series B (statistical methodology),1993,55(4):757-796.
[18] KOENKER R,BASSETT G J.Regression quantiles[J]. Econometrica,1978,46(1):33-50.
[19] KOENKER R.Quantile regression[M]. London:Cambridge University Press,2005.
[20] ZHANG W Y,LEE S Y. Nonlinear dynamical structural equation models[J]. Quantitative finance,2009,9(3):305-314.
[21] VOELKLE M C,OUD J H L,OERTZEN T V,etc. Maximum likelihood dynamic factor modeling for arbitrary N and T using SEM[J]. Structural equation modeling,2012,19(3):329-350.
[22] MOLENAAR P C M. A dynamic factor model for the analysis of multivariate time series[J].Psychometrika,1985,50(2):181-202.
[23] MOLENAAR P C M. A manifesto on psychology as idiographic science: bringing the person back into scientific psychology,this time forever[J].Measurement:interdisciplinary research and perspectives,2004,2(4):201-218.
[24] DAVINO C,ESPOSITO V V. Quantile composite-based path modelling[J]. Advances in sata analysis and classification,2016,10(4):491-520.
[25] DAVINO C,ESPOSITO V V,DOLCE P. The multiple facets of partial least squares and related methods[M]. Springer proceedings in mathematics and statistics,New York: Springer Verlag,2016(173):169-185.
[26] DAVINO C,DOLCE P,TARALLI S. Quantile composite-based model: a recent advance in PLS-PM[J]. Basic concepts,methodological issues and applications,Berlin:Springer International Publishing AG,2017:81-108.
[27] DAVINO C,DOLCE P,TARALLI S. A quantile composite-indicator approach for the measurement of equitable and sustainable well-being: a case study of the Italian provinces[J]. Social indicators research,2018,136(3):999-1029.
[28] 程豪.指標(biāo)關(guān)系研究中的數(shù)據(jù)挖掘與統(tǒng)計學(xué)習(xí)[M].北京:經(jīng)濟(jì)科學(xué)出版社,2023.
[29] 程豪.科技人才研究中的互聯(lián)網(wǎng)統(tǒng)計方法[M].北京:經(jīng)濟(jì)科學(xué)出版社, 2024.
Statistical Theory in Science and Technology Think Tanks: Fundamentals, Practice and Communication
Cheng Hao
(China Association for Science and Technology, National Academy of Innovation Strategy, Beijing, 100038)
Abstract:[Research purpose] The statistical theory of science and technology think tanks can be understood as an important branch of modern statistical science developed by injecting Internet technology into the traditional statistical theoretical system in the context of science and technology think tanks. To provide methods and tools for serving scientific decision-making consultation, the paper systematically combs the statistical theory of science and technology think tanks, aiming to provide reference for the theory to play an important role in real data, business work and conclusion orientation. [Research method] The paper analyzes and interprets the statistical theory of science and technology think tanks from the perspectives of theoretical foundation, theoretical practice, and theoretical dissemination through literature review, Python visualization programming, and other methods. [Research conclusion] In the era of data science, big data has become an important fundamental strategic resource for each country. The statistical theory of science and technology think tanks will play an important role in real data, business work and conclusion orientation through the vigorous development of Internet technology and the cross integration of statistics and other disciplines.
Key words:science and technology think tanks;Internet statistics;indicator relations; varying coefficient structural equation model;quantile;visualization
基金項目:國家自然科學(xué)基金委員會青年科學(xué)基金項目“高維變系數(shù)多水平結(jié)構(gòu)關(guān)系模型研究及應(yīng)用”(72001197)。
作者簡介:程豪,男,1989年生,博士,副研究員,研究方向為綜合統(tǒng)計與調(diào)查研究。