















*基金項目:國家自然科學基金資助項目(72001148,72371171)。
摘要:在建筑廢棄物資源化管理方面,國內(nèi)相關研究主要集中于單一的再生產(chǎn)品、影響因素、宏觀政策對比等,缺乏技術層面的系統(tǒng)研究。基于此,從技術創(chuàng)新角度出發(fā),基于Python工具、LDA主題模型、專利文本數(shù)據(jù)的量化分析框架,采取IPC分類號與主題檢索結合的檢索方式,基于專利數(shù)據(jù)庫采集建筑廢棄物資源化技術相關專利數(shù)據(jù),對建筑廢棄物資源化技術熱點進行可視化表征,結合模型困惑度與主題連貫性對主題數(shù)量進行檢驗,旨在豐富利用文本挖掘技術熱點的方法體系,幫助相關企業(yè)提升自身資源化技術水平。
關鍵詞:文本挖掘;建筑廢棄物;資源化;技術主題;LDA主題模型;技術熱點
0" 引言
隨著我國社會經(jīng)濟的繁榮發(fā)展,建筑業(yè)步入快速發(fā)展階段。城鎮(zhèn)化的快速推進使得建筑廢棄物產(chǎn)量逐年增加。相關研究表明,近幾年,我國建筑廢棄物年均總量在15.5億t以上,占城市垃圾總量的40%左右[1],而建筑廢棄物再生利用率僅占5%,整體處置效率偏低[2]。
當前,我國建筑廢棄物資源化處理正處于發(fā)展階段[3],仍存在建筑廢棄物再生產(chǎn)效率低下[4]、技術創(chuàng)新能力不足[5]、缺乏公眾監(jiān)督[6]、政府規(guī)制不完善[7]、建筑廢棄物處置產(chǎn)業(yè)鏈不完善[8]等問題。這些問題不僅給環(huán)境帶來一定負面影響,而且造成大量國土空間的浪費。由此可見,建筑廢棄物資源化利用已成為急需解決的問題。
經(jīng)過文獻挖掘方法梳理相關研究文獻發(fā)現(xiàn),國內(nèi)學者對建筑廢棄物資源化管理的研究重心主要在再生產(chǎn)品、影響因素、政策制度等方面,較缺乏針對建筑廢棄物資源化技術層面的系統(tǒng)研究。基于此,本研究通過對相關專利數(shù)據(jù)進行計量與聚類分析,直觀呈現(xiàn)建筑廢棄物資源化技術主題,并利用模型困惑度與主題連貫性進行檢驗。該研究成果能夠協(xié)助政府有效把握技術演化規(guī)律特征,及時調(diào)整技術創(chuàng)新政策。同時,有利于企業(yè)合理規(guī)劃專利研發(fā)布局,降低研發(fā)成本,提高自身資源化管理水平。
1" 研究設計
1.1" 數(shù)據(jù)采集與處理
(1)選擇Incopat專利數(shù)據(jù)庫,采取IPC分類號和主題相結合的檢索方式,時間跨度為2002—2022年。通過對建筑廢棄物資源化技術發(fā)明專利數(shù)據(jù)進行采集,形成專利文本數(shù)據(jù)庫。
(2)使用Python中的自然語言處理工具包進行數(shù)據(jù)清洗,最終得到6500條專利數(shù)據(jù),以此作為研究數(shù)據(jù)集。
1.2" 文本挖掘法
1995年,F(xiàn)eldman等[9]首次提出將數(shù)據(jù)挖掘技術運用于非結構化數(shù)據(jù)[10]。Brian Lent最早將文本挖掘技術應用于專利分析,隨后,出現(xiàn)了詞云分析、文本聚類分析等方法[11]。
1.3" 實驗流程
首先,完成數(shù)據(jù)采集與處理,調(diào)用分詞庫包將數(shù)據(jù)轉化成文本特征矩陣;其次,利用Python進行LDA主題建模,根據(jù)經(jīng)驗值設置模型所需參數(shù),調(diào)用模型困惑度結合LDAvis進行可視化演示,使用主題連貫性確定最佳主題數(shù)量;最后,對專利主題進行歸納和分析。
1.4" LDA主題模型解釋
LDA模型是包含文檔、主題和詞匯三個層次的貝葉斯模型。LDA主題提取原理及模型生成過程[12]如圖1所示。模型涉及參數(shù)描述見表1。
2" 研究結果與分析
2.1" 專利特征統(tǒng)計
2.1.1" 專利申請趨勢
專利申請是技術創(chuàng)新主體市場行為的一種表現(xiàn),是對宏觀環(huán)境的反應。了解建筑廢棄物資源化技術專利申請趨勢有助于分析在不同時期專利申請熱度的變化。2002—2022年建筑廢棄物資源化技術專利申請趨勢如圖2所示。根據(jù)專利生命周期劃分可知,建筑廢棄物資源化技術經(jīng)歷了以下階段:2006年以前專利申請數(shù)較少,說明該階段技術處于“萌芽期”,整體發(fā)展非常緩慢;2007—2013年專利申請數(shù)量開始逐年穩(wěn)定增長,說明該階段技術進入“成長期”;自2014年開始專利申請數(shù)量呈現(xiàn)井噴式增長,一直到2021年速度才有所放緩,說明該階段技術處于“成熟期”,建筑廢棄物資源化技術領域研究已受到廣泛關注,并極具發(fā)展?jié)摿Α?/p>
2.1.2" 專利技術功效
專利技術功效圖可以一目了然地呈現(xiàn)專利空白區(qū),在了解技術現(xiàn)狀、分析競爭力等方面具有重要作用。建筑廢棄物資源化技術領域專利技術功效圖如圖3所示。可以看出,C04B的技術功效主要在于降低成本、強度提高、復雜性降低及改善環(huán)境;B02C的技術功效主要在于提高效率與便利性;B09B、B07B、B03C和B01D等在各個功效維度都有涉及,包容性較強。因此,未來C04B和B02C將在技術申請趨勢方面占據(jù)主導地位。
2.1.3" 專利申請人分析
通過統(tǒng)計專利申請人排名,可以把握行業(yè)中具有競爭力的市場主體,便于政府與企業(yè)對實力強勁的專利申請人進行鼓勵型投資。建筑廢棄物資源化專利申請人類別主要分為企業(yè)、高校、科研機構等。該領域專利數(shù)量排名前10的專利申請人統(tǒng)計表見表2。其中,企業(yè)申請人8個,占比高達80%。北京工業(yè)大學發(fā)明專利最多,達63項,其次是同濟大學,共計49項。
本研究采用專利集中度評估當前專利技術研發(fā)和專利權利的集中程度,用絕對值CRn表示,計算公式如下
CRn=∑ni=1Ki∑Ni=1Ki(1)
式中,Ki為各專利申請人擁有的專利數(shù)量;N為所有專利申請人數(shù)量;n=1,2,…,N。
由于2013年以前的專利數(shù)量較少,將2002—2012年的專利數(shù)據(jù)合并計算,申請人集中度計算結果見表3。
由表3可以看出,雖然2002—2014年專利申請集中度呈上升趨勢,但該階段的專利申請量有限,集中度并不穩(wěn)定。在2014年以后,專利集中度數(shù)組逐漸降低,說明該階段的競爭逐漸激烈,對創(chuàng)新主體的要求越來越高。
2.1.4" 專利申請地域
建筑廢棄物資源化技術專利申請地域分布圖如圖5所示。可以看出,建筑廢棄物資源化技術專利集中在沿海地區(qū),專利數(shù)量排名第一的是江蘇省,累計專利申請量達1050項;其次是廣東省和浙江省,累計專利申請量分別為925項和849項。
2.2" 專利聚類分析
專利聚類分析是指利用文本挖掘方法將技術聚合成不同的子類,客觀呈現(xiàn)技術熱點,發(fā)現(xiàn)新興技術主題。本研究采用詞云分析、地圖分析、專利分類號分析三種方法。
2.2.1" 詞云分析
詞云是近年來用于文本挖掘的可視化技術,將文本數(shù)據(jù)中的“關鍵詞”予以顏色和大小等視覺差異效果以反映詞語的重要程度[13]。文字字體越大,表明其越重要,建筑廢棄物資源化技術詞云圖如圖6所示。可以看出,“建筑垃圾破碎”與“變廢為寶”關注度最高,其次是“施工效率”與“垃圾回收”。
2.2.2" 地圖分析
地圖分析是指通過對專利文本數(shù)據(jù)中的著錄信息與技術方案信息進行整理歸納,提取對研究目標有用的專利信息。主題詞所在的區(qū)域顏色越深,說明該詞出現(xiàn)的頻率越高;反之,說明該詞出現(xiàn)的頻率越低。建筑廢棄物資源化技術專利地圖如圖7所示。可以看出,我國建筑廢棄物資源化技術主要集中在“建筑垃圾破碎”“垃圾回收”“變廢為寶”等主題。
2.2.3" 專利分類號分析
專利分類號共現(xiàn)關系網(wǎng)絡能夠展示各分類號所代表的技術主題分布情況,以及各技術主題之間的關聯(lián)性[14]。本研究的專利數(shù)據(jù)庫有134項專利,結合共現(xiàn)關系與社會網(wǎng)絡分析法進行分析,具體步驟如下:統(tǒng)計專利分類號間共現(xiàn)次數(shù)→計算共現(xiàn)矩陣取值→在Gephi軟件中引入共現(xiàn)矩陣→選擇Yifan Hu布局模式呈現(xiàn)專利分類號共現(xiàn)情況→生成共現(xiàn)關系網(wǎng)絡圖(圖8)。
圖8中各節(jié)點代表不同的專利分類號,節(jié)點大小表示該專利在領域的重要程度,節(jié)點連線的粗細表示合作頻率,連線越粗表示合作越密切。可以看出,C04B1816(廢物作為砂漿、混凝土或人造石填料)、B09B300(將固體廢物破壞/轉變?yōu)橛杏没驘o害的東西)和C04B2800(含有黏結劑的砂漿、混凝土或人造石的組合物)技術之間的關聯(lián)度較高,中心度和相對中心度均位于前三,是目前研究的熱門技術。
3" 基于LDA模型的建筑廢棄物資源化技術主題分析
3.1" 模型困惑度分析
采用模型困惑度和主題連貫性相結合的方式確定最優(yōu)LDA主題數(shù)量。其中,困惑度用于評估LDA主題模型優(yōu)劣程度。困惑度越低,說明模型泛化能力越強[15]。計算公式如下
perplexity(Dtest)=exp-∑Md=1logp(wd)∑Md=1Nd(2)
式中,D表示語料庫中的測試集;M表示文檔數(shù)量;Nd表示每篇文檔d中包含的單詞數(shù)量;wd表示文檔d中的詞匯;p(wd)表示詞wd在文檔中產(chǎn)生的概率。
采用Perplexity庫分析困惑度隨主題數(shù)目改變而變化的情況。當?shù)螖?shù)在1000次以上時,結果基本穩(wěn)定。困惑度變化趨勢圖如圖9所示。隨著主題數(shù)量增加,困惑度先驟減再增大并趨于平緩。當主題數(shù)量為4時,困惑度最低,說明當前模型泛化能力最強。經(jīng)過模型困惑度檢驗,本研究確定最佳主題數(shù)量為4。
3.2" 主題連貫性分析
采用統(tǒng)計語言模型中的評價指標主題連貫性確定最佳主題數(shù)量。主題連貫性得分越大,說明主題詞越相關,內(nèi)部歧義越少。借鑒Coherence Model模塊進行主題連貫性得分計算,計算公式如下
coherence(V)=∑(vi,vj,δ)score(vi,vj,δ)(3)
score(vi,vj,δ)=logp[(vi,vj)+δ/(p(vi)p(vj))](4)
式中,V代表描述主題的詞;δ代表平滑系數(shù),一般取值為1;vi和vj表示屬于V的任意兩個詞;p(vi,vj)表示兩個詞共同出現(xiàn)的概率。主題連貫性得分結果如圖10所示,可以看出,當主題連貫性得分最高時,內(nèi)部歧義最少,其對應的主題數(shù)目也是4,印證了上述模型困惑度的檢驗結果。
3.3" 技術主題可視化
根據(jù)模型困惑度和主題連貫性計算結果,對LDA模型主題特征詞進行總結,歸納結果見表4。其中:Topic1歸納為施工效率,指代施工技術的升級;Topic2歸納為再生工藝,指代常見的建筑垃圾處理工藝流程系統(tǒng);Topic3歸納為變廢為寶,指代常見的建筑廢棄物再生產(chǎn)品;Topic4歸納為裝置功能,指代建筑廢棄物處理裝置設備功能特點。
詞與主題的相關性系數(shù)λ代表一個詞匯在一個主題中出現(xiàn)的頻率相對于提升率的權重參數(shù)。在LDA可視化系統(tǒng)界面中,可以通過調(diào)節(jié)相關性系數(shù)λ呈現(xiàn)不同的主題效果。通過大量實驗證明,當λ=0.67時,所呈現(xiàn)的主題特征詞更加合理。可視化主題詞分類如圖11所示。在圖中,左邊代表全局主題,右邊代表術語。選中某一主題后,可以觀察到右側的詞匯變化,以此了解每一類主題下的詞匯占比,發(fā)掘核心專利技術的側重點。
4" 結語
本研究以建筑廢棄物資源化專利技術為分析對象,提出了基于文本挖掘的專利分析流程。通過專利特征統(tǒng)計,發(fā)現(xiàn)專利技術申請趨勢整體穩(wěn)步上升,明確了目前建筑廢棄物資源化產(chǎn)業(yè)各技術功效的專利分布情況,分析了專利申請人和專利集中情況。結果表明,當前,建筑廢棄物資源化產(chǎn)業(yè)的主要創(chuàng)新主體是企業(yè)與個人,沿海省市的創(chuàng)新活躍程度較高,其他地區(qū)提升空間較大。采用文本挖掘法將建筑廢棄物資源化技術劃分為施工效率、再生工藝、變廢為寶和裝置功能4個主題,并通過模型困惑度與主題連貫性檢驗進行驗證。基于研究結果,提出以下建議:
(1)地方政府應加強法律法規(guī)建設,創(chuàng)新政策機制,合理簡化專利申請流程,提高審核效率,同時加強知識產(chǎn)權保護,促進技術轉化。
(2)企業(yè)作為技術創(chuàng)新的主體,應加強與高校、科研院所等的產(chǎn)學研合作,通過規(guī)模化建筑廢棄物再生產(chǎn)各個環(huán)節(jié)推動產(chǎn)業(yè)鏈形成與發(fā)展。
參考文獻
[1]曹元輝, 王勝杰, 王勇, 等. 我國建筑垃圾綜合利用現(xiàn)狀及未來發(fā)展趨勢 [J]. 中國建材, 2021(9): 118-21.
[2]關攀博, 王琳瑞, 付凌波, 等. 城市建筑廢棄物的科學管理與有效利用研究 [J]. 環(huán)境科學與管理, 2016, 41(4): 7-11.
[3]李建明, 王志剛, 王一峰, 等. 基于固體廢棄物資源化利用的“無廢城市”建設初探 [J]. 中國水土保持, 2019 (7): 25-9.
[4]袁紅平, 王焯平. 建筑廢棄物資源化利用合作促進機制研究 [J]. 工程研究——跨學科視野中的工程, 2017, 9(2): 181-9.
[5]崔旭東, 時雪燕. 雙碳背景下建筑廢棄物資源化利用問題研究 [J]. 建設科技, 2022(9): 32-5.
[6]邵志國, 李夢笛, 韓傳峰, 等. 基于演化博弈的建筑垃圾處理協(xié)同機制及仿真 [J]. 中國管理科學,2022(2): 1-14.
[7]李景茹, 劉寒, 赫改紅, 等. 建筑廢棄物資源化利用行業(yè)發(fā)展影響因素研究——基于深圳、青島、許昌的調(diào)研 [J]. 建筑經(jīng)濟, 2018, 39(11): 24-7.
[8]江明陽. 建筑廢棄物資源化產(chǎn)業(yè)鏈中核心利益主體間動態(tài)演化仿真研究 [D]. 深圳:深圳大學, 2020.
[9]FELDMAN R, DAGAN I, HIRSH H. Mining text using keyword distributions [J]. Journal of Intelligent Information Systems, 1998, 10(3): 281-300.
[10]胡阿沛, 張靜, 雷孝平,等. 基于文本挖掘的專利技術主題分析研究綜述 [J]. 情報雜志, 2013, 32(12): 88-92,61.
[11]JELODAR H, WANG Y L, YUAN C, el al. Latent Dirichlet allocation (LDA) and topic modeling: models, applications, a survey [J]. Multimedia Tools and Applications, 2019, 78(11): 15169-15211.
[12]陳虹樞. 基于主題模型的專利文本挖掘方法及應用研究 [D].北京:北京理工大學, 2015.
[13]汪言. 基于Python的詞云生成及優(yōu)化研究——以“十四五”規(guī)劃為例 [J]. 電腦知識與技術, 2021, 17(19): 23-8.
[14]溫芳芳. 基于專利權人-分類號多重共現(xiàn)分析的全球專利布局研究——以太陽能汽車技術領域為例 [J]. 現(xiàn)代情報, 2017, 37(4): 165-169.
[15]趙凱, 王鴻源. LDA最優(yōu)主題數(shù)選取方法研究:以CNKI文獻為例 [J]. 統(tǒng)計與決策, 2020, 36(16): 175-179.
PMT
收稿日期:2023-08-12
作者簡介:
李昇翰(1976—),男,講師,碩士研究生導師,研究方向:可持續(xù)綠色建筑。
吳晨溦(2000—),女,研究方向:建筑可持續(xù)管理。
張佳盛(1989—),男,高級工程師,研究方向:裝配式技術、可持續(xù)管理。
張丹婷(1998—),女,研究方向:建筑可持續(xù)管理。
吳澤洲(通信作者)(1988—),男,副教授,碩士研究生導師,研究方向:建筑可持續(xù)管理。