創新創業案例數據數據采集庫的建設與分析

2023-04-07 02:25:34李美會

中國新技術新產品 2023年1期

李美會

（湖南環境生物職業技術學院，湖南衡陽 421005）

0 引言

創新創業數據屬于低頻金融數據，創新創業數據冗雜且多元化，在企業金融量化管理中需要對創業金融數據進行挖掘和特征分析，并結合相關算法對其數據采集庫進行建設，有利于區分其數據信息、分門別類、優化創新創業板塊，通過關鍵詞搜索等能夠快速進行查找，尤其是在提升創業基金融信息調度和管理方面具有重要意義。

1 創新創業案例數據數據采集庫分析

1.1 創新創業案例大數據處理優勢

創新創業案例數據處理主要采用大數據技術，并結合數據抓取、采集與分析，從相關數據網（青年創業網等）獲取相關數據信息，通過該信息可進行相關判斷，為創業者提供優質數據和信息。

傳統創新創業在數據挖掘時往往采用的是隨機采樣法，調查結果雖然具有普遍性，但是與真實市場出入較大。采用大數據處理時，對其建立起的數據庫和采集的全方位的數據，更加注重數據庫之間的相關性分析，從海量數據當中利用關聯規則和特征提取算法等對創業信息進行分類，有助于提高創業者對創業板塊的分析能力。

1.2 系統的數據采集庫的處理框架

系統的整體框架結構如圖1 所示。系統的數據采集庫的處理框架主要分為數據采集和存儲，結合圖1 內容，在數據采集和儲存當中，需要對平臺采集數據、創新創業數學數據等進行數據集合，為創新創業大數據平臺提供數據源，并對數據進行分析，建立有效數據庫，即通過數據挖掘、數據篩選等內容達到數據可視化。

圖1 系統的數據采集庫的處理框架

1.3 創新創業案例數據數據采集庫相關算法論述

1.3.1 Apriori 算法

關聯規則定義如下：假設I={i1，i2，i3，…，im}，其中I是項的集合，給定一個交易數據庫；im為第m 項數據。D={t1，t2，t3，…，tm}，其中每個事務t是I的非空子集，即t∈I，每個交易都與一個唯一的標識符TID 對應。

概率P（X∩Y）：關聯規則在D中的支持度（support）是D中事務包括X∩Y的百分比；置信度（confidence）是包括X∩Y的百分比。

P（Y|X）為條件概率，表示在X條件下Y的概率，置信度即可靠度，可判斷其關聯特征。

關聯規則可對數據進行挖掘：1）頻繁項集查詢。2）由頻繁項集產生強關聯規則。

Apriori 為逐層搜索的迭代方法，k項集用于探索（k+1）項集。結合數據處理，通過項集查詢，達到集合，計為L1、L2，可概括為2 項集的集合，L2用于尋找L3，直至達到k項集。

Apriori 算法可提高頻繁項集的效率，根據頻繁出現情況進行分析，其所有非空子集必須是頻繁的，判斷閾值min_sup與項集I是否滿足。如果I滿足閾值，則I為頻繁，即P（I）＜min_sup。項集（即I'A）不可能比I頻繁。兩者皆不頻繁，即P（I'A）＜min_sup。

1.3.2 決策樹算法

決策樹（Decision Tree）[1]為分析預測模型。結合決策樹需求，能夠根據算法采用自上而下的遞歸方式，并結合屬性進行判斷，通過決策了解其特征屬性，進而進行數據挖掘，形成數據分支，這樣能夠解決分類問題，達成預測，并實現分類[2]。

一個簡單的決策樹實例如圖2 所示。該決策樹將整個樣本空間分為2 類，是或否。如果一個樣本的奧特盧克屬性取值為晴朗且濕度屬性為正常，則該樣本為是；如果一個樣本的奧特盧克地區屬性取值為下雨且有風屬性為強，則該樣本為否。

圖2 決策樹算法

1.3.3 特征選擇算法

特征選擇（Feature Selection）是結合事物本身共有或相關特征對應用領域的一個描述。特征選擇可從N個原始特征中選擇一個最小子集，包括M（M≤N），使包括M個特征的子集中不同類別的概率分布值接近于N個原始特征。如果FN是原始特征集而FM為選出的特征子集，則可能的類別C條件概率P接近，其中fM和fN為相應的特征矢量FM和FN的值矢量。

總的來說，特征選擇算法可對數據描述進行簡化，使數據收集任務化繁為簡，進而可解決問題，提高數據集的質量。當數據集特征數很大，需要對其進行降溫。CFS（Correlationbased Feature Subset）算法[3]，即基于相關性的特征選擇算法。對連續變量，CFS 方法用特征子集的得分（Merits）來衡量其關聯度，如公式（1）所示。

式中：k為子集的變量數[4]為特征子集中所有自變量和目標變量之間相關性的均值為特征子集中自變量兩兩之間相關性的均值。

而對連續-離散型變量，則需要把連續變量進行離散化處理。如果離散化以后的變量分別為X和Y，則計算公式如公式（2）、公式（3）所示。

式中：p（y）為y的概率；p（y|x）為在X條件下Y的概率；H（Y）為Y信息熵；H（Y|X）為在X條件下Y的信息熵。

再計算信息增益（gain），即先驗信息熵和后驗信息熵的差值，如公式（4）所示。

然后計算變量之間的均勻不確定度，如公式（5）所示。

如果不確定度越大，則相關性越小。評估每個特征子集中各個變量之間的相關性，能夠根據特征進行數據分類，更有利于數據的處理。

2 創新創業案例數據數據采集庫的建設與分析

2.1 外部庫調用

結合外部庫調用，利用pandas itertools 和自帶的time 進行數據處理，結合青年創業網等數據，輸入“import pandas as pd”進行數據導入，import itertools as it #子集生成，并進行處理，完成數據集。

2.2 數據導入

全函數編寫，由“if __name__ == '__main__'：#”導入數據，data = data.applymap（lambda x： str（x）.strip（）） # 刪除導入時可能存在的空格值，例如“教育”成了“ 教育”。最終的數據導入在代碼最后，根據數據導入設定支持度和置信度。

2.3 數據處理

輸出所有Goodlist，事實上也就是備選頻繁1項集，這個函數不太重要，后續調用也完全可以替代為別的方式，編寫的目的是便利邏輯過程的一種方式而已。

2.3.1 項集重組

因為Apriori 是通過滿足支持度閾值的頻繁k項集得到備選頻繁k+1 項集合，所以這一個函數的目的便是進行項集重組和升階化的過程。這個不是放在最前面的邏輯，而是預先編寫，是為了后面直接調用的準備工作。可以發現也都是for 循環，連while 等都不帶。由于導入數據選擇的是列表格式，因此后續工作也都利用list 來完成，那么list 就需要一直for 循環調用，不像dict中直接for item in dict 等方便清晰。

#在關聯分析中，頻繁k項集得到備選頻繁k+1 項集合，能夠保證數據信息分類準確。

2.3.2 支持度掃描與輸出

這里就回歸了邏輯線條，該文提供2 種方法，一種是輸出counts，一種是輸出rates，即支持頻數和支持度的2種衡量辦法，僅供挑選，2 個函數沒什么區別。本find_rule 函數用的是counts 函數，如果要換，記得調整為rates。

#輸出每個k-項頻繁集的候選集的比率。#輸出每個k-項頻繁集的候選集的個數，上有比率寫法，兩者無本質區別，都可以使用。

def sup_counts（df，data）：#輸出每個1-項頻繁集的候選集的次數。

2.3.3 根據最小支持度閾值進行減枝葉

Apriori 算法的核心就是通過剪枝來減少掃描難度的。因為非頻繁項集的超級也一定不頻繁。

#得到滿足最小支持度閾值的關聯規則（find——rule of min-sup-rate item）。

if dt[j][-1] ＞= min_suprate*n： ##減枝過程。

2.3.4 對每個頻繁項集進行子集拆分計算confi 和rule挖掘

這個函數也是一個中間函數和預備工作。前提是頻繁項集，如果不是的話，數量可能會非常多，很難挖掘和通過Good_list 清單來生成所有的1/2/3/.../k項備選頻繁集，即Apriori 算法的核心。

def Ksubset_get（df）： #獲得非空子集。

2.4 數據采集庫建設結果分析

結合Find_rule，選擇list 進行數據處理，結合事物總數獲得關聯規則的重組，得到置信度，了解數據處理情況。決策樹算法能夠讀取數據集合，構建類似于如圖3 所示的決策樹。決策樹可厘清數據中所蘊含的知識信息，本數據采集庫建設時，該文對其創業種類進行了劃分，因此決策樹可以對數據集合進行劃分和機器學習。例如對食品生產行業屬性進行劃分時，根據形態，可劃分為休閑零食屬性和飲料行業，在進行更細的劃分，確定創業類型。

圖3 決策樹

輸出結果，結果統計表見表1。根據表1，結合決策樹分析，并通過編程可以看到，輸入支持度和置信度0.3，0.3，整個程序confi 值可以輸出，其結果大于0.7，說明相關度高，數量建設具有可靠性。例如食品生產行業和飲品飲料相關度高，說明可以根據相關度進行種類分析，進而對創業種類進行劃分，了解目前創業情況，為創業發展做準備。另外整個程序的運行速度還是比較快的，加入更多的good 和tid 之后，可以保持較快的輸出速度。數值為0.00099945068359375，能夠有效進行數據庫建設。

表1 結果統計表

3 結語

創新創業數據可反映創業開展的狀況，該文結合Apriori 算法、決策樹算法以及特征選擇算法，實現了企業創業期金融數據的采集。并對其支持度和置信度進行設置，數值為0.3 和0.3，其置信度數值均超過0.7，置信度強，說明數據庫建設具有可靠性。創業者可對創新創業數據進行數據挖掘和分析，并對這些量化數據進行研究，進而提高創業成功率。