周一維
國內創新創業項目的分析與挖掘——基于36氪和虎嗅網的聚類分析
周一維
(同濟大學 經濟與管理學部,上海 201804)
國務院總理李克強在十二屆全國人大四次會議上提出“大眾創業、萬眾創新”。同樣,“互聯網+”和“大眾創業”的概念也正引領著創業新時代。以36氪、虎嗅網等為代表的國內知名互聯網創業生態服務平臺為創業者們提供了更多的創業機會。因此,基于36氪和虎嗅網,試圖對其上的創業項目進行數據挖掘與分析,以探究現有創業項目的特征以及成功融資項目和失敗項目各自的特征,以幫助創業者更清晰地了解目前的創業環境和流行趨勢,結合自身優勢與投資人偏好,投身于合適的創業領域。
創業;創新;Clementine;虎嗅網
截至2018-12,中國網民為8.29億,互聯網普及率達59.6%[1]。互聯網和移動互聯技術的快速發展,給創業活動提供了強大的技術支持,帶動了相關產品服務、管理模式的革新,也形成了廣闊的消費市場,創造了更多的機會。國務院總理李克強在十二屆全國人大四次會議記者會上提出:“大眾創業、萬眾創新”[2]。2018-09-18,國務院下發《關于推動創新創業高質量發展打造“雙創”升級版的意見》[2]。而現在正在興起的“互聯網+”和“大眾創業”的概念推波助瀾,引領著一個創業新時代。國民創新創業能力已經成為拉動國民經濟增長的重要元素,而國民自主創新創業能力逐漸受到各個國家的重視[3]。因此,本研究希望能對基于虎嗅網和36氪的所有創業項目進行采集以及宏觀上的聚類分析,以求分析出目前兩網站上創業項目的發展情況以及分布特征,有助于創業者更好地了解創業環境與趨勢,做好創業準備,提高創業成功率。
自18世紀法國經濟學家CANTILLON第一次使用“entrepreneur”這個詞以來,創業研究開始嶄露頭角[4]。現有的創業研究不僅從宏觀層面上意識到創業、創新在經濟活動中的重要地位和作用,也重視微觀層面的創業者行為特征和創業本身特殊的運行機理,并隨著時代背景的變遷和創業主體的變化涌現出許多新的研究主題。總的來說,現有研究主要關注以下幾個方面:創業網絡、創業資源、創業者、創業環境及創業機會[5]。從目前的文獻來看,宏微觀的創業研究還存在一些待完善的不足之處和有待彌補的空缺。從宏觀層面分析,創業研究只關注創業總體的行為效果,偏向從理論上分析創業促進經濟發展的本質以及創業與宏觀環境之間的互動關系,論證創業企業拉動經濟增長的力度,卻沒有深入細分創業企業類型,難以突出時代特征和識別創業類型的變化[3]。在微觀方面,管理學的分析方法有助于關注創業微觀個體,但很少比較不同類型創業企業之間的差異[4]。總的來說,目前的文獻較注重于理論研究,即使是跨學科的研究,也是基于各學科現有理論的研究,并沒有對創業的數據進行定量與定性分析。實際上,基于數據的研究更能客觀地反映創業環境與現象,甚至發現一些不為人知的新規律。
本論文主要采用定量與定性分析相結合的研究方法。首先利用八爪魚采集器對虎嗅網和36氪網兩個網站的創業項目進行采集,然后利用Excel對采集到的數據進行清理,最后利用Clementine建立模型對結構化的數據進行數據挖掘,挖掘其隱藏的更深層次的信息[6],以求根據聚類結果探究現有創業項目的特征以及成功融資項目和失敗項目各自的特征。本次采集時間截至2019-11-19,共采集到1 487條數據,數據字段主要是關于產品、公司以及創始人的信息,具體的分析過程與結果如下所述。
導入數據后連接Data Audit節點對數據的完整性以及異常值進行分析,并利用CRT算法對缺失值(空值)進行填補。連接K-means和TwoStep兩節點分別建立聚類模型,對最終的聚類結果進行分析,選擇出最佳的聚類結果[8];連接Select節點將數據分為融資成功和融資失敗兩部分,使用K-means和TwoStep兩種方式分別建模,并對最終的聚類結果進行分析,選擇出最佳的聚類結果[9]。具體的建模流程如圖1所示。

圖1 建模數據流圖
對聚類結果進行分析后發現K-means的聚類效果好于TwoStep,因此選擇分析K-means的聚類結果[10]。所有創業項目類型如下:①各地新興的孵化期微型企業項目;②各地早期成立有新產品的初創期小型企業項目;③各地早期成立的較大型成熟企業項目;④華南華東地區早期較成熟的各類企業項目。
其中,未融資的創業項目類型如下:①各地新興的微型企業項目;②華南早期成立的較大型企業項目;③華東地區一兩年前成立的中小型企業項目;④各地一兩年前成立的小型企業項目。
相反,融資成功的創業項目類型如下:①華北新興的小微型企業項目;②各地早期小型企業項目;③華東地區早期成立有新產品的各類型企業項目;④華南華東早期成立的較大型企業項目。
經過上述分析不難發現,地區與成立時間對融資成功與否影響較大,有趣的是兩類創業項目里都有“華南華東早期成立的較大型企業項目”這一子類,說明機會是均等、公平的,因此,創業公司自身產品的實力也很關鍵。中型以及大型企業更有可能得到融資,且較大型有一定資歷(成立時間)尤其是來自北京、杭州、南京的公司創業項目更易得到更高輪次的融資。創業是一個長時間持續的過程,從未融資到Pre-A再到最后的D輪,耗時幾年之久,本文做的分析只是對一個時間點的初步分析,如果能對這些數據進行跟蹤,分析這些項目的整個創業過程將會得到更加有意義、系統的分析結果。
[1]中國電信網.CNNIC:2019年第43次《中國互聯網絡發展狀況統計報告》[EB/OL].[2018-02-28].http://www.cac.gov.cn/2019-02/28/c_1124175686.htm.
[2]中華人民共和國國務院.國務院關于推動創新創業高質量發展打造“雙創”升級版的意見[EB/OL].[2018- 09-26].http://www.gov.cn/zhengce/content/2018-09/26/content_5325472.htm.
[3]張茉楠.國際創新創業發展戰略新趨勢及啟示[J].宏觀經濟管理,2016(1):87-90.
[4]陳震紅,董俊武.國外創業研究的歷程、動態與新趨勢[J].外國經濟與管理,2004(2):7-11.
[5]WU A,LI S.New ventures,product innovation and business intermediaries:empirical analyses of 145 new Chinese ventures[J].Chinese Management Studies,2014,8(2):241-257.
[6]張帆.基于Clementine的廣告客戶數據挖掘模型設計[D].北京:北京郵電大學,2010.
[7]ARUN R,XINL T,PAUL B,et al.Assimilation patterns in the use of electronic procurement innovations:A cluster analysis[J].Information & Management,43(3):336-349.
[8]黃震.數據挖掘在電信客戶流失預警中的應用[D].北京:北京郵電大學,2008.
[9]ZHANG Y,LI H.Innovation search of new ventures in a technology cluster:the role of ties with service intermediaries[J].Strategic Management Journal,2010,31(1):88-109.
[10]BOCQUET R,BRION S,MOTHE C et al. The role of cluster intermediaries for KIBS’resources and innovation[J]. Journal of Small Business Management,2016(54):256-277.
F124
A
10.15913/j.cnki.kjycx.2020.02.032
2095-6835(2020)02-0090-02
周一維(1995—),女,重慶人,碩士研究生,研究方向為信息系統用戶使用行為、商業數據挖掘與分析。
〔編輯:張思楠〕