基礎設施是為社會生產和居民生活提供公共服務的物質工程設施,是保證社會經濟活動正常進行的根本性物質基礎。基礎設施作為產業導入與城市開發的基本前提,可以為企業生產和社會發展創造良好的外部條件、產生可觀的外溢效應。一方面帶動當地工業、零售業、旅游業等產業投資,持續性提高生產效率和產出水平,助推產業邁向中高端水平。另一方面完善民生領域公共服務設施,有效改善當地居民生活水平,提升城鎮化質量。基建項目投資是我國提高全要素生產率、實現高質量發展的必由道路。
以大數據為基礎,結合基建項目投資市場的特征,從基建項目業主(政府、相關行業主管部門或代表政府行使建設單位職責的城投公司)、基建項目社會投資人(基建投資類央國企)、基建項目實施主體(勘察設計、施工單位等)三個角度對影響基礎設施項目的因素進行分析,可以看出他們之間的合作關系是十分必要且具有發展前景。對基建行業中不同階段、不同年限性項目存在差異化趨勢并有針對性地提供服務,能夠有效降低成本費用支出和提高效益水平。
基建項目投資市場趨勢預測方法
數據挖掘的對象是海量的歷史數據,這些數據主要來源于相關的官方數據、行業報告、媒體報道等。大數據挖掘的主要任務是從這些海量數據中提取出對投資市場趨勢分析有用的信息,并通過相應的統計方法和技術對信息進行分析和挖掘,從中發現隱藏在海量數據中的關聯信息,并對這些信息進行有效整合和應用。數據挖掘可以有效地提高決策支持系統的效率和質量,使得企業能夠更好地把握投資市場的變化趨勢,并做出更加準確有效的投資決策。
在數據挖掘過程中,主要采用機器學習、統計學、知識發現等技術。其中,機器學習是當前主流的數據挖掘方法。在企業內部數據庫中挖掘出項目信息,針對項目信息的挖掘,可以從項目立項、融資、招標、合同等階段進行,在這一階段主要是利用關系型數據庫系統來進行數據分析。關系型數據庫系統主要分為MongoDB和Spark兩種。MongoDB是一種分布式數據庫,可以用來存儲各種類型的數據;Spark是一種分布式計算框架,它可以在一個內存中進行處理,在多個計算機之間進行數據交換。通過這兩種框架的組合使用,可以大大提高數據分析和處理的效率。
基建項目投資市場趨勢預測的應用
數據倉庫是一個收集和組織數據的結構,數據倉庫中存儲的是在業務流程中產生的具有一定結構、有組織的、可檢索的數據。通常將其描述為:存儲在數據庫中的所有數據;按時間順序排列的記錄;按主題劃分的數據集合;有組織地使用數據庫來存取數據。此外針對傳統機器學習方法的缺陷,提出了一種基于貝葉斯網絡的時間序列數據挖掘算法,在該算法中,貝葉斯網絡通過節點和邊的傳遞來計算節點與節點之間的關系,用來表達個體與個體之間的關系。模型中,通過設計兩個特征來描述不同節點的不同屬性,根據模型得出不同的特征值,從而得到與時間序列數據相對應的概率。通過貝葉斯網絡可以將訓練集上每個數據點的概率值組合起來形成一個新的數據集,也就是一組樣本。利用這種方法,可以把數據集中每個點和對應數據點之間的關系表示出來,從而根據貝葉斯網絡模型對時間序列數據進行建模。
從投資數據中提取的輿情分析與監測,其目的是通過對社交媒體平臺上與基建投資相關的評論進行分析,來識別市場情緒。通過分析基建投資的主要社交媒體平臺,并對相關新聞進行文本挖掘,可以挖掘出關于基建投資的正面評論和負面評論。對于負面評論,可以通過輿情監測來鑒別其來源并加以分析。
目前的輿情監測平臺主要采用基于規則的文本挖掘技術進行分析,如百度、搜狗、360等。但這些平臺的文本挖掘技術主要采用機器學習,依賴于對已有文本的訓練。而在我國,自然語言處理技術仍處于初級階段,因此這種技術方法在實際應用中有一定的局限性。直接利用互聯網上已有的海量文本數據進行訓練,包括中文和英文。在訓練過程中,通過學習大量的樣本,可以有效地減少人工標注帶來的錯誤率和成本。
時間序列分析是一種統計學方法,其目的是確定數據的統計特性和統計特征,并將這些統計特征用來預測數據。通過時間序列分析,可以實現對數據的趨勢分析和預測。首先,將項目投資數據分為序列數據和波動率數據。序列數據是指項目投資歷史記錄,包括已完成的投資和未完成的投資。波動率數據是指過去一段時間內發生的波動程度。序列數據可以通過對項目投資歷史記錄進行建模,得到歷史時間序列;波動率數據可以通過對波動率進行建模,得到未來波動率。
基建項目投資市場趨勢預測的挑戰
數據質量指的是數據的準確性,主要有兩個方面:一是數據格式的正確性,比如文件是否包含了所有關鍵字、日期格式是否正確等;二是數據質量,比如數據是否能完整地反映用戶在某一特定事件發生時的真實行為。用戶隱私則主要指用戶的個人信息是否被收集、使用,是否會被用于非法目的等。
基建項目投資市場大數據的主要來源是政府網站、企業網站、行業網站、新聞媒體等。如存在數據缺失,則無法進行預測分析。同時,基建項目投資市場大數據存在一定的隱私泄露問題,例如客戶信息和業務信息等,這些數據的泄露不僅會給客戶帶來不便,還會影響整個行業的發展。因此,對于基建項目投資市場大數據的采集與分析需嚴格遵守法律法規,并充分考慮客戶隱私保護問題。
模型的準確性和穩定性是決定模型預測結果好壞的重要因素。模型通過采用多指標評價法,對三個評價指標進行了權重的確定,并采用加權平均法確定各指標的權重,最后結合灰色系統理論、BP神經網絡和遺傳算法對預測結果進行修正,從而保證了模型預測結果的準確性。在對市場走勢進行預測時,分別利用三種預測方法進行了對比,結果顯示三種方法均能較好地提高預測精度。其中采用BP神經網絡模型預測精度最高,與其他兩種方法相比其優勢在于可以有效地避免神經網絡容易陷入局部極小值和收斂速度慢的問題,使整個網絡能夠收斂到全局最優解。
目前,基建投資正處于高質量發展階段。在結構上,更精準、更體系化地聚焦經濟、社會、生態、安全等效益和功能;在模式上,基于嚴防隱性債務的大前提,更靈活、更高效益地發揮財政資金、社會資本、城投企業的組合效能。
在大數據的背景下,對基建項目投資市場進行深入分析,提出基于大數據技術的基建項目的可行性策略。通過對比國內外文獻和實際案例,發現我國基礎設施建設投資領域存在諸多問題需要解決與完善;同時目前國內對于投資產品市場還存在一些誤區,并沒有通過有效地整合資源、優化配置、提高效率等方面來實現對項目風險控制能力的提升。
(作者單位:中國城鄉控股集團有限公司)