趙龍 王強 王天華 華曉杰 由建偉
【摘要】本文基于對俄羅斯東部地區的政治、經濟、社會及文化等方面的大數據采集、清洗以及建立數據分析模型,同時利用相應規則進行數據挖掘。最后給大學生創業提出了指導性建議。
【關鍵詞】大數據 維度 創業
【基金項目】黑龍江省教育科學規劃項目(GJD2015070),黑龍江省高等教育學會項目(16G389),黑龍江東方學院教學改革研究項目(HDFHX170315)。
【中圖分類號】 G647.38 【文獻標識碼】A 【文章編號】2095-3089(2018)30-0268-02
引言
從歷史維度看,人類社會正處在一個大發展大變革大調整時代。世界多極化、經濟全球化、社會信息化、文化多樣化深入發展,和平發展的大勢日益強勁,變革創新的步伐持續向前。各國之間的聯系從來沒有像今天這樣緊密,我們東北三省的高校學生一定要深入理解我國的“一帶一路”與“歐亞經濟聯盟”的內涵,充分思考如何利用中俄東部地區合作開發的契機進行創業實踐。本文主要論述了基于俄羅斯東部地區政治、經濟、自然、社會以及文化等綜合指標大數據分析的大學生創業探索的關鍵路徑。
一、俄羅斯東部地區多維度指標大數據采集與清洗
1.數據采集的維度
(1)政治維度
雖然經濟決定政治已是大多數人的共識,但我們決不能忽視政治對經濟的反作用。俄羅斯為了加快東部地區開發的步伐,非常重視同世界各國的合作,出臺了一系列優惠政策。但是我們知道,任何國際合作都是在維護本國利益的前提下進行的,所以再具體國際合作開展過程中存在各種各樣的摩擦和阻力,俄羅斯也不例外。我們需要將“政治”因素作為主要的維度進行數據采集。
國家的“一帶一路”戰略給我們帶來了前所未有的創業機遇。“一帶一路”倡議是當今時代最宏大的一體化構想。近年來,俄中在基礎設施、物流、自然資源開采和加工等合作領域取得了重要進展。
(2)經濟維度
俄羅斯東部地區自然資源十分豐富,在經濟運行中以資源為依托獲取財富積累,使得東部地區不論是經濟結構還是主導產業選擇都標有濃重的資源印記,同時時間的推移東部地區在經濟發展過程中依賴資源拉動增長的弊端也日益凸顯。俄羅斯基本經濟特征可歸納為以下兩點:
1)產業結構單薄且不均衡:由于歷史上遠東地區曾被作為蘇聯時期國家軍事前沿的重地,遠東地區的開發使其經濟結構形成“畸輕畸重”和“原料化”的特征。區內重工業、軍事工業發達,而輕工業落后,農業發展低效,第三產業不發達。但本地區蘊含著十分豐富野生魚類和動物資源和原生態的旅游資源。在遠東發展基金支持下,俄遠東地區正在實施一批重大項目,其中包括建設“濱海1號”和“濱海2號”國際交通走廊。兩國農業部門正在為讓中國消費者能夠享用俄遠東綠色生態的農產品而不懈努力。
2)人口稀少造成經濟規模十分有限:俄羅斯東部地區擁有1200多萬平方公里的土地,而人口卻僅有不到2600萬,人口密度僅為2人/平方公里。俄羅斯政府2007年提出的東北大開發戰略,但由于勞動力資源的稀少,使這一國家經濟戰略收效甚微。東部地區的人口問題也造成了其市場十分有限。俄政府制定的“遠東及外貝加爾地區開發規劃”遲遲未有多大進展,多年來,由于俄的疑慮和擔心,以及經濟不景氣導致投入不足,遠東地區開發實際上并沒有得到深入推進。
(3)其他維度
除政治、經濟維度外,為了使我們的數據模型更加完善我們還要從自然、社會以及文化三個維度去采集數據。很多人將“社會”和“文化”這些軟指標忽視,其實社會的意識形態和文化特征對我們進行跨境合作、跨境創業的成敗是很有影響的。
2.數據清洗的必要性與過程
數據清洗(Data cleaning)是對數據進行重新審查和校驗的過程,目的在于刪除重復信息、糾正存在的錯誤,并提供數據一致性。為了使模型有更加穩定的輸出,我們要將俄羅斯東部地區政治、經濟、自然、社會以及文化等綜合指標數據中的“噪聲”去除。
數據清洗,一般是這么幾個過程:標準化、歸一化、降維。
(1)標準化(數值化)
由于原始數據往往存在各種不同格式的數據形式,比如如果你要處理的數據是數值型,但是原始數據也許有字符型或者其他,那就要對其進行標準化操作。處理的方式可以很簡單也可以很復雜,我采取過的一個方法是:對字符串取值,按照ANSI碼值求和得到字符串的值,如果值太大,可以取一個適當的質數對其求模,本質上就是映射到一個區間了。然后就得到數值型的數據了。
(2)歸一化
由于原始數據各個維度之間的數值往往相差很大,比如一個維度的最小值是0.01,另一個維度最小值卻是1000,那么也許在數據分析的時候,計算相關性或者方差啥的指標,后者會掩蓋了前者的作用。因此有必要對整體數據進行歸一化工作,也就是將它們都映射到一個指定的數值區間,這樣就不會對后續的數據分析產生重大影響。
(3)降維
由于原始數據往往含有很多維度,也就是咱們所說的列數。比如對于銀行數據,它往往就含有幾十個指標。這些維度之間往往不是獨立的,也就是說也許其中之間若干的維度之間存在關聯,也許有他就可以沒有我,因此咱們可以使用數據的相關性分析來降低數據維度。我使用過的一個方法是:主成分分析法。
二、數據模型建立與數據分析
數據模型主要包括的功能為數據的關聯性分析、數據相關性分析、數據聚類分析、數據回歸分析等。其中,數據相關性分析模塊是指在相應的路徑下導入所需要的分類文件,之后選擇變量,應用MTC的方法來對變量相關性問題展開分析。借助多變量之間的相關性數據分析來對數據中各個變量的關聯大小問題進行分析。數據關聯分析模塊能夠應用關聯性的規則算法來來對各個數據之間的影響問題展開分析,在分析之后確定數據之間有效的關聯規則。數據分析分類模塊需要在一定路徑下導入分類數據文件。數據聚類分析模塊能夠借助數據間相關性的大小問題來實現對導入數據信息的自動化分類管理。
三、數據挖掘
通過介紹神經網絡以及數據挖掘技術,針對目前大學生自主創業中存在的種種困難,利用數據挖掘中的神經網絡方法實現俄羅斯東部地區政治、經濟、自然、社會以及文化等綜合指標大數據分析,從而挖掘出比較適合大學生自主創業的選擇。
通過對各個維度的數據進行分析和挖掘,結合大學生可抵御風險水平得到如下結論:1)采用互聯網+模式進行創業為最優模式。2)綠色食品與跨境自助游是優選創業方向。3)創業團隊中最好要有俄羅斯高校的學生或俄羅斯留學生。3)有了“互聯網+”平臺,邊貿不再只是職業商人的專利。4)國家的“振興東北”政策給我們大學生創業實踐提供了內生動力。