李橋興 陳克杰



摘 要:大數據作為新的管理思維和技術手段,給大健康產業發展和灰色關聯分析建模帶來了新的機遇及挑戰。為此,本文基于大數據“海量、多源、異構、低密度價值”的基本特征,探討大健康產業的大數據表現形式及灰色關聯分析的大數據建模思路,為拓展灰色關聯分析的應用研究提供新的思路。
關鍵詞:灰色關聯分析;大數據建模;大健康產業
中圖分類號:F26/TP311
文獻標識碼:A
文章編號:1000-5099(2018)02-0057-06
Abstract:As a new management thinking and technology means, the big data brings new opportunities and challenges to develop the big health industry and establish gray relational model. On the basis of the basic characteristics of big data, i.e., mass, multiplied sources, heterogeneity and low density value, weve explored the representation method of big data for the big health industries and the modeling ideas of gray relational analysis by using big data, thus to provide a new idea to explore the application research of the gray relational analysis.
Key words:gray relational analysis; modeling with big data; big health industry
互聯網、物聯網、云計算和電子商務等科學技術的快速發展催生了經濟社會各領域的半結構化和非結構化海量數據,促使現代管理決策的思維方式和決策模式發生了巨大的挑戰和新的機遇,同時分析和挖掘大數據的潛在價值也成為現代管理決策的重要特征。另一方面,隨著我國經濟社會的不斷進步和人民生活水平的持續提高,大健康產業的發展被各級黨委和政府部門提到了戰略層面的重要位置。產業發展中不斷引入的新技術使大健康產業數據逐步具備了大數據的“海量、多源、異構和低密度價值”等特征。
灰色關聯分析是灰色系統理論的重要內容,在各研究領域被學者們廣泛引用,如區域戰略性新興產業的選擇[1]、高技術產業的創新效率分析[2]、電力系統黑啟動方案的優選[3] 等。然而,灰色關聯分析方法的應用對象是少數據貧信息不確定性問題,其適用領域是“部分信息已知,部分信息未知的小樣本數據”建模[4]。另一方面,大數據時代極大地提高了被研究領域的全部數據或信息的可獲取性,也引發了灰色關聯分析方法的應用危機。文獻[5]認為,灰色系統理論的研究對象應該只涉及貧信息而與少數據無關,即數據量與貧信息不存在充分必要的關系,從而為灰色關聯分析的大數據建模提供了理論依據。部分學者初步探討了大數據時代灰色關聯分析的應用研究,如徐蕾基于灰色關聯分析改進模型,研究了大數據時代高效財務預算績效評價 [6];李剛等根據熵權和灰色關聯模型并采用電力大數據對用電質量進行了綜合評估 [7]等。雖然文獻[6-7]的研究內容涉及了大數據的有關方面,但并未深入探討灰色關聯分析的大數據建模,其涉及的類型也是結構化數據而缺乏對半結構化和非結構化數據的建模探討等。鑒于灰色關聯分析方法在研究產業發展的相關因素(包括影響因素、關聯因素和控制因素等)等方面具有獨特的優勢和作用,本文將以大健康產業為例,探討灰色關聯分析的大數據建模模式,對進一步發展完善灰色系統理論等具有積極的促進作用。
一、大健康產業的大數據特征
大健康產業是指以維護、改善、促進與管理健康,預防疾病為目的,提供產學研產品與相關健康服務的行業總稱[8]。大數據具有4V特征,即海量(Volume)、多源異構(Variety)、低密度價值(Value)和處理速度快(Velocity)等[9]。隨著互聯網、物聯網、云計算和電子商務等科學技術的發展,大健康產業的數據逐漸具備了大數據的4個基本特征。
1. 大健康產業數據的海量特征
大健康產業數據的海量特征主要表現為數據量多,增長速度快。例如,隨著互聯網和物聯網的快速發展以及條形碼技術的普遍使用,大健康產品的產量和銷售量等數據不斷被生廠商、中間商、物流商和銷售商等存儲使用,促使數據量快速增長;又如,遠程醫療和可穿戴設備等技術使得醫院和衛生管理部門實現了病人體征等數據信息的網絡化采集與使用,促使數據量急劇增加。鑒于此,我們總結出大健康產業的大數據海量特征主要表現在以下幾個方面:
首先,目標對象的長時間監測可獲得海量數據。例如,健康種植業如茶葉和中藥材等實現了產業化和現代化,即大規模種植后采用物聯網觀測其生長環境的溫度、濕度、雨量、蟲害和風向等指標并進行數據收集,以及通過現代物流技術收集到相關產品在銷售渠道中產生的各項成本、銷售利潤、銷售價格和銷售量等數據。又如,醫院和醫療衛生機構等通過醫療設備記錄和可穿戴設備實時監控等方式得到的人體健康數據;健康種植業和健康制造業等在降低成本和規模化經營等企業活動中,其科學管理和生產模式必然涉及數據分析,等等。這些數據經過人們長時間的監測和收集整理后,其數據量將會變得異常龐大。
其次,目標群體巨大產生的海量數據。健康管理、醫療康復、養老護理和養生健身等健康產業主要面向大眾服務,必然涉及龐大的人群規模。例如,我國60歲以上的老齡人口在2016年已經超過2.3億人[10],選擇養老機構養老和智慧居家養老等模式的人群體量龐大,由此產生了老年健康海量數據;又如,當前關注健康養生的人群越來越龐大且有年輕化趨勢,僅通過互聯網關注健康養生的人群月度活躍用戶超過1 000萬人[11],每天也產生了龐大的用戶數據量。此外,國家食品藥品監督管理局的最新數據顯示,我國保健食品數目已達19 670種[12]。這些保健食品在生產、儲存、運輸、銷售等過程中將產生大量數據,等等。這些由目標群體巨大引起的數據量存儲需要現象,其產生的數據量必然十分龐大。
再次,研究對象的指標屬性多而衍生海量數據。例如,監測人體健康狀況涉及了多項指標,如身高、體重、血壓、工作量、舒適度等,其數目可達十幾個、幾十個甚至成百上千個。這些多重屬性特征也會產生海量數據。又如,在健康種植業領域,需要監測的對象不僅僅包括種植作物等有機生物的信息如生長速度、營養物質輸送狀態等,也包括耕種地塊等無機物的信息,如地塊的歷史耕種信息、播種信息、育苗信息、農膜信息、農藥化肥信息、灌溉信息、良種信息、農機信息、農情信息等[13]。另外,健康綠色產品的生產銷售也需要我們遵循“從土地到餐桌”的全過程質量控制,包括產地環境質量、投入品使用、標準化生產、產品質檢、包裝儲運等信息[14]。由于研究對象自身的復雜性以及指標的多樣性等因素,也必然會有海量數據產生。
以上事實說明,大健康產業的海量數據將成為今后產業管理和決策等活動的首要特征。有資料顯示,大健康產業預計在未來10年內將會以每年15%~20%的速度增長,其產生的數據將迅猛增長[15]。
2.大健康產業數據的多源異構特征
大數據來源十分廣泛,其構成也多種多樣。大健康產業數據的來源包括:醫療智能傳感器和治療設備等采集到的醫療對象在生理、心理、病理與治療等多方面的數據信息,智能可穿戴設備采集到的穿戴對象在溫度、血壓和心跳等多方面的體征數據信息,健康種植業在溫度、濕度、風向和蟲害等方面的數據信息以及健康產品在媒體、市場、文件和公告等多種媒介中反映的多方面的數據信息等。大健康產業數據的異構性表現在:健康產品在形態、質量、價格和地理位置等方面的信息數據可以文本、圖像、視頻、網站等多種不同形式保存;健康服務業除了服務價格、服務體驗、肢體語言和質量滿意感等即時信息外,還有消費信譽度和受眾美譽度等后期信息。顯然,大健康產業的數據來源多樣和存儲方式異構等特征導致數據的處理面臨很大困難。
3.大健康產業數據的低密度價值特征
數據的價值含量與數據總量之間不存在正比例關系,表現為在海量數據中只有少數數據能夠為管理者決策提供真正價值。由于海量數據中除了相對少量的有價值信息外,還包含了偏差信息、錯誤信息和不相關信息等,導致管理者獲取有價值信息的難度增大和有價值信息量被稀釋,因此,海量數據具有明顯的低價值密度特征。以健康醫療領域為例,每個CT圖像含有150 MB數據,每個標準病理圖包含近5 GB數據,2014年全國診療人次達761億人次,產生的診療數據高達25 467 TB,但幾百兆的數據信息中有用的信息可能僅幾個片段,對特定管理決策需求而言,無用數據信息是巨大的,造成了數據冗余。此外,對傳染病監測得到的大量數據中敏感信息少,需要動態連續監測才能捕獲異常信息或發現其流行規律[16],如此龐大的數據在采集、存儲、復制等管理過程中,不可避免地會出現數據偏差及發生數據錯誤等。因此,大健康產業所獲取目標對象的大量日常信息,必然會產生數據偏差和數據冗余等,從而不可避免地稀釋那些少量的有價值信息。
二、灰色關聯分析的大數據建模思路
隨著大數據日益滲透到現代經濟系統中的多數行業和現代管理活動中的大多數業務職能領域,大數據已然成為現代生產和管理活動中的重要生產因素和決策依據[17],并給灰色關聯分析的應用研究帶來了危機[18]。大數據建模與傳統數據建模的不同之處在于其“海量、多源、異構、低密度價值”等特征,為灰色關聯分析模型在數值采用和計算精度等方面帶來了重大挑戰。在采用灰色關聯分析研究中,其主要工作是建立灰色關聯度算法,并且算法模型主要基于以下視角:反映兩序列間發展過程或量級的相近性,或反映兩序列發展趨勢或曲線形狀的相似性, 或同時考慮兩序列曲線的相近性和相似性等[19]。顯然,灰色關聯系數及灰色關聯度建模在采用海量數據后,其參考序列和比較序列之間的相似性或相近性特征在綜合或合并過程中容易被“稀釋”或“抵消”,因此,在大數據環境下,于研究各序列間或序列內部間的模型構建過程中,要特別注重其與傳統數據序列的區別。
大健康產業中每一個具體產業的大數據序列全體均可構成一個研究對象系統,如在醫療產業中的數據,目前大致可以分為4類:患者就醫過程中產生的數據,檢驗中心的數據,藥企、基因測序數據,智能可穿戴設備產生的數據等[20]。各類數據可能在數據類型或數據數量上具有差異,各類數據所構成的數據序列也會有一定差異。為了后續研究方便,我們建立醫療產業的標準大數據序列形式如下:
相應地,對于數據序列被處理成同類型結構的非數值型數據序列,或者只需對數據元素位置進行調整,變成具有在相同位置有相同類型結構的大數據序列,則可參照前面小節的思路進行處理。
(3)無限條數據序列類型
若研究對象的數據屬性在某種條件下由于其組成對象太多而難以被一一列舉,則可能會得到無限條大數據序列。例如,在健康養生養老領域,若對人體基于細胞層次開展研究,可以將一個細胞所包含的全部信息作為一條大數據序列,這樣就會得到無限條大數據序列,并且參考序列和比較序列的數目也可能是無限條。在處理無限條數據序列時,決策者可以參考統計學的抽樣調查法、重點調查法或典型調查法等手段來處理無限條大數據序列,并基于給定的接受水平,將無限條大數據序列處理成有限條大數據序列。隨后可按照上述有限條大數據序列的處理方法來進行數據處理,并構建灰色關聯度模型。
目前已部分實現了對異構大數據的集成、管理和分析[22],但鑒于目前大數據處理在計算機技術方面還沒有完全解決,因此,大數據的灰色關聯建模還僅僅處于探討的初期階段。值得關注的是,隨著計算機特別是超導計算機、納米計算機、DNA計算機甚至量子計算機等研究得到突破,其數據運算能力將會得到極大提高,因此,由“海量、多源、異構、低密度價值”的大數據處理所帶來的難題也將會得到有效解決。屆時灰色關聯模型的研究也將獲得重要進展,并有助于大健康產業研究的長足發展。
三、結論
本文以健康產業大數據為例探討了灰色關聯分析的大數據建模問題,給出了大數據建模的預處理方法和灰色關聯建模思路。但相關成果還只是初步的,灰色關聯分析模型的具體構造方法還有待于計算機相關技術領域的突破。
參考文獻:
[1]李橋興,徐思慧,宋山梅.基于生態和發展底線的貴州省戰略性新興產業選擇[J].貴州社會科學,2017(12):163-168.
[2]張華平.高技術產業創新投入與產出灰關聯分析[J].中央財經大學學報,2013(3):61-65.
[3]李如琦,唐林權,凌武能,等.基于前景理論和灰關聯分析法的黑啟動方案優選[J].電力系統保護與控制,2013(5):103-107.
[4]鄧聚龍.灰理論基礎[M].武漢: 華中科技大學出版社,2002.
[5]李橋興.灰色運算基礎與灰色投入產出分析[M]. 北京:科學出版社,2017.
[6]徐蕾.大數據時代高校財務預算績效評價研究與應用——基于灰色關聯分析改進模型[J].中國管理信息化,2017,20(9):33-36.
[7]李剛,焦亞菲,劉福炎,等.聯合采用熵權和灰色系統理論的電力大數據質量綜合評估[J].電力建設,2016,37(12):24-31.
[8]王秀華.發展大健康產業 培育新的經濟增長點[J].法制與經濟,2015(10):120-122.
[9]周健.大數據的特征、管理與挖掘[J].中國市場,2015(45):105-106.
[10]李倩,梁立君.智慧居家養老破解養老難題[J].人民論壇,2017(26):80-81.
[11]我國健康養生市場規模已超萬億元[EB/OL]. (2016-04-18)[2018-02-10].http://www.39yst.com/xinwen/400442.shtml.
[12]國家食品藥品監督管理局.[EB/OL].(2018-02-10)[2018-02-15].http://app2.sfda.gov.cn/datasearchp/gzcxSearch.do?formRender=gjcx&optionType=V4.
[13]聶海,李琳英,石宇,等.大數據與現代農業[J].農業開發與裝備,2017(10):16.
[14]唐偉,張志華.“互聯網+”綠色食品產業發展路徑探討[J].農產品質量與安全,2015(6):7-10.
[15]大健康產業未來十年年增速將達20%[EB/OL]. (2015-06-10)[2018-02-10].http://health.cnr.cn/jkgdxw/20150610/t20150610_518806754.shtml.
[16]健康醫療大數據產業分析與前景展望[EB/OL]. (2017-08-08)[2018-02-19].https://www.cn-healthcare.com/articlewm/20170807/content-1016587.html.
[17]MANYIKA J, CHUI M, BROWN B, et al. Big data: The next frontier for innovation, competition,and productivity[EB/OL]. (2017-05-27)[2018-02-10].
http://www.mckinsey.com/business ̄funcrions/digitol ̄mckinsey/Our ̄insights/big ̄data ̄the ̄next ̄frontier ̄for ̄innovation.
[18]李橋興,徐思慧,宋山梅.基于生態和發展底線的貴州省戰略性新興產業選擇[J].貴州社會科學,2017(12):163-168.
[19]田民,劉思峰,卜志坤.灰色關聯度算法模型的研究綜述[J].統計與決策,2008(1):24-27.
[20]健康醫療大數據產業淺析[EB/OL]. (2017-11-04)[2018-02-10]. https://baijiahao.baidu.com/s?id=1583094234901924230&wfr=spider&for=pc.
[21]袁景凌,鐘珞,楊光,等.綠色數據中心不完備能耗大數據填補及分類算法研究[J].計算機學報,2015,38(12):2499-2516.
[22]東北大學破解大數據分析難題[EB/OL]. (2017-03-16)[2018-02-10].http://scitech.people.com.cn/n1/2017/0316/c1007-29148142.html.
(責任編輯:鐘昭會)