李勇+張敏+劉浩+李禹鋒+朱建平
【摘 要】 國際數據挖掘與應用統計研究會是我國從事數據挖掘領域研究最早的學術研究團體之一。從2006年以來,為政府、高校、研究機構以及企業界的數據挖掘專家和學者提供了一個學術交流的高端平臺。2016年第八屆年會的主題是“卓越數據共享統計的理論及應用研究”,此次會議會聚了國內外眾多專家學者,共同聚焦數據挖掘和統計應用的發展趨勢。
【關鍵詞】 共享數據時代; 數據挖掘; 應用統計
【中圖分類號】 C81 【文獻標識碼】 A 【文章編號】 1004-5937(2016)22-0024-02
第八屆國際數據挖掘與應用統計研究會年會于2016年7月23—26日在油城大慶隆重召開。本屆會議由國際數據挖掘與應用統計研究會主辦,東北石油大學、廈門大學數據挖掘研究中心、臺北醫學大學大數據研究中心、重慶允升科技大數據研究中心和重慶譽鋒宸數據信息技術有限公司聯合承辦。會議主題為“卓越數據共享統計的理論及應用研究”。來自國內外近百所高校、政府和企事業單位的200多位專家學者參會。
會議開幕式由東北石油大學數學與統計學院院長王玉學教授主持。東北石油大學副校長呂延防教授介紹了大慶市貌、學校環境和鐵人精神等,對本次會議的作用和意義進行了高度評價。教育部統計學類專業教學指導委員會主任、廈門大學曾五一教授從統計學科如何適應大數據時代的發展角度,對會議的召開提出了進一步的期望。臺北醫學大學謝邦昌教授結合大慶石油,暢談了大數據的應用前景。廈門大學朱建平教授從學會的起源到現狀,對學會未來的發展前景作了展望。
本屆大會除特邀報告外,入選論文52篇。按照論文所涉及的理論領域和方法應用,將入選論文分為數據挖掘與大數據應用、統計理論、統計方法應用及實證分析等專題進行了分組交流討論。主要學術觀點綜述如下:
一、數據挖掘與大數據研究現狀及未來趨勢研究
謝邦昌教授在《大數據發展現況與未來發展趨勢》中首先闡述了何謂BIG DATA。當你連上臉書按贊打卡、上傳照片到網絡相簿與朋友分享、上班收發e-mail、用悠游卡買杯咖啡、通過ATM領錢、走進大賣場刷卡購物甚至是進家門開燈,都正在源源不斷地創造“海量數據”。這正是云端時代的新金脈。其次是BIG DATA的理論及其應用。最重要的是如何對大數據進行分析,其基本方面如下:(1)數據可視化分析。決策者需要的不是數據本身及分析后的數值,而是龐大數據經分析之后的結果、趨勢或現象,利用可視化效果易于被接受。(2)Data Mining算法。這是大數據分析的理論核心,而深入挖掘和快速處理是兩大重要課題。(3)預測性分析。如何找出特性、科學建模、預測未來。(4)語義引擎。非結構化數據的多元化給數據分析帶來新的挑戰,要提高語義引擎設計的智能化水平。(5)數據質量和數據管理。高質量的數據和有效的數據管理可保證分析結果的真實和有價值。最后,真正制約或者成為大數據發展和應用的三個瓶頸:數據收集的合法性、產業鏈各個環節企業的均衡、大數據有效解讀。
國家統計局潘璠博士在《我看當前對大數據的一些非議——兼議大數據應用面臨的問題》中指出近幾年中國的大數據應用取得了一定的進展,但面臨的諸多障礙依然存在,且不斷出現一些對大數據的非議之聲。這些非議有的有一定道理,有的則失之偏頗。潘璠博士針對這些非議指出大數據是科學技術及社會生產力發展到特定階段的必然。盡管其發展進程中確實出現了失密、造假等嚴重問題,但這正說明必須正視大數據的撲面而來,并盡快制定各種應對措施,抓住機遇,保存價值,著力解決出現的各種問題。最后,提出完善法律法規、明確牽頭單位、統籌各部門和規范標準等措施。
重慶工商大學李勇在《網絡輿情數據挖掘方法及其在意識形態傳播新特點中的應用研究》中系統研究了當前網絡輿情數據挖掘的主要方法,并將這些方法應用于網上意識形態傳播新特點的研究中。對互聯網出現前后意識形態傳播呈現的不同特點進行了對比分析,提煉出意識形態傳播在當前DT時代的本質特征,結合主流意識形態提出相應的有效傳播方式和防范措施。
東北石油大學辛華博士在《基于密度分布的聚類算法研究》中通過密度聚類方法DBSCAN二次聚類提高了聚類精度。湖北經濟學院陳戰波、陶前功、黃小舟和王磊的《基于阿里云音樂平臺大數據的歌手流行趨勢預測及推薦研究》,山西財經大學舒居安、趙麗琴、劉逸萌的《基于網絡輿情的居民購買力傾向指數構造研究》和重慶工商大學李禹鋒的《基于網絡團購的重慶火鍋消費行為分析》等進行了大數據的應用研究。光環國際楊恩博的《大數據人才發展與培養》、廣州泰迪智能科技趙云龍的《大數據形勢下數據科學人才培養初探》和劉彬的《大數據雙創實踐探索與服務體系》,從業界不同角度探索了大數據人才培養。
二、統計基本理論及應用研究
臺灣淡江大學蔡宗儒教授在《Accelerated Degradation Tests》中,回顧了可靠度分析近期的發展,指出隨著制造技術的進步,產品可靠度大幅提升,進而提升了對產品可靠度分析的難度。而傳統設限方法和近代加速壽命測試法具有一定局限性,通過研究加速退化測試方法,指出如何針對加速退化數據進行統計推斷、評價其可靠度,如何在成本的考察下對加速退化測試實驗進行設計,以利后續的測試實驗參考。
北京大學房祥忠教授在《EM算法及其在置信推斷中的作用》中指出醫學或產品試驗費用昂貴等小樣本情況,其精確置信推斷尤為重要;Buehler置信限在多維參數或刪失數據時,難以計算,并將EM算法用于求精確置信限,給出了可靠性領域中的實證。
重慶工商大學李勇在《灰色統計基本理論及其應用》中系統研究了灰數的統計學基本理論和方法。他從隨機樣本產生灰色估計量和直接從灰色數據開始,構建了一套從數理統計逐步過渡到主要以灰色系統為研究對象的灰色統計方法,如灰數的區間估計、灰數的假設檢驗、灰數的相關分析和回歸分析等,并進行了實例分析。
哈爾濱工業大學張孟琦、田波平在《空間模型參數擬極大似然估計量的漸近性和實證》中提出了雙權重矩陣空間回歸模型參數的極大似然估計量,包括對數似然函數、集中似然函數和參數估計;證明了相合性和漸進分布性質,并實例進行了空間自相關檢驗和空間計量模型分析。
天津財經大學楊貴軍、于洋、孟杰的《基于AIC的粗糙集擇優方法》和楊貴軍、孫玲莉、董世杰的《三種線性回歸多重插補法的模擬研究對比分析》分別從粗糙集擇優和回歸插補進行了研究。云南財經大學張敏博士在《基于高層次結構的多水平發展模型的統計建模及應用》中研究了擬合高層次嵌套數據的多水平發展建模問題。集美大學紀崑的《模糊數據Jonckheere-Terpstra檢驗法及應用》探討了模糊數據檢驗。廣東財經大學的劉照德、林海明在《因子分析五個爭議的解答》中定量分析了因子分析的爭議問題。湖南大學周四軍、王佳星、羅丹在《基于門限面板模型的我國能源利用效率研究》中,基于柯布—道格拉斯生產函數理論構建了我國能源利用效率門限面板模型,并進行了實證分析。
三、統計方法及實證研究
天津財經大學楊貴軍、孟杰、鄒文慧在《基于模型平均的中國總和生育率估計》中指出目前國內學者對中國總和生育率的估計尚未形成一致性的結論,缺少高質量的數據源以及不完善的估計方法是影響總和生育率估計的主要問題;提出使用社會和經濟等“人口系統”外部數據,引入當前統計學和計量經濟學前沿的模型平均方法對中國總和生育率進行估計。
華僑大學項后軍和浙江財經大學何康在《自貿區的影響與資本流動——以上海為例的“自然實驗”估計》中,從自然實驗角度考察了樣本期內上海自貿區的設立對上海地區資本流動的影響。得出:基于雙重差分模型估計的自貿區對上海資本流動的影響顯著;基于改進后合成控制法得到的“合成上海”對上海設立自貿區之前的模擬程度更高;基于安慰劑檢驗,證實了自貿區政策的有效性。
湖南大學晏艷陽、鄧嘉宜、文丹艷在《鄰里效應與居民政治信任——基于中國家庭追蹤調查(CFPS)的證據》中,指出近年來居民對政府的信任危機頻發,矛盾不斷出現,嚴重制約著政府的行政效率;基于中國家庭追蹤調查(CFPS)截面數據,建立回歸模型進行實證分析,證實了其他信息獲取渠道與社會互動之間具有相互替代的關系,有效解決了關聯效應和反射性問題對鄰里效應估計帶來的影響。
中國南方電網科學研究院冷媛、傅薔、陳政和廈門大學范新妍在《基于MCP,Group MPC的先行、一致、滯后指標篩選》中,提出了基于MCP懲罰法的單一指標先行、一致、滯后性的判定方法和基于Group MCP的多指標系統下各個指標的先行、一致、滯后性的判定方法。冷媛、傅薔和廈門大學孫俊歌、梁振杰在《經濟景氣指數研究比較及思考》中梳理了國內外景氣指數的研究狀況。遼寧大學馬樹才、宋琪在《中國人口年齡結構變動對資本投入及經濟增長影響研究》中通過構建數理模型,就人口年齡結構對資本投入及經濟增長的影響進行研究,得出充足的勞動供給會提高教育人力資本和物質資本的使用效率,促進經濟增長,政府公共教育支出增加會提高教育人力資本對經濟增長的貢獻;并對面板數據進行實證分析。廈門大學劉云霞在《我國高技術產業創新績效影響因素動態比較研究——基于狀態空間和門檻模型相結合的研究》中確定了反映創新績效的指標以及影響創新績效的因素,再將狀態空間模型和門口模型進行有機結合,找出了各影響因素對創新績效的動態影響軌跡以及軌跡改變的關鍵點,并提出對策建議。
南京財經大學李昌峰、何紅、李珂在《產業結構對跨越“中等收入陷阱”的影響研究》中,構建了基于中等收入陷阱的固定效應變截距定量分析模型并進行實證研究。吉林財經大學燕苗霞在《中國各地區城市基礎設施水平綜合評價研究》中,利用因子分析和聚類分析法構建我國城市基礎設施水平綜合評價模型。紅豆集團魏昊和集美大學莊赟在《交通運輸設備制造業服務化及影響因素研究》中,構建了我國交通運輸設備制造業服務化影響因素指標體系,并基于Cobb-Douglas生產函數模型,對服務化影響因素發揮效用的方式及強度進行了實證檢驗。對外經濟貿易大學凌志明、王景樂在《基于Copula模型變點檢測的投資者情緒傳染分析》中,建立了主成分分析的綜合投資者情緒指標,構建了基于非參數的最佳Copula函數模型并進行了實證分析。福建農林大學闕翔、吳沖龍,劉金福在《基于地質統計學法的巖石含Pb空間分布特征預測分析》中,基于區域化變量理論和變異函數,探討地質統計學的估值、局部不確定性預測、隨機模擬和多點地質統計等方法。山西財經大學劉逸萌、趙麗琴、舒居安在《BP神經網絡在太原市PM2.5濃度預測中的應用》中,構建了預測太原市PM2.5濃度的BP神經網絡模型。河北經貿大學劉金玲在《宏觀政策對房地產價格的動態研究——基于VAR模型的實證》中,構建了VAR模型分析土地交易價格、貨幣供應量與利率變化沖擊對中國房地產價格的動態影響。
綜上所述,每年一屆的“國際數據挖掘與應用統計研究會”現已成為我國數據挖掘與應用統計領域高水平的學術會議之一。本屆會議較全面地總結和交流了我國數據挖掘與應用統計領域的最新研究進展和成果,對進一步促進相關領域的發展起到了積極作用。