杜英
大數據背景下社交聊天軟件模型構建
——“尋ni”:基于大學生群體的社交聊天分析
杜英
隨著信息技術的發展,特別是互聯網、云計算和社交網絡等技術的突飛猛進,大數據正成為信息社會的重要財富的同時也帶來了巨大的挑戰。該項目針對大學生群體(包括留學生),通過市場調查、模型構建和概念測試,對已有常用的聊天和服務軟件研究分析,了解大學生群體對于大數據的獲知程度和需求角度,同時利用可使用的數據“尋ni”。遇你所想遇,聊你所想聊,擴大個性化服務。
大數據;社交;有效整合;模型構建
(一)時代背景
大數據真正的價值是從海量且多樣的內容中提取用戶行為、用戶數據、特征并轉化為數據資源,對其加以挖掘和分析。但大數據的存儲、管理、挖掘、分析等缺乏全面系統的研究,數據可用性問題及如何提供精準的個性化服務值得深思。
(二)大數據研究現狀
大數據獲取和整合,通過分布在Web上的豐富數據庫資源,科學實驗與觀測數據;大數據融合與集成,集成和分析來自多個源的數據;大數據現有分析方法主要包括分類分析、聚類分析、數據挖掘、回歸分析。
目前大數據的趨勢,即數據的去冗分類、去粗取精。近10年來增長最快的數據是網絡上傳播的非結構化或半結構化的數據,要研究如何科學合理地抽樣采集數據。
2012年3月29日,美國政府宣布“大數據研究和發展倡議”,提出增強收集海量數據、分析萃取信息的能力。2013年6月,安倍內閣正式公布了新IT戰略——“創建最尖端IT國家宣言”。2014中國互聯網安全大會(ISC2014)在國家會議中心召開,涵蓋了安全領域頂尖的12場核心技術分論壇演講以及前瞻技術蜂會,預示著大數據在我國的良好發展,但我國仍存在著對數據保存不夠重視,對存儲數據的利用率不高,一些部門和機構擁有大量數據卻不愿與其他部門共享,導致信息不完整或重復投資等問題。
微信:立足雙向關注和對等交流,注重私密社交,溝通效率高,但不能獲取與其有微小關系的用戶信息,添加好友的難度大,較封閉,難以爆發大規模的傳播。在打折促銷、客戶服務、信息推送等服務方面較好,但信息推廣難度大,微信公眾平臺信息過載。
QQ:用戶基數大且有自帶的郵件功能,最大的價值是已有的大數據資源。
來往:主要的菜單頁面是:扎堆、群聊、私信,總體的知名度、影響和功能定向,不夠明確。
微博:基于單項關注和非對等交流,注重提供信息,尤其是精選內容,傳播速度快,粉絲獲取難度小,較開放,便于信息廣泛傳播。但微博現僵尸粉眾多,信息碎片化,信噪比高,廣告眾多,損壞體驗,且私信中多是關注對象所發送的官網信息,信息管理不便,不適合個人用戶之間的交流。
以杭州市各大高校的學生為調查研究對象開展聊天和服務平臺體驗調查,調查方式以問卷調查為主,訪問調查為輔的方式進行。
(一)關于在校大學生社交聊天軟件的使用情況的市場調查分析
在你的學歷、平時喜歡哪種網絡聊天工具和使用這個網絡聊天工具的頻率三題中,相關數據結果如圖1、圖2、圖3。

由此推斷,現下微信、微博的模式相對較受歡迎,超過一半的人喜歡使用,而QQ的使用人群(17.5%)相對前幾年逐漸下降,調查中發現,碩士及以上使用QQ較少,而使用其他軟件包括外國軟件如facebook的較多。在使用頻率一題中,很少使用的僅占14.2%,每天用但時間不多和需要時用共計62.9%,大部分時間在用達到22.9%。
在喜歡怎樣聊天、和誰聊天中,統計結果如圖4、圖5。

各選項統計結果比例相差較小,說明軟件設計要注意精確分組、陌生人等因素。
(二)“尋ni”——大學生社交聊天的模型構建概念測試調查分析
當問到是否在使用現有社交聊天軟件中遇到困擾一題中,有93個人表示沒有遇到問題,有45個人表示,在使用過程中找不到人聊天。深入詢問之后,7個人表示,使用太多社交軟件,但精力有限,導致許多朋友是泛泛之交;17個人表示,有聊天欲望時,期待的聊天對象卻不在線;21個人表示,找不到“聊得來的人”,即有共同話題且性格、三觀相似的人。
當問及是否會下載這樣一款軟件時,結果如圖6。

肯定會下載和可能會下載超過50%。
根據中國統計局資料可知,2013年末杭州普通高等學校在校學生數為471820人。A假設市場有30%的人能夠知道并且能夠購買該產品。由樣本得出的肯定會購買的比率=Fdefinitely=59/170=35%,由樣本可能的肯定會購買的比率=Fprobably=43/170=25%。

可見,“尋ni”軟件具有一定市場前景。
基于以上調查研究,初步構建了基于大數據背景的聊天軟件模型。軟件中將強化分組概念和推薦功能,加強搜索和精確匹配功能,該軟件主要包括交流區、通訊錄、動態區、服務區四大板塊內容,通過設置可更改個人信息。
(一)交流區:興趣小組:以興趣為導向加入,可對于話題展開評論;身邊的人聊天:主要是生活中常接觸的人;與上帝聊天:智能系統利用時下流行語,以幽默的口吻對答;異國益友:留學生專區,不出國交上外國朋友,了解他國風土人情;前輩專區:不同學校不同專業不同年級的朋友。
(二)通訊區:除常規的通訊名錄外,“尋你”特有的基于大數據的“尋ni查找”,系統通過分析與用戶賬號綁定的QQ、微信、手機通訊錄等賬號內大量的聊天數據、搜索記錄等數據,系統自動匹配相似度最高的用戶。用戶也可以通過設定年齡、地區、愛好等關鍵詞進行用戶匹配。
(三)動態區:廣告動態、時事動態、身邊動態、校園動態等
(四)服務區:助力創業:為大學生創業店提供宣傳平臺,大學生經過實名認證發布信息?;突ブ核阉飨嚓P課程的問題系統自動推薦符合條件的不同的人,再根據查看不同的人的個人資料符合條件可申請交流,幫助他人者能夠升等級。應用推薦:包括一些appstore里的熱門軟件,根據通訊錄朋友對該應用的添加量和根據你的興趣愛好系統自動推薦或按照該軟件使用點贊數和下載排名推薦。
(五)軟件設計圖

底端四個標志分別代表交流區、通訊區、動態區、服務區。圖為進入軟件界面時默認為交流區的圖。
大數據研究及其應用開發前景廣闊,也是趨勢所致。該計劃具有未來性和全球性,是未來聊天軟件市場的導向,如若能研發推廣,其可顛覆當下社交聊天軟件,必將成為大學生的“寵兒”。
[1]嚴霄蕓.大數據時代[J].計算機技術與發展第23卷第4期,1673-629X(2013)04-0168-05.
[2]李國杰,程學旗.大數據研究未來科技及經濟社會發展的重大戰略領域——大數據的研究現狀與科學思考[M].中國科學院計算技術研究所.
[3]Fact Sheet:Big Data Across the Federal Government[R].USA: ExecutiveO fficeofthePresident.2012.
[4]ObamaAdm inistrationUnveils"BigData"Initiative:Announces$200 M illion in New R&D Investments[R].USA:Executive Office of the President.2012.
[5]2014中國大數據發展分析報告,www.36dsj.com.
[6]大數據IoT時代并襲:技術革新、機遇與挑戰[J].IT時代周刊,2014,(19).
[7]詹涵菁,何人可.產品設計與開發第三版[M].北京:高等教育出版社,2012.
[8]基于JAVA語言的聊天軟件的設計與實現[J].信息科技中國科技信息,2013,(12).
[9]大數據IoT時代并襲:技術革新、機遇與挑戰[J].IT時代周刊,2014,(19).
杜英,女,浙江海寧人,浙江工商大學杭州商學院學生,研究方向:社交軟件。
F224.33
A
1008-4428(2015)03-117-02
合作創作者:樓培娜,蔡楊穎。