麻策 唐煜

馬蜂窩“數據造假”這事,在社交媒體洪流中,眼看著就要翻篇了。對吃瓜群眾來說,這次事件就好像一個成績優異的學長被一個不諳世事的小學弟舉報了考試作弊,他得先琢磨:我這是招誰惹誰了?
很多人也這么想。
考試作弊這種事兒在學校里其實不是什么秘密,被逮到初犯最多也就是批評幾句,下不為例。但被這么逐條拎出來,在社交媒體上傳播,之前還真沒有。
事情經過大致是這樣:上周六晚上,一個叫“小聲比比”的公眾號發布了一篇題為《估值175億的旅游獨角獸,是一座僵尸和水軍構成的鬼城?》的文章,揭露在馬蜂窩2100萬條點評數據中,有1800萬條是用機器人從大眾點評和攜程等競爭對手那里抄襲來的,還發現了7454個抄襲賬號。隨后“小聲比比”又發文質疑馬蜂窩游記和問答版塊水軍泛濫。
馬蜂窩則發表聲明,稱對文中“歪曲事實的言論,和已被查證的有組織攻擊行為”,將采取法律手段,并隨后將作者和背后的數據報告提供方乎睿數據告上法庭。但“小聲比比”又發布第三篇文章,用數據反駁了馬蜂窩聲明中的質疑,并稱做好了應戰準備。
本次事件的雙方,一方是由3名年輕海歸組成不足1年、名不見經傳的乎睿數據,一方是據傳估值已高達25億美元、新一輪融資接近尾聲的明星獨角獸公司。一個認為自己鐵證如山,一個咬定“明顯抹黑”。一來一回,事鬧得不小。
唯獨,“受害者”——被“抄襲”了數據的攜程、去哪兒等企業陷入集體沉默。
走上司法程序,往往是一個熱點事件在吃瓜群眾中開始退溫的標志。何況,對見多識廣的人們來說,這類事情早已是見怪不怪。
10月23日,事發第三天,馬蜂窩副總裁于卓在澳門出席活動表示,此次事件不會影響公司正常運營,希望未來兩三年內完成IPO。讓這一切看起來似乎真不叫啥大事。
馬蜂窩在這波輿論中似乎處于被動。但營銷界資深人士、費芮互動創始人&CEO蔣美蘭對《財經天下》周刊說:“你有沒有覺得在互聯網行業,不管是好話題還是壞話題,總好過沒話題。”
消費降級巨頭拼多多,以及下沉收割人頭的趣頭條已經證明了“話題”的重要性,而且它們都可以說是“壞話題”的受益者。
馬蜂窩正經歷的只是一場公關危機嗎?一位接近馬蜂窩的投資人認為,還可能是一次升級的機會。
但對于這次事件本身,仍有很多細節值得追問與反思。
在融資最關鍵的節點被“捅”,馬蜂窩有理由認為這是有組織的抹黑行為。
據36氪報道,數據丑聞爆發的時候,馬蜂窩本輪由騰訊領投的3億美元融資“就差臨門一腳”。其援引一位投行人士的說法,“基本close,只是股權認購協議還沒簽。”禍從天降,馬蜂窩團隊肯定郁悶。
實際上,馬蜂窩創始人、CEO陳罡也在回應里一定程度上承認了“數據方面存在的問題”,也就不難理解為什么其回應會顯得有些蒼白。一些吃瓜群眾說它偷換概念,把乎睿團隊質疑抄襲的1800萬條數據的“條數”,換成了數據“大小”,百分比因此變成了2.91%;而對乎睿團隊提及的“一會是老公、一會是女友”的用戶大變身,也完全不做解釋。
反而乎睿方是愈戰愈勇,公眾號“小聲比比”3篇文章,都被認為出拳直抵面門。
大數據從業者澳鵬公司中國業務拓展副總裁段楊認為,“這3位年輕人的做法讓公眾知道,以前靠內部爆料方式,現在通過一些公開信息,也可以分析得出一些結論。雖然這個結論可能不是權威的,但它從一個看著比較科學的角度來分析,讓大家覺得更可信。”

2018年6月28日,四川成都,馬蜂窩旅游網與商家共同打造的“網紅墻”。
事發后,馬蜂窩火速奔赴了朝陽法院,寄望通過法律維護公司名譽。
人工智能算法程序員惹上了官司,行業人士似乎變得茫然。不過,在法務人士眼里,這事有規矩。“民事訴訟中,誰主張誰舉證”,知名法律自媒體“Legal觀察”主筆人、訴訟法學博士后李斌對《財經天下》周刊說。
“馬蜂窩說乎睿有詆毀行為,就要拿出乎睿偽造證據的事實,還要證明他們這么做是有惡意的。”她進一步解釋道,如果當事人沒有惡意,只是出于公益,也不構成詆毀。
馬蜂窩作為本案的原告,最壞的結果是它的訴請不成立,被法院駁回。對于馬蜂窩未來可能面臨的法律風險,多位律師都是這么說的:這要看受侵害的平臺告不告它。如果沒有受害平臺主張自己的權利,法院也不能主動審理。
而在審理中,即使這些人工智能模型是個新事物,“如果沒有法定標準,也可以通過正常人的生活經驗來加以判斷,同時允許反證。”李斌進一步補充。
在該案件中,一個關鍵的爭議點在于,點評類內容所有權究竟屬于誰?
北京市京師律師事務所律師鐘蘭安告訴《財經天下》周刊,只要是用戶自己寫的一段文字,符合一定的標準,表達完整的意思,按照《著作權法》規定,這個作品顯然是屬于作者所有,只不過是利用平臺把作品發表出來。
“確實有平臺會設置一些個人條款,但是這些條款在法律上是無效的。平臺作為一個機構,之所以提供這樣的渠道,顯然是想要增加自己的市場黏度,平臺對這些作品有使用權。”他進一步說明,“如果把別人的客戶評論扒來放在自己的平臺上(商業化運營),這顯然是違法的。”
鐘律師一連用了3個顯然,那顯然這個問題很明確了。
一方面,內容的作者是用戶,發表在平臺上就構成了平臺的一部分。大量使用其他平臺未獲授權的內容,而且還有競爭關系,就構成了對其他平臺的侵害,這違反了《反不正當競爭法》的第二條:經營者在生產經營活動中,應當遵循自愿、平等、公平、誠信的原則,遵守法律和商業道德。
另一方面,發布大量虛假信息,誤導消費者,又違反了《消費者權益保護法》中關于消費者知情權的規定。按照鐘蘭安的說法,該權益在一般情況下可由消費者協會或者是工商管理部門來代替消費者行使,可以依據相關規定對企業進行查處。
“如果這個侵權行為確實存在,消費者可以要求3倍賠償。”但實際上,這個維權流程既復雜,舉證難度又大,獲得法院支持的不多。你比如,消費者要告平臺誤導他們去了一個不好吃、評論夸大了的餐館,這個怎么界定呢?
無論如何,司法界人士認為,馬蜂窩訴乎睿數據的案子具有典型意義:現在數據已經越來越是生產力了,大家對數據的爭奪開始劍拔弩張。類似的事件過去已有判例可尋,你能發現司法判決的要旨。
2016年一審宣判的“大眾點評訴百度案”最為典型,大眾點評以百度公司大量抄襲、復制自己點評信息的不正當競爭行為,向上海浦東新區法院提起訴訟。
根據判決書,法院在百度行為是否具有不正當性的分析中提到,點評信息是核心資源之一,具有商業價值。“百度未對大眾點評網中的點評信息作出貢獻,卻在百度地圖和百度知道中大量使用,其行為具有明顯的‘搭便車、‘不勞而獲的特點。”
最終判定結果,如你所料,大眾點評勝訴,百度違反公認的商業道德和誠實信用原則,給大眾點評造成了實質損害,構成不正當競爭。2017年,百度的上訴被駁回,維持了原判。
你能看出,雖然爬取數據在互聯網世界早已是常見現象,互聯網上也有一個一致的觀點:爬取公開數據肯定沒有問題,否則搜索引擎就不存在了,還誕生了Robots協議,也被稱為爬蟲協議,網站可以通過Robots協議告訴搜索引擎,哪些頁面你能抓取,哪些頁面你不能抓,但常見現象不代表其具有合法性。
“大多數數據雖然展示給公眾,但是其本身的民事權利(著作權、使用權、財產收益權等)往往屬于平臺或采集方,爬取雖不一定被追究,但是仍不是合法的,如需要使用他人數據,應求得權利人準許。”北京致知律師事務所律師張偉對《財經天下》周刊分析說。
“以不正當行為做大自己的市值,做大體量 ,但這些提高肯定是(利用了)從別人身上割下來的肉,是偷來的。”張偉稱。
在這件事情上,“受害者們”的集體沉默,成了一個有趣的現象。有分析認為,這可能是因為行業潛規則而有苦難言。
“都不出聲,很可能是(業內)公開的秘密被拿出來說了。”運營出身的陳艷說。
陳艷的愛好是旅游和逛吃。她是馬蜂窩的資深用戶,空閑時在上面寫寫游記。“我用馬蜂窩主要是看精選游記,然后到當地后用LBS定位附近,看路線怎么走,尋找新奇的東西。”她還特別強調,“我也是運營出身,懂里面的套路。”
電商平臺的刷單問題,早就人盡皆知。2016年移動直播興起,曾有直播室中聚集了“13億”的直播觀眾,媒體對機器人賬號造假的報道也是一波接一波。人稱“獨角獸獵手”的金沙江創投合伙人朱嘯虎公開力挺直播公司時,曾說:“(在直播間里添加)機器人是鼓勵新主播,激勵他們直播的運營方式而已。”
的確,數據造假已成為一種普遍的運營策略。哪怕是一篇文章,也存在刷量的可能。
前攜程反爬團隊人士卓超看來,能稱為潛規則的事,都很難杜絕。“就像永遠不可能杜絕大街上有小偷或強盜一樣。”
卓超每天需要面對的是“數以百千記”的攻擊和網絡爬蟲。“每天爬取我們數據的公司和團隊,絕對不止一家。”反爬工程師是一個非常累的活,“敵人”經常會在凌晨兩三點,專挑你特別不想去應付的時候,改變策略,瘋狂吸血。
他和團隊的工作是終日與那些臨時的IP地址和不斷變幻的攻擊策略作斗爭。技術上來說,爬蟲行為很難防御,就像矛和盾的關系,沒有一家公司能做到100%的防御能力。
卓超深知,旅游行業內容的重要性。旅游作為一個低頻、高客單價的行業,用戶做決策的時候很大程度上依賴別人的評價。UGC(用戶生產內容)的內容可以說是旅游企業的核心資產。
在反爬蟲和反反爬蟲的對抗上,永遠有意想不到的狀況。讓卓超理解不了的是,“一些和旅游沒有任何關系的行業,你都想象不出它爬這個東西干嘛。”
為什么搬運別人的內容,會堂而皇之地成為互聯網上的潛規則?
一位數據分析行業從業者對《財經天下》周刊分析說:“像UGC內容型的平臺,它從零開始啟動基本都需要人為地把內容先搬上去,你沒有內容,就沒有人來讀,沒有用戶也就沒有閉環。”在這個過程中,一些搬運讓冷啟動變快。這在中外都不鮮見。
當然誰都希望自己做內容,內容是核心,但有時候實現起來很難。尤其是點評,現在有些滴滴司機都已經被逼到提前結束行程,然后面帶笑容,回身盯著坐在后排位置的你,一步一步幫他完成5星好評。這可不敢瞎說,有親身經歷過的《財經天下》周刊記者作證。
更何況要建立一個獨特的內容社區,是一個苦活、累活。“UGC平臺的發展曲線時間跨度比較長,一般5到10年,內容在早期生產量是很低的。”前Pinterest增長負責人Casey Winters說,你要耐得住寂寞。
但馬蜂窩已經運營了十年,成為了出行游記最大的社區,它還用得著在點評數據上造假嗎?正如有人分析的那樣,也許涉及估值,也許與估值無關,是一種長期形成的習慣。
那么,為什么一個涉及行業潛規則的事情會突然在網絡上搞得這么大?
“那個時間點,似乎沒有什么大事件。而馬蜂窩原來是一個頗為文青、低調的社區,可最近兩年突然變得高調,商業變現加速,一旦用戶感覺社區失去了原來的味道,他們的反應能不大嗎?”一位資深媒體人分析說。
去年11月,馬蜂窩曾對外介紹,“2017 旅游電商業務交易額預計突破 90 億元人民幣”,這是很多人不曾想到的,頗為文青、低調的馬蜂窩,原來已經做得很大了。
而這個銷售額是基于當時用戶每月13萬篇游記 ,超過 1.8 億條點評,1.2 億獨立用戶數變現而來的,馬蜂窩通過游記、攻略、問答、嗡嗡,給用戶提供決策和線路定制。
危機突如其來,以致于你馬上會猜測,它是否會給馬蜂窩的融資帶來變數。

對此,36氪特意去做了個調研,得出的結論是覺得影響不大的居多。我們也去找了一些投資人,他們以ABC的化名暢所欲言:
A:“點評數據本身跟估值并不是線性的對照關系,很難說到底多少個點評值200億元,最終還是要看企業的財務表現,收入利潤才是核心。
“數據造假是這個時代的通病,既然是平臺那就沒有動力去做‘存真的工作,表面繁花錦簇就足夠了。只能說商業就是一個遞進的過程,沒有誰好誰壞,那個時代大多數人需要的就是好的。”
B:“幾年前盡調一家爆紅的公司,用反作弊相關算法測出來全是機器人用戶,后來這家公司上市了。互聯網行業絕大部分創業公司還是很不錯的,但是確實投資圈集體焦慮,太著急了。”
C:“并不是所有的投資公司都有很強的盡調能力,很早期的項目,說‘投資就是投人一定程度也是合理的,但是發展到一定規模,看人這事就不那么靠譜了。”
“我盡調碰到的最開放的公司基本都是國外的,有一家公司后臺代碼都給我們看了。國內的很多公司并不會給你開放太多東西,明星公司就更強勢了,可能連技術團隊都沒有太多時間跟你交流。”
“這三人做的對行業來說是個好事情。即便是受雇于投資公司對一家公司做盡職調查,只要本身合法合規,而且最后的結論是正確的,那也沒有關系啊。他拿了酬勞,也做了一件有意義的事情。”
坦白說,多數投資人看的還是公司能否持續增長,畢竟在中國任何企業都沒有到“商譽受損,就沒有人再理”的地步,創業者就更不用一涉及數據隱私,就像扎克伯格一樣全球巡回道歉。大部分時候,消費者嘴上罵完,回頭還是得用,那它就還是會繼續增長。
如果不用馬蜂窩,你還有第二選擇嗎?可能有,他們會舉出攜程、窮游。但這畢竟不像選咖啡館,不去星巴克,還有漫咖啡、Costa,那么多的可替代性。當被問到這次馬蜂窩的負面事件,一位馬蜂窩資深用戶說對自己“沒有影響”,輕描淡寫的語氣讓人印象深刻。不出意外,馬蜂窩會繼續增長,營收會更高。
“我們大家罵完它,卻沒有人能取代,這反而讓大家更加關注它了。畢竟有人會很認真地再寫,你還會去看。所以這兩件事情紅了他們兩個團隊。我們消費者也沒有什么取代的,還是繼續用它。”蔣美蘭說。
但這件事讓很多人開始了思考。
蔣美蘭有些疑惑,人工智能算法到底是用來干嘛的?
“以前,一個朋友問我,為什么沒有一個地方的評論是100%實在的?我也不知道。是因為太多算法出來以后,爬數據變得很容易,我們就開始用它生出更多評論嗎?”
前一陣子,她讀了一篇文章,大體表達了這樣的意思,“AI還沒有改變人,就先改變了輿論”。現在,AI可以瞬間產生1萬條評論。“但我們為什么不用算法去把好的評論整理歸納?我們好像把算法都用在了增加數量上,看起來好厲害的樣子。”
人工智能算法從業者也有疑惑。社交媒體上流傳著一位美國藤校畢業生的困惑,回國實習,組里受過最好教育的一批年輕人,996加班加點地工作,就是每天鼓搗AI技術,分析哪些無腦短視頻點擊率高,再把類似的短視頻推薦給用戶。這樣的工作有價值嗎?“無腦,但互聯網就是這樣,什么火就做什么......”
訴訟法學博士后李斌也發現,現在,給消費者武裝的大數據技術很少。“都是在談大數據怎么實現精準營銷,做用戶畫像,但是我作為消費者,能不能知道你的信息是不是真的?我們消費者要享受的真實消費權利在哪里?
這是展現在行業人士面前的一個需求。“可能大家從中理出一些鑒別方式,不排除兩三年之后,有App集成了人工智能算法,你去網上看產品,跑一下這個App,分析所有評論有多大可信度。”大數據行業人士段楊說。
“海外有專門的領域叫Alternative Data(替代數據),在美國已經很成熟了,不只用于一級市場的盡調,還包括二級市場上市公司的一些投資研判。”海馬云產品副總裁趙珅說。
替代數據這種通過公開的數據來分析公司財務運營等情況的方法,正在展現它的價值。這也是做移動數據挖掘的海馬云未來的業務方向之一。“這是好事。”趙珅說,“當社會形成這么一股數據監測的力量,它大概能讓企業守住一定的底線吧。“
還有一些人士提出了企業的原罪問題。硅谷投資人吳軍曾講述他的觀察,“扎克伯格在Facebook上市前后判若兩人。在此之前,他倡導公司野蠻生長,在工程技術上,也能借鑒就借鑒。對用戶,不注重隱私,并且從來不覺得這算是了不得的事。”盡管Facebook上市后,扎克伯格變成一個做事有原則,一致性非常好的人,但在2018年,Facebook被爆出了之前泄露大量用戶數據的丑聞,投資人紛紛要求他辭職,以恢復用戶對Facebook的信心。扎克伯格不得不為之前的事情埋單,在美國和歐洲巡回道歉,公司的市值與谷歌、亞馬遜差距加大。
原罪遲早要還的。“誰都有原罪,但那是因為新事物的規范還沒有,探路人會碰到很多問題。”一位人工智能行業人士說。但現在競爭環境不斷惡劣的狀況下,過去帶著原罪你還可能挺到上市,但現在你還用老一輩的方式做事,撞上槍口的幾率就大多了,這甚至會改變公司的發展進程。最近,這種事情尤其多。
(文中陳艷、卓超為化名)