向治霖

因為一起抄襲事件,面壁智能意外出圈。
5月末,斯坦福大學的一個研究團隊發布模型“Llama3V”,號稱只花了500美元,卻做了一個“SOTA多模態模型”。在AI行業,SOTA(State Of The Art)的意思是“最先進的”“最優的”,指“在某一特定任務、領域或指標上,當前已知的最佳性能或最先進的技術”。
模型的受關注度,或許佐證了“實力”。Llama3V發布不久,即在上萬個模型的社區Hugging Face上名列前茅,排名最高時,位列模型“周排行”的第四位。
只是很快,用戶指出Llama3V“套殼”了中國AI公司面壁智能發布的開源模型MiniCPMLlama3-V 2.5。
斯坦福團隊試圖抵賴,沒撐多久。6月初,兩位作者公開道歉,只是“甩鍋”之意明顯,“責任全在(已跑路的)編程人員”,“殺個程序員祭天”的傳統得到延續。
為此,“真大佬”也坐不住了。斯坦福人工智能實驗室主任Christopher Manning發問抨擊:“為什么不敢承認錯誤!”(How not to own your mistakes!)不過他也強調,自己對此一無所知,“似乎是幾個本科生做的,有一些來自斯坦福”,言語間滿滿邊界感。
單論抄襲事件,事實清楚,證據確鑿。但因此事,AI圈子里掀起一場討論:AI開源社區中的中國勢力,其能力以及對生態的貢獻,長久以來是否一直被忽視?
大抄一通的斯坦福團隊,其實“膽挺肥”——被抄襲的MiniCPMLlama3-V 2.5,在開源社區可不是什么“無名之輩”。
5月20日,MiniCPM-Llama3-V 2.5正式發布,僅僅3天后,其熱度登上開源社區Hugging Face和代碼托管平臺GitHub趨勢榜的“雙榜首”,在GitHub的星標數(可以理解為收藏數)超過3000。面壁智能當時稱,MiniCPM-V系列下載總量已超13萬。
5月29日,抄襲之作Llama3V發布。也就是說,距離“正主”發布僅9天,且還在“熱搜”時期,斯坦福團隊就直接實踐拿來主義了。
抄襲事件給原創項目又添了一把熱度。6月9日,面壁智能團隊告訴南風窗,當前MiniCPM-V 系列下載總量已超24萬,GitHub星標數超過6900。
回到事件本身,從手法上看,抄襲者也顯然是“膽大心不細”,就連模型名“Llama3V”,在“正主”處也能找到對應的字符。赤裸裸的程度令人咋舌。
因此,Llama3V發布不久就被抓住小辮子。最初是有用戶在項目下方留言:“你們是不是在MiniCPMLlama3-V 2.5基礎上進行訓練,并且完全沒有提到這一點?”
Llama3V項目的作者先是否認,并稱只是使用了MiniCPMLlama3-V 2.5的tokenizer(分詞器)。
6月2日,更多的證據浮現。有網友在項目下方列舉了四大證據,結果慘遭項目團隊刪文。質疑者氣不過,將截圖發到了面壁智能開源項目的評論區,提醒原創團隊關注此事。
該網友列舉的四大證據中,最令人錯愕的,是斯坦福團隊在項目頁上直接導入過“正主”MiniCPM-V的代碼,“重命名”為Llama3V。
面壁智能團隊告訴南風窗,6月2日深夜,團隊正式確定了斯坦福大模型是對其的“套殼抄襲”。團隊負責人解釋,這般肯定是因為,面壁大模型獨有的“彩蛋”功能,Llama3V居然也有。
這項功能是對“清華簡”戰國古文字的識別。
“清華簡”是清華大學在2008年收藏的一批戰國竹簡。一參與者回憶,面壁團隊的同學們花費數個月,從清華簡上掃描得到訓練數據,層層工作后將對清華簡的“識別能力”融入MiniCPM-Llama3-V 2.5模型。“這個能力這次沒有進行宣傳展示,沒想到最后成為揭露真相的關鍵證據之一。”
距離“正主”發布僅9天,且還在“熱搜”時期,斯坦福團隊就直接實踐拿來主義了。
訓練數據對于大模型,就像是書本對于學生,學生的天資(對應模型的參數量)再高,如果沒有書本,也不能掌握特定的能力。但面壁團隊的測試發現,斯坦福團隊大模型對清華簡的識別,“不僅對得一模一樣,連錯都錯得一模一樣”。
又過2天,斯坦福團隊三人中的兩人,Siddharth Sharma和Aksh Garg公開道歉,但同時稱他們只負責其中項目推廣的工作,唯一“技術骨干”Mustafa Aljadery則無法聯系上,其社交媒體賬號也已設置為私密。
鬧劇告一段落,6月5日,面壁又有大動作,在官微上宣布,對面壁的性能“小鋼炮”MiniCPM系列大模型開放免費商用。
面壁智能對南風窗解釋,今年是其開源社區OpenBMB三周年,MiniCPM-Llama3-V 2.5是“我們在5月20日送給每位的節日禮物,很高興現在能夠讓更多人知道我們的節日禮物”。
回顧抄襲事件的始末,面壁團隊的應對低調、周全。面壁聯合創始人、清華大學長聘副教授劉知遠還在回應時提到,“(兩位本科生)未來還有很長的路,如果知錯能改,善莫大焉”。
不過,無論是劉知遠、面壁CEO李大海,還是面壁團隊給出的回應里,都嚴肅強調了“對開源協議的遵守”。
事實上,被抄襲的MiniCPMLlama3-V 2.5也不是完全自研,其建立在開源模型Llama3 8B(80億參數)的基礎上,后者是美國公司Meta今年4月開源的大模型之一。
開源社區支持和鼓勵復用前人成果,由此“站在巨人的肩膀上”,聚集智慧、共享協作。相應地,開源共享的底層邏輯,是對開源協議的遵守,對其他貢獻者的信任,對前人成果的尊重和致敬。
比較之下,MiniCPM-Llama3-V 2.5在名稱上仍保留“前作”Llama3的痕跡,“致敬”并沒有藏著掖著,而斯坦福團隊的“Llama3V”則在臺前臺后都抹掉了MiniCPM。此處順便一提,CPM的全稱是“中國的預訓練模型”(Chinese Pretrained Model)。
澄清開源的邏輯,也就破除了“開源就是方便抄襲”的偏見。“國外一開源,國內就自研”一句譏諷意味的話,始終是國內開源項目廠商頭上揮不去的一片烏云。斯坦福團隊抄襲事件發生后,仍然有聲音質疑說,面壁MiniCPMLlama3-V 2.5也是抄的Llama3,與斯坦福團隊不過是“先抄”“后抄”的區別。
然而兩者絕不等同。前文清華簡的例子說明,新的訓練數據,可以給大模型加上此前未有的功能。框架優化、參數微調等,也都有同樣功效。
基于開源項目的項目開發,好比一個游戲,基礎大模型如Llama,就是玩家進入游戲時拿到的“布衣”角色,通過升級打怪氪裝備,玩家號從“布衣”升級到“黃金圣斗士”。而抄襲呢,就是直接盜號了。
由此一窺事件中真正的主角MiniCPM-Llama3-V 2.5,在以語言模型Llama3 8B為基礎的前提下,主打的卻是多模態能力,即能夠處理不同類型的數據,如圖片、文字等。
在開源社區上,面壁提供的Demo相當簡單:模型啟動后,用戶可以在界面上傳圖片,而后模型將對圖片進行分析,輸出相應的文字信息。
這涉及模型的對圖片識別理解能力和OCR(光學字符識別)能力。前者是模型對各類復雜圖片,如票根、營養食譜等的準確識別和理解,后者是指將印刷或手寫文本轉換為機器可讀數據的能力,常用于文檔數字化等。
各項指標中,MiniCPMLlama3-V 2.5的OCR能力尤為突出。面壁團隊表示,該模型OCR能力達到SOTA;在端側多模態綜合性能方面超過了Gemini Pro、GPT-4V等千億參數級的大模型。
如此也就不難理解,MiniCPMLlama3-V 2.5,乃至“抄襲之作”Llama3V,為何能在短時間內登上開源社區的“熱搜”。
6月11日凌晨,蘋果在全球開發者大會上官宣“蘋果智能”,新的Siri成為蘋果版人工智能的入口。可以想見,新的一輪應用AI化即將到來。
發布會上,蘋果的“in-app Action”令人印象深刻。演示中,用戶只需要對Siri發出指令,如“整理女兒學習游泳的照片”“安排下午去機場的行程”,蘋果智能即可自行整理不同時間拍攝的 “從學習到學會”的照片時間線,以及自動記錄行程、設計路線、預測交通狀況等。
用蘋果的話說,新的Siri是一個強大的、懂得手機的具體使用者個性偏好的個人助理。
目前,蘋果尚未披露上述功能是手機端模型還是云端模型、抑或兩者協同來實現的,但從演示效果來看,新的Siri能夠實時地理解手機界面的信息,據此推理和生成內容,其表現與OpenAI演示GPT4o的人機互動功能時所展現的“同根同源”。
面壁聯合創始人、清華大學長聘副教授劉知遠還在回應時提到,“(兩位本科生)未來還有很長的路,如果知錯能改,善莫大焉”。
千億參數決定了,GPT4o不可能在手機端運行。如前文所說,上述功能涉及的圖片識別、理解能力,以及OCR能力,是面壁MiniCPMLlama3-V 2.5的主打功能。
但MiniCPM-Llama3-V 2.5的一大優勢是,它本就是面向類似手機等小型終端設備設計的。
官方文檔中,面壁演示了該模型在小米14pro上“絲滑”運行。在“最強端側多模態綜合性能”表現下,MiniCPM-Llama3-V 2.5量化后為8G顯存,在手機端推理無壓力,每秒6—8個令牌的推理速度相當可用。作為對比,基礎模型Llama3 8B在手機端的推理速度每秒僅0.5個令牌(一般一個漢字為2—3個令牌)。
當然,必須說明,模型的能力與蘋果展示的系統級AI完全不是一回事。但是技術有了,產品化也只是時間問題。以蘋果的體量所帶來的影響,端側模型的部署力度和市場前景是值得樂觀的。
端側模型也可以成為“小模型”,入局者同樣眾多,但面壁智能對小模型格外專注。在言AI必提大模型的過去一年多時間里,這讓面壁顯得有些特別。
面壁團隊告訴南風窗,押注小模型的關鍵,是發現小模型的能力未必弱于大模型,如MiniCPM-Llama3-V 2.5在“讀圖”方面展示的,是“用規模1/100的模型,達到了國外知名大模型的同等性能,訓練成本也極低”。
另一方面,小模型對應的手機終端,是“離用戶最近的地方”。中國電信的統計顯示,2023年中國存量手機上的算力總量,是全國的數據中心算力總量的12倍。面壁認為,“未來的端側算力的總量,一定是要超越我們在云側的這些算力總量,這些算力一定要充分利用”。
同時,訓練小模型不僅僅是沖著端側市場,它也對訓練出更強的大模型有幫助。
“做端側的模型比做云側的模型要求更高。”面壁團隊認為,原因在于設備本地端的算力和內存部署大模型,相比云側的大規模服務器集群,要求會更苛刻。
面壁把更多的知識壓到一個更小的模型里面去,在設備本地端就可以運行,并取得非常好的效果。“如果我們一定要去訓練一個好的云側模型,那我們用類似的技術,一定可以做到這個世界上最好的云側模型。”
當然,真正打通這條路徑,會是一個漫長的過程。