在一本月刊上寫“AI實用手冊”確實風險不小。
就拿上期專欄來說吧,我想探討的是新一代推理模型能否真正解決我們工作中“最難的問題”。寫的時候,我用的是OpenAI的o1。結果DeepSeek恰好在截稿當晚發布了R1,完美錯過。
倒不是說內容會瞬間過時。我寫這個專欄時希望,既然是印在紙上的文字,盡量做到在一年后讀也有價值。上期專欄探討的是推理模型,而同日發布的R1和Kimi的k1.5都是和o1能力相近的推理模型,現在再讀上期專欄,對理解它們在實際應用中的能力和局限也有幫助。唯一的遺憾是,由于文中沒有直接提到R1,讀者需要自行建立這個關聯。
R1相對o1帶來了幾項重要改進:可以聯網搜索,這樣就不會“不知魏晉”了;默認展示推理過程,讓用戶能更直觀地看到推理模型的神奇之處—很多時候推理過程比結果更值得一讀。最重要的是,DeepSeek將OpenAI的付費功能變成了免費服務,又憑借開放策略讓它在市場上遍地開花,讓數以千萬計的人第一次體驗到了推理模型的魅力。人們很快發現了許多不太“正經”的創新玩法:寫同人小說、角色扮演游戲、占卜算卦……連跟它模擬談戀愛都覺得它帶有理科男特有的蠢萌感。這樣一來,推理模型就不再局限于解決上期專欄提到的“最難的問題”了。
這其實就是新技術發展的規律,只是現在變化得更快了。隨著成本降低,新技術從專業領域走向日常化、娛樂化場景,變成真正的創新。繼續用我們的比喻,如果說大語言模型就像是一個接受過良好通識教育但不具有專業知識的助理,那么推理模型就把這位助理的學歷從本科升級成了博士,而成本的快速下降讓每個人都能擁有不止一個助理,可能是成千上萬個。上萬個!想象你有1萬個博士當助理—那你可不得給他們找各種雞毛蒜皮的活兒來干?
所以,新技術的有趣之處不在于替代現有勞動力,而在于它能做那些你今天根本想不到可以雇人來做的事情。
其中一件這樣的事情,就是“AI知識庫”。
先不去管它的定義,每個互聯網資深用戶肯定都像倉鼠一樣囤積了不少東西。“將來可能用得上”的資料:電子書、課程講義、數以千計的待讀文章,各類行業的研究報告和幻燈片,微信、小紅書、即刻等社交應用中的收藏夾,手機相冊里的無數截圖,還像很多父母一樣,網盤中存著大量“也許孩子將來用得上”的學習資料……
這當中的許多囤積,是源于對知識匱乏的恐懼。有研究人員將這種習慣稱之為“數碼囤積癥”(digitalhoarding),數碼倉鼠們收藏了過多資料卻從不學習,確實是一個讓人焦慮的不良習慣。
AI能在很大程度上解決這個問題。這并不是說讓AI來替你學習—學習只能由自己完成。但換個角度來想,并非所有知識都需要經過學習才能被我們使用。很少有人會把字典從頭到尾讀完,大部分我們一生中可能用到的知識,只要在需要時知道怎么去找就夠了。
AI能幫你做到這一點。以前的問題是,你收集的學習資料不像字典那么結構化,如果不學習一遍,等將來要用的時候你也無法找到,甚至不知道這個知識的存在。有了AI后,可以將它想象成一位不知疲倦的圖書管理員,它能將你所有的藏書通讀一遍。雖然它不是某個領域的專家,但它會努力用自己的常識來理解每本書的每一頁講了什么、包含什么概念,并記錄下來。和傳統的關鍵詞搜索不同,當你向這位管理員提問時,它能理解你的問題,找出概念上相關的段落,重新組織語言將這些內容整合為完整的敘述來回答你,而不是機械地查找關鍵詞。
日常使用中最讓我驚喜的是,它能在我熟讀的書中挖掘出我未曾想到過的角度。比如我將收集的育兒書籍交給AI,問它“孩子沉迷奧特曼卡片怎么辦?”,它用一本近百年前的書中的觀點回答了我。顯然,百年前的書不知道什么奧特曼,也不知道現代兒童會流行收集“谷子”,但書中關于兒童的收藏偏好和占有欲的見解仍然適用。
R1近乎免費的價格,讓我毫不猶豫地將我的圖書管理員升級成了博士學歷,它在看似毫不相關的資料中推演出意想不到的角度的能力也大幅增強,你還能看到它如何鑒別信源、思考問題。不過,所謂巧婦難為無米之炊,AI仍依賴我們人類來提供可靠的信息源。如果你在某個專業領域收集了足夠全面、高質量的資料,以此建立AI知識庫,就相當于創造了一個很棒的垂直搜索產品,回答質量應該能輕松超出市面上的通用AI搜索。
我們收集的內容中,還有大量互聯網碎片信息。如果你搜索“知識庫”搭建教程,它們往往會強調知識庫應該是“結構化”“體系化”的。
但大部分日常信息本就不是體系化的,過度追求結構反而限制了知識的活力。何況,大語言模型在大量碎片信息中大海撈針、穿針引線的能力遠超人類。對它們來說,所有文本都是一串串token,并不需要特別的結構。春節前,我們讓AI閱讀了閱覽室去年推薦過的大約300篇和個人成長有關的文章,然后根據用戶的新年愿望給出具體建議,并生成一張帶有座右銘的手機壁紙。例如,我的新年愿望是“產品準時上線”,AI敏銳地建議我要避免完美主義,并生成了一張寫著“許多偉大事業都是從某人說‘這有多難’開始的”圖片,它就是我現在的手機壁紙。
我也試著把我去年全年的日記給AI,請它歸納我情緒的變化和困擾的來源,這讓我從新角度看到了自己。
很多人忽略了AI還能利用知識庫中的現有素材再創作。這篇文章的提綱就是用R1生成的。我把我日常記錄零碎想法的筆記本和本專欄的定位提供給它,AI就在這些未經整理的碎片中找出了與知識庫、知識管理相關的碎片,連點成線,串聯成了文章的雛形。用同樣的方法來生成新產品策劃,效果也令人驚喜。
這讓我反思各種知識管理的方法論。在計算機進入人們的生活之前,我們就發明了各種筆記方法來手動為知識建立索引。某種意義上,我們花費大量時間整理筆記,都是為了方便將來查找和回顧,這實際上是在和想象中的未來的自己對話,一種難度極高的未卜先知。我覺得,這些“管理”工作反而讓我們成為知識的仆從,而不是知識的主人。
Gmail在2004年發布時有一句令我印象深刻的宣傳語:“Search,don’tsort”(搜索即可,無需分類),這也改變了我管理郵箱的習慣,就是不再管理。AI時代既然已經到來,我們也應該用新的方式來積累和管理知識。最好的知識管理工具,就是不需要管理。既然AI能夠喚醒我們積累的零散知識,我完全接受自己的筆記習慣與“結構化”“體系化”背道而馳—想到什么就隨手記下來。在我看來,快速捕捉思維碎片,比構建深思熟慮的體系化知識更重要。
不過,今天暫時還沒有完美的工具。最簡單的實踐方法,是直接把文本貼到和AI的對話框中,或將文件作為附件上傳。如果還不夠用,可選用專門的“知識庫”工具,每個工具都有一些不同的限制:數量、容量、格式、單個文件字數……沒有哪個工具能將我收集的文件一次導入。更糟的是,社交應用的數據導出往往很麻煩,甚至可以說不可能。即使我用AI編程工具寫了各種格式轉化、切割、數據抓取和下載工具,對有些數據還是無能為力。
即使克服了這些困難,這些工具還有一個根本問題:它們都將知識庫和日常積累知識的場所割裂開了。這樣一來,只適合用它們建立靜態的知識庫。想活用實時更新的日常零散知識,要么使用本身具備AI搜索問答能力的知識積累工具(比如我使用的Notion),要么就得改變收集知識的習慣,按知識庫產品的要求來收集。
這也是為什么我覺得這個領域要創業有點難,因為要讓人改變習慣非常困難,為已經存放了用戶數據的產品增加AI搜索問答能力則容易很多。稍微暢想一下,如果微信可以直接把你的聊天記錄變成知識庫,那該有多強大。