到7月,我們開始做AI產品就滿一周年了。一周年!要是一開始就知道要花整整一年,我肯定不會做。因為我原本只是打算在繼續迭代閱覽室之前做一些和“認真閱讀”有關的探索而已。
不過,我這會兒的確不那么焦慮了。很多時候,人的情緒其實來自對自己的不滿:如果自己當初再努力一些、再聰明一些、再體貼一些……情況也許會不一樣呢?我現在認為,要做好一個AI應用,工作量就是挺大的,并不比做傳統的互聯網應用小。既然客觀如此,那就沒有什么對自己的不滿了。
這聽起來有點違背常識,畢竟這年頭流傳更廣的故事是,某某某花了一個星期,利用下班后的業余時間,就上線了一個產品。此類故事里用來度量時間的單位也越來越短,從一個星期變成一個周末,再變成兩個小時……在AI的加持下,如今編程的門檻確實越來越低,幾秒鐘內就可以請AI生成一個產品的完整代碼。過去,拿到AI生成的代碼后還得自己想辦法運行,根據熟練程度這項工作要花幾分鐘到幾小時不等。最近,Claude里上線了一個名為Artifacts的新功能,將這最后一步也打通了,可以讓你直接體驗AI生成的代碼運行起來的效果。這么一來,將創意變成現實中的產品,真的只需要幾秒鐘了。
這些都是真的。經過這一年的工作,我現在明白:和開發傳統應用相比,要做出一個60分的AI應用的確要容易得多,就像上面這些例子一樣。但要從60分提升到90分,做AI應用反而會更艱難一些。
先說達到60分的部分。所謂60分,大概就是可以用來驗證概念的產品原型,有一些亮點,同時也有更多的問題。對照著使用指南的話勉強能用,往往不太可靠,稍微擺弄一下可能就會散掉,還缺少很多基礎功能,用戶必須發揮一些想象力,才能“腦補”出最終成品的樣子。
售價3萬元起、裝滿了高精尖技術的Vision Pro是現在完成度最高的混合現實產品。與之對比,我家里還有一個紙盒,是2014年Google I/O的贈品。到手以后需要自己折疊,在上面安裝兩個塑料鏡片并塞進紙盒,在手機上打開指定的演示應用,再將這個紙盒舉到眼前——這就是一個最簡單,甚至可以說簡陋的虛擬現實(VR)頭顯了。
回頭一看,也算是豁然開朗,知道自己走了很遠,也知道自己穿過了重重迷霧。
我就是在這樣一個成本只需幾塊錢的紙盒里第一次體驗到虛擬現實的。這就是VR的60分產品——顯然無法日常使用,但足夠讓人從無到有地感受到虛擬現實的魅力。在AI應用這個領域,要做出60分的產品原型真的特別簡單,我之前也建議過,如果你有一個想法,寫一個提示詞,就可以在ChatGPT這樣的通用AI聊天界面中“模擬”出各種各樣的產品形態了,還有類似Dify、Coze這樣的工具可以讓你在一行代碼都不需要寫的情況下,搭建出一個更復雜的AI應用原型。現在,國內許多大模型廠商也推出了類似OpenAI的GPTs這樣的“智能體”平臺,你還可以在上面搭建和發布自己的“產品”。歸功于大語言模型本身的強大,其實你不需要做太多事情,也不難感受到自己做出來的這個產品的亮點。
這就是為什么一開始做的時候都很容易以為自己是天才,覺得明天就可以上線。
60分的產品非常有意義。類似Hackathon這樣的活動,唯一鼓勵的就應該是做出60分的東西,因為眼見才能為實。應該用充滿想象力的樂觀的心態來評價它們。但如果要交給用戶使用,有不同的評價標準。這樣子搭出來的產品可靠性都比較差,往往必須嚴格按照產品設計者設想的格式和流程輸入文本,才能獲得想要的結果。
再說從60分到90分。其實傳統App的研發要從60分提高到90分也特別困難,主要是細節會越來越多。我之前打過一個比方,這就像從舊金山徒步前往洛杉磯,在地圖上看只是一條四百多英里的海岸線而已,理論上7天就能走完。但實際上,沿途的地形地貌復雜多變,可能需要翻山越嶺、涉水渡河,甚至繞道而行,最終的行程將遠超預期。傳統App研發收尾時的失控感就是來自此處,就像搬家時收拾東西一樣,總是能在被遺忘的角落里多收拾出來幾箱東西。
但起碼你每天都知道自己是在往前走的,可以說進一寸有一寸的歡喜。
AI應用從60分到90分的過程則充滿了不確定性和探索性。核心要改善的是可靠性,讓大語言模型穩定地輸出滿足用戶需求的結果,同時避開大語言模型的種種缺陷,比如幻覺。這個過程中你需要不斷嘗試調整提示詞、參數,甚至重新設計編排和大語言模型的交互過程。由于大語言模型的“黑盒”特性,你很難知道是自己的哪個改動帶來了效果的變化,甚至在大部分時候,改動帶來的可能是負面效果。即使在某個地方實現了想要的效果,又可能導致你沒有注意到的另外一個角落出現了一個新的問題。真是牽一發而動全身,頗有四處拆東墻補西墻的感覺。
有點像教小朋友學東西。
研發研發,顧名思義就是研究和開發。這兩個字常被放在一起講,但其實是兩種不同的心態。開發更像是個工程問題,相對而言可以是嚴謹的、確定的;研究則是個科學問題,相對而言是探索性的、不確定的。傳統App從60分到90分更像是工程問題,而AI應用到了這個階段,我目前的感受是更像研究。
這中間很難熬,會經常被問到什么時候才能做完,但這是一趟看不到終點和路徑的旅程,只能看到眼前的一點點路,實在是難以預估。
那么,為什么非要做到90分呢?
假如我們使用10次,有2到3次實現了令人驚艷的效果,從驗證概念的角度就足以說明這個概念的有效性了。但從日常使用的角度,10次中有9次拿到了滿意的結果,只有1次不行,也會動搖你日常使用這個產品的信心和習慣。今天市場上一般的消費級互聯網產品,對可靠性的要求至少是“三個九”,也就是99.9%。影響力更大的產品要求往往更高。但今天的許多大語言模型產品,就任務完成率而言,我感覺可能連一半都沒有,像我之前吐槽的Gemini for Google Workspace、Humane Ai Pin,還有rabbit r1等,都是這樣。
最近在社交媒體上有一個帖子,問AI“3.9和3.11誰大”。大部分時候,AI會給出在常識看來錯誤的答案,告訴你3.11更大。有人說,這說明AI還很傻,連這么簡單的數學都不會,離能取代我們的工作還遠著呢。也有人說,這說明用戶還不理解大語言模型的局限性,例如幻覺、數學邏輯推理能力不足等。
我覺得這兩種說法都對。但我想說的是,為什么用戶需要理解大語言模型的局限性?大語言模型的確數學還比較差,但今天大多數的AI產品都是讓用戶自由輸入,也沒有排斥用戶輸入數學問題。
目前很多AI產品的用戶都是技術愛好者或者從業者,大家可以理解技術的局限,也會有更多寬容。但大眾用戶不會這么想,即使是樂意嘗鮮的那一部分大眾。這一點對所有的技術都是公平的。對任何一門技術來說,當它需要跨越鴻溝,從面向技術愛好者走向大眾時,都需要滿足大眾用戶對技術的預期。我們需要努力推動今天的AI產品走過這個階段。
也不要說什么每個人都必須學會提示詞工程。我們小時候類似的話聽得多了。21世紀是生物的世紀,21世紀是計算機的世紀,21世紀不會英語不會開車不會編程將寸步難行……對于對新技術充滿好奇心、希望快人一步的人來說,額外付出努力去比別人更早地理解技術當然是有好處的,也是應該鼓勵的。但對于大多數人來說,從實用主義的角度完全不必擔心。今天,計算機的確無處不在,但是3歲小朋友拿起手機也會用,不需要像我們以前那樣還要先上打字課。智能手機及其應用在“適老”方面還存在各種問題,但大部分人并不需要特地“學習”手機如何使用。
技術在像我們這樣的從業者的努力推動下(當然,背后更大的推動力其實是市場競爭),就是會不斷向普通人靠攏的。隨著模型能力的提升,所謂提示詞工程的技巧也將越來越不重 要。
多說一句,那真正的核心能力是什么呢?家里親朋知道我在做AI,問我,孩子還要學作文嗎?和AI交互,核心還是理解語言,知道如何用語言來準確地表達自己的需求,讓對方理解。學寫作文,不是應試的那種套話文章,核心學習的就是這一點。這的確是一個日常必備的技能,除非某一天腦機接口的發展真的可以讓AI成為你肚子里的蛔蟲吧。
其實在大語言模型出現之前,這項技能也是欠缺的,尤其是甲方的朋友們。要不然“五彩斑斕的黑”這樣的笑話是怎么出來的呢?
所以我想,還是要努力做到90分,即使這很難。
這和所謂的精益創業、最小可用產品的理念也不沖突。所謂90分,我覺得就是充分地做到了向用戶宣稱自己能做到的事情,有些無關緊要的事情仍然可以不做,比如初代的iPhone沒有App Store、沒有剪貼板、沒有通知中心。產品的亮點應該做到90分,其他方面60分就可以。否則,如果產品失敗了(這是大概率事件),很難判斷是猜錯了用戶需求還是質量不好,既浪費了時間也浪費了想法。將核心體驗做到位,如果還是失敗(仍然是大概率事件),我們就很容易判斷問題所在,時間換來的是寶貴的經驗,這就是進步。
落差來自于開局過于容易,不免會對整個旅程的難度產生一些錯誤的預期。
其實還是低估了難度。我之前分享過自己的思路,正是因為模型的能力有局限,才需要通過產品設計來限制用戶的輸入、塑造合理的預期。只是,看到“胃之書”對AI的使用,我覺得其實我“切”的這一刀還不夠狠。胃之書對AI的使用更加揚長避短一些。
這種看不到終點的旅程的確很難熬,中間很多時候我也想過放棄它繼續做閱讀,但總覺得半途而廢是最浪費時間的。完整地走一遍整個過程,至少能學到很多新的東西。就好像現在走到了這里,回頭一看,也算是豁然開朗,知道自己走了很遠,也知道自己穿過了重重迷霧,能看到迷霧里的東西。所有走過的路必定會留下痕跡,即使這幾個產品失敗(還是大概率事件),我們至少掌握了做這個事情的一手經驗,一定是有機會connecting the dots的。
好在最近的評測結果顯示,我們產品的可靠性超過95%,接近99%了。還是沒有傳統產品那么可靠,但我覺得可以接受。
說不焦慮吧,其實還是焦慮的。大家都在探索,比的就是誰探索得快。更努力、更多地投入,還是可以做得更快的。這就是無限的想法和有限的能力之間的矛盾。