解決一個(gè)難題

2024-09-14 00:00:00王俊煜

第一財(cái)經(jīng) 2024年9期

最近的工作進(jìn)展不錯(cuò)，我整個(gè)人也變得雀躍起來。

我一直沒有具體介紹過現(xiàn)在在做的AI產(chǎn)品。按我的思維慣性，應(yīng)該等正式發(fā)布再介紹，顯得更鄭重一些。但這個(gè)專欄本來就是與讀者朋友分享創(chuàng)業(yè)進(jìn)展的“月報(bào)”，在這里寫東西也完全沒有宣傳目的，是應(yīng)該多談?wù)勎赐瓿傻墓ぷ鞯摹?/p>

最近半年我花時(shí)間在做的是一個(gè)AI筆記工具。AI和筆記結(jié)合是去年夏天定下來的命題之一。之前也分享過，對(duì)產(chǎn)品創(chuàng)新而言，AI帶來的是技術(shù)可行性上的突破，所以不必花精力去尋找新的用戶需求場(chǎng)景。我們當(dāng)時(shí)在頭腦風(fēng)暴中問自己：有什么我們熟悉的、大多數(shù)人每天都要高頻使用的場(chǎng)景，是大語(yǔ)言模型的文本理解和生成能力能幫得上忙的？最好是能幫得上大忙。

記筆記肯定是其中之一，這個(gè)場(chǎng)景我們也熟悉。閱讀和筆記本來就密不可分，閱覽室和過去輕芒中的筆記功能使用率都很高，單個(gè)用戶動(dòng)輒積累上百萬字的馬克劃線記錄。在這個(gè)場(chǎng)景中做的探索，之后也可以整合進(jìn)閱覽室。

當(dāng)然，筆記本身是個(gè)很大的領(lǐng)域，不同人、不同筆記的用途和習(xí)慣很不一樣。很多時(shí)候“筆記”是較為正式、完整的記錄，例如課堂筆記、會(huì)議記錄、讀書筆記等，對(duì)筆記工具的管理、排版要求比較高。

我們最后挑選的方向，叫“便簽”可能更合適一些。用樸實(shí)的語(yǔ)言來介紹，這是一個(gè)幫助你隨手記靈感的工具，就像便簽一樣。例如，雖然這個(gè)專欄一個(gè)月只寫一篇，但我日常會(huì)不時(shí)想到一些可以在下個(gè)月的專欄中談?wù)摰脑掝}，這些想法需要及時(shí)捕捉，否則會(huì)忘記。傳統(tǒng)的筆記工具也可以服務(wù)這個(gè)場(chǎng)景，但腦子里的靈感像是正在思維的土壤中快速生長(zhǎng)的種子，原始的想法如果直接寫下來是非常混沌模糊的，等到再次回顧時(shí)，往往自己也看不懂了。如果在記錄時(shí)仔細(xì)遣詞造句，記錄的速度又會(huì)遠(yuǎn)遠(yuǎn)跟不上靈感的枝葉生長(zhǎng)的速度，會(huì)丟失很多想法。

AI能幫不少忙。理想的體驗(yàn)：隨手記錄任何一閃而過的想法、靈感、感受。只言片語(yǔ)，不需要完整的句子和段落，可以打字，也可以用語(yǔ)音。我們的AI便簽會(huì)做兩件事情，一是自動(dòng)編輯，將你在倉(cāng)促中輸入的思維碎片整合成邏輯通順、易于閱讀的完整文本，這樣你可以想到什么就寫什么。二是自動(dòng)追問，AI會(huì)根據(jù)記錄的內(nèi)容生成一些提示，可能是沒有表達(dá)清楚的地方，也可能是可延展的想法，來幫助你梳理思路，激發(fā)新的靈感。

要知道自己不知道，果然是更高階的智慧。

上期內(nèi)容說，大語(yǔ)言模型應(yīng)用從0分到60分特別容易，從60分到90分特別難，這正是來自做這個(gè)項(xiàng)目的感受。原型在去年8月下旬花了兩周開發(fā)，然后用一個(gè)多月做到了可以上線測(cè)試的60分狀態(tài)。從上線測(cè)試到現(xiàn)在，也就是想從60分提升到90分，則花了半年多的時(shí) 間。

之前分享過上線測(cè)試時(shí)發(fā)現(xiàn)的最明顯問題是語(yǔ)言問題。除此之外，還有一些更難的。

比如，這個(gè)工具就是用來捕捉用戶非常碎片化、語(yǔ)焉不詳?shù)妮斎氲模@有一個(gè)度的問題。一般情況下，我們可以讓大語(yǔ)言模型根據(jù)常識(shí)和上下文補(bǔ)全缺失的邏輯、主語(yǔ)等，但如果用戶的輸入實(shí)在無法理解，合理的做法是將用戶的輸入先原封不動(dòng)記下來，再追問用戶。實(shí)際上大語(yǔ)言模型在此時(shí)仍然會(huì)按照自己想當(dāng)然的邏輯去補(bǔ)全，但這往往不是用戶的原意。

要知道自己不知道，果然是更高階的智慧。

再比如，用戶也會(huì)在筆記中寫自己的一些疑問，比如“宇宙的意義是什么？”，這種情況下，大語(yǔ)言模型也很容易自作主張?jiān)诰庉嫻P記時(shí)將答案寫進(jìn)去。

這些都是AI自動(dòng)編輯功能帶來的問題，經(jīng)測(cè)試，其他AI寫作產(chǎn)品也有類似的問題。這些問題出現(xiàn)時(shí)，產(chǎn)品的使用體驗(yàn)反而不如傳統(tǒng)的、“不智能”的筆記產(chǎn)品。要避免這些問題，最簡(jiǎn)單的做法就是讓AI變得更保守一些，但這樣的副作用是AI又會(huì)變“懶”，有許多該修改、該補(bǔ)全的地方也不改了，這也失去了產(chǎn)品價(jià)值。所以這其實(shí)是一個(gè)平衡，要有針對(duì)性地解決出錯(cuò)的地方，又不能讓大語(yǔ)言模型過度保守。

核心當(dāng)然是提示詞。改提示詞不難，難的是如何衡量修改效果，以及像上期專欄中提到的，如何避免不知不覺中拆了東墻補(bǔ)西墻。

這是個(gè)難題，但我覺得如果不解決這個(gè)問題，解決再多其他簡(jiǎn)單的問題也沒有意義。所以我決定先難后易，在這上面選擇了死磕。當(dāng)然，要是一開始就知道要磕半年，可能我就放棄這個(gè)方向了。

這半年中有三四個(gè)月的時(shí)間是花在學(xué)習(xí)、摸索和搭建一個(gè)改進(jìn)大語(yǔ)言模型應(yīng)用的工作流。

首先，我需要先定義好清晰的標(biāo)準(zhǔn)和可度量的指標(biāo)。我們希望大語(yǔ)言模型能將筆記編輯“好”，那什么叫“好”？一段文字是“好”是“壞”，有經(jīng)驗(yàn)的編輯一眼就能看出來，但要教大語(yǔ)言模型如何當(dāng)一個(gè)好編輯，還需要更針對(duì)性地提出要求和標(biāo)準(zhǔn)。

我花一兩周時(shí)間收集了大約150個(gè)我們的AI便簽表現(xiàn)得“壞”的例子，又收集了一些表現(xiàn)得“好”的例子，然后根據(jù)這些例子來歸納、總結(jié)“好”“壞”的標(biāo)準(zhǔn)，以及打分的量表。比如，不能曲解用戶的原有意圖，不要用長(zhǎng)句子，新輸入的信息不一定放到最后而是應(yīng)該放置到邏輯上合理的位置，多用轉(zhuǎn)折詞來連接，等等。一開始大約總結(jié)了20條標(biāo)準(zhǔn)，然后拿實(shí)際例子去嘗試打分，發(fā)現(xiàn)不合理的時(shí)候再回去修改標(biāo)準(zhǔn)。由于標(biāo)準(zhǔn)一開始比較模糊和抽象，邊打分邊修改的速度非常緩慢，這又花了我兩個(gè)多月的時(shí)間。

完成這項(xiàng)工作后，對(duì)現(xiàn)在產(chǎn)品的表現(xiàn)就有了定量評(píng)分，可以開始修改提示詞并且定量評(píng)估效果了。每次修改完提示詞后我會(huì)運(yùn)行這150個(gè)例子，此時(shí)可以粗略看一下表現(xiàn)如何。在修改接近完成、準(zhǔn)備提交時(shí)，則會(huì)用20個(gè)標(biāo)準(zhǔn)全面測(cè)評(píng)打分，以確保改進(jìn)效果和避免副作用。修改提示詞有時(shí)候確實(shí)有牽一發(fā)而動(dòng)全身的感覺，有些微小的修改會(huì)對(duì)看似毫不相關(guān)的地方產(chǎn)生影響。

我發(fā)現(xiàn)要進(jìn)入心流，做的事情不能太難，也不能太簡(jiǎn)單。打分過程我做得非常緩慢，一開始是因?yàn)樘y，需要一邊打分一邊調(diào)整打分標(biāo)準(zhǔn)。后來則是因?yàn)樘?jiǎn)單，很容易開小差。以后可以考慮交給大語(yǔ)言模型自己來打分了。

我在這個(gè)AI便簽工具中也實(shí)踐了許多之前講到的產(chǎn)品設(shè)計(jì)原則。比如用戶不需要輸入任何prompt，開箱即用；比如AI不能為你代筆，我的產(chǎn)品不能像其他AI工具一樣輸入一句話的提示詞，就編出來幾千字洋洋灑灑的文章。我們?cè)噲D讓AI做一個(gè)好的編輯，通過編輯和提問來幫你挖掘自己的想法，并表達(dá)清楚。

比如我們想探索聊天之外的可能性，不做聊天界面。AI便簽不是聊天機(jī)器人，也不是什么“萬能”的AI助理，而是一個(gè)專注于“捕捉靈感”的AI筆記工具。

但我們的自動(dòng)追問功能一開始生成的問題非常像一個(gè)人在跟你聊天，會(huì)有客套話、有贊美。有不少用戶會(huì)認(rèn)為這些追問是必須回復(fù)的。這時(shí)候我就意識(shí)到，這些追問過于“人性化”了。

“人性化”在日常語(yǔ)境中往往是個(gè)褒義詞。我第一次意識(shí)到“人性化”并不總是好的，還得益于之前在Google工作時(shí)，搜索產(chǎn)品的主管Marrisa Mayer要求Google的搜索結(jié)果界面一定要顯得是冷冰冰的機(jī)器生成的，而不要有人工干預(yù)的痕跡，因?yàn)檫@樣子會(huì)顯得更加客觀公正。

在這個(gè)AI便簽工具中，“人性化”也是不好的，因?yàn)闀?huì)影響效率。理想的狀況下，用戶快速連續(xù)輸入自己的靈感，看到有意思的AI追問時(shí)可以展開講講，大部分情況下可以直接無視。這是個(gè)工具，你不需要和它客套、聊天，不需要顧及其感受。但如果對(duì)面是個(gè)“人”，無視別人的提問顯然是很不禮貌的，因此或多或少，潛意識(shí)里會(huì)有必須回答的心理壓力。

有一個(gè)我們很喜歡的功能最終因此放棄，就是給追問加emoji。加上emoji的追問的確生動(dòng)有趣了很多，但人們會(huì)更容易覺得是在和一個(gè)“人”對(duì)話。

搭完工作流后，我大約花了一個(gè)月重寫提示詞，不斷修改、測(cè)評(píng)，改進(jìn)上面提到過的那些問題。最后，重要指標(biāo)達(dá)到了上次說的95%準(zhǔn)確率，我滿意了。一旦解決了最難的問題，剩下的問題雖然仍然很多很瑣碎，就像之前我打的比方中從舊金山徒步到洛杉磯會(huì)遇到的障礙一樣，但每個(gè)問題都可以迎刃而解，工作節(jié)奏很快。這種情況下也挺容易進(jìn)入心流的。這就是上期專欄最后說的，走出迷霧的感覺。

現(xiàn)在我自己用這個(gè)產(chǎn)品來記錄靈感，也很容易進(jìn)入心流。

這款產(chǎn)品會(huì)有一個(gè)新名字，并在海外率先上線。我相信這是一個(gè)新物種，能帶來一種新的、和過去所有的體驗(yàn)都不一樣的記錄靈感的方式。它仍然不一定能成功，但經(jīng)過這半年的優(yōu)化，如果不成功，應(yīng)該可以頗為確定，是我對(duì)用戶需求的假設(shè)不準(zhǔn)確，而不是因?yàn)楫a(chǎn)品質(zhì)量不過關(guān)。

第一財(cái)經(jīng)2024年9期

第一財(cái)經(jīng)的其它文章: 賈康：發(fā)展沒有結(jié)束，中國(guó)的成長(zhǎng)空間還相當(dāng)可觀; 棉花糖; 如何拯救算法的囚徒——我們; 潮起潮落，慢水黃巖行; 走近常慶春先生