

2023年3月的第三周被很多人稱為神奇的一周,也有人說,這可能是人工智能發(fā)展最快的一周。在這一周里,斯坦福大學發(fā)布了只花600美元訓練出的GPT-3.5平替Alpaca;前OpenAI成員出走并正式發(fā)布了Claude聊天機器人;Google在云端辦公平臺GoogleWorkspace引入了AI功能組;百度發(fā)布了國產(chǎn)大模型文心一言;OpenAI在萬眾矚目下發(fā)布了GPT-4……有人戲稱,如果未來人工智能征服了人類,他們會指著日歷上的這一周說,這就是他們征程開始的時刻。
而這一周,在西雅圖的辦公室里,沈翔博士坐在電腦前,對著目不暇接的新工作,思索著如何將這些人工智能的發(fā)展成果用在現(xiàn)下自己想要解決的問題上。
博士時期,夢想起航
2014年,當沈翔從復旦大學畢業(yè),剛來到美國的時候,現(xiàn)在這些令人驚奇的人工智能模型背后的深度學習技術才剛剛升溫,距離現(xiàn)在大模型背后的基礎元件Transformer的問世還有三年。當時的沈翔已經(jīng)打下了深厚的數(shù)學基礎,但對于如何應用自己的數(shù)學知識還是一頭霧水——他的理想并不是成為一名研究純數(shù)學的數(shù)學家,而是讓這些在別人看來晦澀難懂的知識在現(xiàn)實世界里實現(xiàn)價值。
初來美國的沈翔選修了一門叫作“統(tǒng)計學習”的課程,授課的巴魯特教授不僅講授了統(tǒng)計學習和機器學習的基本內容,更是用了大量時間,在課上介紹現(xiàn)代深度學習的發(fā)展。這些內容深深地吸引了沈翔,他課下積極與巴魯特交流,兩人還在一些研究項目上進行了合作。巴魯特認為未來屬于擅長深度學習的人,他告訴沈翔:“哪怕你只懂得一點深度學習的皮毛,你都必將在人才市場上受到歡迎,因為我們投入在深度學習上的注意力還遠遠不夠?!?/p>
這樣的觀點像種子一樣在沈翔心中發(fā)了芽。此后,他在研究統(tǒng)計學習理論的同時,也忍不住開始探索和思考機器學習的應用問題。
在喬治華盛頓大學攻讀統(tǒng)計學博士期間,沈翔專注于半?yún)?shù)回歸的模型平均方法來平衡模型的推斷能力和解釋性,尤其是建模的特征多并且不確定的時候。傳統(tǒng)的方法往往先選擇一個特征集合,固定特征來建模,以實現(xiàn)解釋性的最大化。而模型平均的方法通過多個特征集優(yōu)化了特征不確定帶來的推斷能力下降,但很有可能會犧牲掉原本的解釋性。沈翔通過一些數(shù)學推理,還原證明了這種解釋性的存在,并使用模擬實驗驗證了這個方法。
在思考數(shù)學和統(tǒng)計問題的同時,沈翔也致力于探索統(tǒng)計方法在實際問題上的應用。2019年,沈翔和另外兩位統(tǒng)計學博士合作參加了美國統(tǒng)計學會舉辦的數(shù)據(jù)展示大賽。該比賽的宗旨是,在美國紐約居民普查的數(shù)據(jù)基礎上,使用統(tǒng)計方法展現(xiàn)對紐約市房屋情況的洞見。沈翔團隊經(jīng)過多次實驗和實踐,提出使用嶺回歸和時空序列建模的方法,該方法不僅創(chuàng)建了總結房屋條件的指數(shù),還能充分預測房租的變化。
在報告前夜,沈翔粗讀了其他參賽者的作品,然后笑著對合作伙伴說:“這次第一名我們拿定了!”合作伙伴問他為何如此自信,沈翔卻笑而不語。
第二天,沈翔團隊出色的方案果然獲得了評委的一致認可,并贏得了第一名1500美金的獎金,而這個方案也在不久后刊于《統(tǒng)計計算》雜志。
事后第三天,沈翔才告訴同伴:“其他所有參賽者的方案都忽視了數(shù)據(jù),沒有通過對數(shù)據(jù)的處理,把自己的方法和數(shù)據(jù)結合起來。因此,我們脫穎而出是毫無懸念的?!?/p>
精耕細作,數(shù)據(jù)為王
的確,數(shù)據(jù)是沈博士一直以來對于研究和工作的堅持。初步分析和處理數(shù)據(jù)是非??菰锒量嗟模虼?,很多科學家都不愿意做這種“臟活”。然而,數(shù)據(jù)才是使一個方法能夠成功應用的本質。沈博士認為,很多看似先進的方法因為脫離了數(shù)據(jù)的假設,根本無法成功,而這種思想也正好暗合了機器學習里著名的“沒有免費午餐”定理,即沒有一種機器學習方法是適用于所有數(shù)據(jù)的。
沈翔博士的第一任老板十分欣賞這種愿意“讓手變臟”的科學家,邀請他在畢業(yè)后加入Expedia人工智能實驗室研發(fā)對話系統(tǒng)。這份工作對于沈博士來說是一個很大的挑戰(zhàn),他從此沒有任何時間思考任何數(shù)學問題,甚至有時候,他和朋友家人開玩笑,說自己逐漸變笨了,但其實,他對于現(xiàn)在人工智能系統(tǒng)的理解和洞見在飛速增長。
在Expedia工作期間,沈博士閱讀了大量對話系統(tǒng)相關的文獻,開始了對自然語言處理相關問題的研究,以及商用聊天機器人的開發(fā)。對話系統(tǒng)的基礎任務是在對話中識別用戶的意圖,然后才能進一步提供相應的響應。為了提高聊天機器人的識別能力,沈博士始終堅持親自收集第一手數(shù)據(jù)。為此,他閱讀了大量用戶和聊天機器人、以及用戶和客服人員的對話日志,并經(jīng)常和不同用途的各種聊天機器人對話。
在一次對話中,沈博士發(fā)現(xiàn)聊天機器人已經(jīng)能比較好地識別出常見的意圖,但是對于從沒見過的新意圖,它難以準確理解,并可能做出完全錯誤的指令。恰好在新冠病毒大流行期間,旅游市場經(jīng)歷了非常大的沖擊和變動,與之相關的用戶意圖非常多,而這些幾乎都是聊天機器人以前沒有見過的,于是,聊天機器人往往給用戶帶來非常差的體驗。
針對這一問題,沈翔博士開發(fā)了基于對比學習的半?yún)?shù)意圖識別框架,這一技術能夠自動發(fā)現(xiàn)用戶的新意圖,并使聊天機器人能夠及時對這種新意圖進行識別和設置,從而達到了更好的用戶體驗。后來,沈博士的這一研究被人工智能對話中的自然語言處理研討會收錄,來自業(yè)界的科學家都對這個研究非常感興趣,很多同行紛紛表示,他們也曾遇到過類似的問題,感謝沈博士提供的這條新思路。對于同行提出的相關問題,沈博士一一做出了解答。
值得一提的是,因為疫情原因,這次研討會是在線上進行的——這是過去兩年人工智能會議的常態(tài)。即使如此,這項工作仍然引起了業(yè)界的關注。沈博士認為,目前學術界好的研究很多,但真正能夠被應用的研究其實很少,一方面是因為來自實驗室的研究者對于實際面臨的問題缺乏理解,往往基于精選的數(shù)據(jù)對真實世界進行猜測;另一方面在于工業(yè)界的工程師和科學家對于新的研究成果不能完全理解,而現(xiàn)在人工智能技術日新月異,沒有深刻的理解,研究成果就難以得到充分的應用。正因為如此,才讓像沈博士這樣的應用科學家更有價值。
迎難而上,讓人工智能落地
工作之外的沈博士是一個樂高愛好者,他家的儲藏間里堆積了接近兩百套樂高,由于工作忙,其中不少樂高都還沒有拆封。對沈博士來說,拼搭樂高不僅僅是一個從小的愛好,更能幫助他緩解工作壓力。有時,他很喜歡的樂高套裝已絕版,他就會去二級市場淘貨,而淘到的二手樂高往往會有零件缺少或者損壞的問題,這時,他便從自己的零件庫中尋找替補,或者找電商購買缺件。在沈博士看來,這種補齊一件套裝的快樂,不亞于修好機器學習系統(tǒng)中的漏洞并讓它完整上線。
目前,沈翔博士已經(jīng)離開以前的崗位,但他仍然致力于使用人工智能技術解決實際問題。新的工作給他帶來了新的挑戰(zhàn),他依舊每天早晨一起床就查看新的相關論文,思考著自己的問題。在沈博士看來,在人工智能飛速發(fā)展的時代,每天關注新的研究工作,思考這些工作對自己的價值,是每個應用科學家的必修課。即使身為深耕細分領域多年的研究者,他仍然經(jīng)常會被新的研究成果所震驚,比如OpenAI新出品的ChatGPT聊天機器人。沈博士認為這是一個偉大的產(chǎn)品,是工程師和科學家們如何做好一件系統(tǒng)工程的樣本,但也許并不是人工智能科學的重大突破。沈博士在它發(fā)布的第一天就使用了這個機器人,并開始思考,如何讓這個產(chǎn)品為自己所用,充分發(fā)揮模型的價值,將它應用在細分的產(chǎn)品上。
在采訪的最后,沈博士告訴記者:“未來,我將繼續(xù)從事人工智能應用的研究,將深度學習的技術更好地應用在實際問題當中。這不僅需要對深度學習技術有深刻的理解,也需要相應地理解業(yè)務的需求,并不斷研發(fā)出更多穩(wěn)定性強、可復用性高的方法和產(chǎn)品。讓人工智能落地,這項工作肯定會遇到很多困難,但作為科學家,我必須迎難而上!”
讓我們祝愿沈博士的科研道路越走越寬!
編輯/朱艷君