王躍+唐安
讓機器看懂世界很難,一個2歲小孩看過一次貓就能從圖片中識別出“貓”,可計算機卻不行。
李飛飛是利用深度學習解決計算機視覺問題的第一代學者,受2歲小孩識圖的啟發(fā),利用大數(shù)據(jù)訓練機器。
華裔、女性、人工智能、科學家,“洗衣妹”、“清潔工”、“逆襲”這些標簽湊在一起,給她的人生更添了一抹傳奇色彩。

人工智能是個好故事,其中最重要的素材當屬人才。科技巨頭們?yōu)榇耸贡M渾身解數(shù)。谷歌費盡心機把“深度學習”之父Geoffrey Hinton招致麾下,F(xiàn)acebook有深度學習的領袖學者Yann LeCun,蘋果有Geoffrey Hinton的一位明星弟子Russ Salakhutdinov,百度曾挖來吳恩達……人才的爭奪愈演愈烈之時,曾埋首大學實驗室里的科學家們紛紛踏足工業(yè)界,助力這一波AI浪潮。
近半年,最出名的一次科學家出山,當屬與吳恩達齊名的另一位華裔學者李飛飛加入Google云部門,擔任Google云端人工智能的首席科學家。在AI界,李飛飛的大名如雷貫耳。她是斯坦福視覺實驗室、豐田汽車-斯坦福人工智能研究中心的負責人,1976年出生于北京,33歲就拿到了斯坦福的終身教職,是當時最年輕的終身教授。
如果用圍棋來比喻,李飛飛是稀有的幾個九段高手之一。她專注于計算機視覺上的研究已達15 年之久,被評價為“計算機視覺領域改變圖像識別方向的人”。所謂計算機視覺,即教會計算機看懂世界。這是AI研究長久以來的目標,然而,對于人來說的一個相當簡單的認知過程,對于計算機卻非常困難。李飛飛的最重要的成就之一就是2007年發(fā)起了 ImageNet,現(xiàn)在全球最大的圖像識別數(shù)據(jù)庫。
華裔、女性、人工智能、科學家,這些標簽湊在一起,讓人們對李飛飛刮目相看,尤其“洗衣妹”“清潔工”“逆襲”這些聳動的字眼總出現(xiàn)在她的相關報道中,給她的人生更添了一抹傳奇色彩。北京出生的她在四川長大,16歲跟隨父母移民到美國新澤西州的Parsippany 小鎮(zhèn)。當時全家人英語都很差,父母又沒有良好的經(jīng)濟來源,只能做一些類似超市收銀員、修理相機等工作賺取微薄的收入,生活得很邊緣。李飛飛邊補英語邊上學邊打零工,兩年后竟拿到了普林斯頓大學的全額獎學金錄取。這讓她在小鎮(zhèn)名噪一時,當?shù)貓蠹堖€刊登了她的報道,標題是《“美國夢”成真了!》。大學期間,憑借敏銳的商業(yè)嗅覺,李飛飛借錢買下一家洗衣店給父母經(jīng)營。周一到周五,她在大學上課,到了周末,她便走出實驗室,變身“洗衣妹”。她曾笑言:“我非常愛普林斯頓,不過也非常愛我的洗衣店,缺少了它們中的任何一件,都沒有現(xiàn)在的我。”
李飛飛從小就很喜歡數(shù)學和科學,大學便選擇了物理專業(yè)?!爱敃r懷著成為愛因斯坦的夢想,物理可以說是人類世界最基礎的科學。但在學習物理的過程中,我發(fā)現(xiàn)其實20世紀初,最偉大的物理學家包括愛因斯坦開始思考的問題已經(jīng)從物理轉向了生物。他們在思考人是從哪里來的,人的智慧是從哪里來的,所以我也開始關注。我也很關注神經(jīng)生物學,大學時做了幾個神經(jīng)生物學的暑期實習,覺得特好玩?!笨梢哉f這時候,對于人的智慧與生物的興趣,就為李飛飛后來走入人工智能的世界埋下了線索。
1999年,她畢業(yè)時正值大牛市,華爾街異常繁榮。很多著名投行和咨詢公司向她來拋了橄欖枝,她卻拒絕了,而是追隨了內(nèi)心,遠赴西藏研究了一年藏醫(yī)。對于生物學的熱情從來沒有停止過,西藏歸來,她進入加州理工攻讀博士學位,選擇的是認知神經(jīng)生物學以及人工智能的方向,后來就“陰差陽錯地走上了人工智能這條路”。
李飛飛是將深度學習用來解決計算機視覺問題的第一代學者。讓機器看懂世界很難,一個2歲小孩看過一次貓就能從圖片中識別出“貓”,可計算機卻不行?!拔覀冇煤芏鄼C器學習概率學的方式,但我們得手工去設計,它的能力很快表現(xiàn)出局限,而且所有的數(shù)據(jù)集都特別小。到2007年時,我自己剛剛變成一個年輕的教授,我在思考怎么突破這個瓶頸?!碑敃r李飛飛已成為斯坦福大學計算機系教授,圖像識別領域還是冷門,同事們勸她換個方向,以便拿到終生教職,她沒聽。有一天,她突然意識到,由于人眼每200毫秒就能獲取一幅圖像,別看兩歲的小孩就能識別物體,但他從0到2歲就已經(jīng)看到了上億的圖片了,是計算機的幾何級倍數(shù),因為人的眼睛隨時都在吸收自然環(huán)境中的圖像,據(jù)此,李飛飛提出了大數(shù)據(jù)的概念。她開始從網(wǎng)上抓取海量照片,給它們打上標簽后,訓練計算機進行深度學習,即給出一定算法,讓計算機自己學習識別。
李飛飛帶著博士生從網(wǎng)上下載了上億張圖片,如果靠一個人來手工標注,不吃不喝不睡,都要花上20年才能完成。后來是亞馬遜的眾包平臺解救了她,她在上面雇傭來自全世界的網(wǎng)友一起給圖片打標簽。其間,實驗室一度缺少人手,又申請不到經(jīng)費。最困難的時候,她甚至想重開洗衣店,籌集實驗資金。最終,來自167個國家的5萬名網(wǎng)友一共花了3年時間完成了海量圖片的標注,隨后,具有里程碑意義的ImageNet誕生了。
ImageNet數(shù)據(jù)庫的重要價值還在于它是開源的,每個實驗室都可以調取使用。依據(jù) ImageNet ,李飛飛發(fā)起了一年一度的視覺識別挑戰(zhàn)賽,邀請谷歌、微軟等科技巨頭參賽,促進圖像識別和人工智能領域的交流。ImageNet 相當于一個算法考場,參賽者可以利用它龐大的題庫進行考試,正確率越高,就意味著該參賽者的圖像識別算法越好。為了爭奪榜首名次,各大科技巨頭也卯足了勁兒地進行圖像識別方面的研究,就在過去幾年中,機器的圖像識別能力大大提高,出錯率僅為約 5%(比人眼還低)??梢哉f該比賽刺激了圖像識別的發(fā)展,而李飛飛對計算機視覺乃至整個人工智能的發(fā)展都是最大的功臣之一。
今年初,李飛飛來到北京參加活動。接受采訪時,她會以“說實話我對AlphaGo 并不是特別了解”、“我沒有看過《西部世界》”、“我沒有看過《最強大腦》”、“我沒有讀過《失控》那本書”等句子來開場。李飛飛坦承,她不是一個特別關注熱點的人,“我個人的心得是,眼睛看到的前方應該是比較空曠的。如果你眼睛看到的前方是熱鬧的,那這個方向就不是最好的研究方向。而空曠的地方一般都不是熱點,因此你必須找準自己的焦點。如果我關注熱點,就沒有今天的ImageNet?!比欢怯泻芏嘞窭铒w飛這樣在冷板凳上鉆研數(shù)十載的科學家,才成就了今天人工智能的熱點。
這次加入Google,李飛飛并沒有離開斯坦福的職位,她利用的是自己兩年的學術假期。在美國的大學里,教授每7年可以享受一次為期一年的假期。從默默埋首實驗室到移步工業(yè)界,李飛飛說她希望“將人工智能技術民主化”,就是讓更多人可以受惠于技術進步。那為什么選擇了Google呢?她回答:“Google云部門本身以及Google的數(shù)據(jù),對應人工智能技術有很大的幫助。”
Q=楊瀾A=李飛飛
Q:所謂的深度學習,包括研究者對機器的訓練嗎?怎樣實現(xiàn)的呢?
A:最早期的深度學習是通過我們supervise training(監(jiān)督培訓),每張標注的圖片,我們有正確答案,然后把它交給神經(jīng)網(wǎng)絡,比如圖片里是pixel(谷歌手機),它就開始去搜集pixel的一些樣式。然后它把它放進一個數(shù)學模型里,然后它得出第一次的答案,因為它知道正確答案是一只貓,那它就發(fā)現(xiàn)不對,那么我們就通過正確和錯誤的答案的這個差別,來重新去修正一些參數(shù),然后這樣不斷的迭代。成千上萬次后它就得到了正確的答案。
Q:如果看到一張圖片,主角是一只貓,它的背景是個舊貨市場,或這個貓在追另一只貓。機器現(xiàn)在有能力來區(qū)別背景和主角,或它們之間的關系嗎?
A:現(xiàn)在可以,我們已經(jīng)發(fā)展到物體在復雜的背景前,只要它有合理的大小就能被識別。下一步是不光是識別這張圖片里有一只貓,它也許背景比較亂,這只貓在哪里,我們能把它框出來,這也已經(jīng)達到了。一只貓追一只狗或另一只貓,我們開始在做這些工作,實驗室上剛推出了一篇論文,就關于識別運動和關系的,但還沒有完全做到,比如貓是什么表情,它們可能往哪走,這些更多的我們還沒做出來。
Q:我看到有個文章里寫道,對于我們來說很普通的常識,比如一杯水放在桌子上,對于機器,它很難辨別出杯子和桌子間的關系,它們是不是長在一起?
A:所以我們?nèi)斯ぶ悄芸茖W家往往不擔心人工智能變成終結者,因為它們連這種基本常識都沒有,人工智能雖然現(xiàn)在很厲害,它通過大數(shù)據(jù)深度學習,但還是停留在你說我背的階段,你給它大數(shù)據(jù),它記住了,記得還比較聰明,存儲量、計算量也很大,你再給它一些圖片,它能識別。但一旦進入抽象,進入對世界的基礎認知,包括重力的關系,杯子和桌子的關系,你把一個杯子拿起來,人工智能現(xiàn)在并不能告訴你水會倒流出來,除非它已經(jīng)看過無數(shù)的圖片,所以確實它還有很多沒有做到。
Q:你提到有人文關懷的人工智能,我很贊同,最終無論是誰在研究人工智能,誰在使用,人工智能在為人做什么,其實它一直是人和機的交互。聽說你也在特別關注一些陪護領域的人工智能的發(fā)展,能介紹一些這方面的情況嗎?
A:其實這跟我個人的經(jīng)歷有關,我姥姥已經(jīng)95歲了,我離她很遠,家里人有些也離她比較遠,我們特別關心她每天的起居,所以大概三年前我就開始思考人工智能真的是走向應用場景了,會對人類社會造成深遠的影響。我就思考到醫(yī)療,而我不是第一個,也不是最后一個,很多同事也開始思考醫(yī)療的重要性。首先人類的健康是特別重要的,第二醫(yī)療特別貴,第三醫(yī)療是個特別數(shù)據(jù)化的問題,人工智能恰恰又特別擅長數(shù)據(jù)問題,而且還有一個社會老齡化的問題。所以我就開始和斯坦福醫(yī)學院合作,我們做了3個項目去展示人工智能技術以及計算機視覺和機器學習技術能在3個不同的場景進行一些突破。第一個場景是重癥醫(yī)療室,ICU里有很多工作,在美國一般是一或兩個病人有一個護士,輪職的12個小時看護,護士醫(yī)生都是不帶停的,美國整個GDP的1%都用在ICU里邊。ICU里如果出現(xiàn)任何差錯就是生命和死亡的問題,所以我們就跟斯坦??茖W醫(yī)學院合作,通過modern sensor(現(xiàn)代傳感器)來幫助護士和醫(yī)生。
Q:那姥姥什么時候能用上你的技術?
A:我要努力工作呀。另外一個場景就是老人院,在西方有很多老人獨立生活,但在獨立生活中,家人也好,醫(yī)療工作人員也好,其實很關注他們的作息,身體和心理的變化。所以我們也跟舊金山的一個老人院合作,通過modern sensor和護士一起了解老人的生活方式,而且可以做一些預測,這是我們現(xiàn)在關注的方向。
Q: MIT的人工智能實驗室和斯坦福的人工智能實驗室分別都是兩位女士來領軍的,但在整個行業(yè)中,女性科學家的比例究竟有多少呢?
A:非常少,我和Daniela Rus領軍兩個實驗室,是歷史的巧合,不是常態(tài)。在斯坦福人工智能實驗室,到目前為止我還是唯一的女性教授,我們一共有20多位教授啊。在斯坦福整個工程學院,女性教授少于15%。在整個人工智能領域,女性可能不會多于10%。
Q:你覺得這種現(xiàn)象需要改變嗎?是像有些人說的女孩子天生就對科學不怎么感興趣嗎?或是這方面的能力不如男孩子?
A:我覺得需要改變,這不光是女性的問題,是人類的問題。每一項科技都代表我們的價值觀,如果我們希望科技是一個樸實友好的、代表全人類的價值觀,那誰來承載起它?它包括男性、女性,黑人、白人、黃種人,包括不同領域的人。
我常跟我同事和學生提一個很好玩的事,就是你到谷歌的圖片搜索里搜一個非常簡單的詞grandma(奶奶),就會發(fā)現(xiàn)第一頁顯示的全是白人的老奶奶,你就想,如果是一個外星人到我們地球想學我們地球上的人,問grandma是什么東西呢?一搜看到的就是白人老奶奶。這個小小的例子可以告訴你,如果科技不引入我們的價值觀、不引入我們關懷的一些東西,它不小心就會只代表一部分人的價值觀和關注的事。所以我一直強調,不管是女性還是其他來自不同背景的人,我們一定要參與人工智能,參與科技。如果你相信科技能改變?nèi)祟惖脑挘悄憔蛠?,我們應該鼓勵這種參與。