999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

大型語言模型“看”世界

2020-04-14 07:55:18
海外星云 2020年18期
關鍵詞:單詞監督語言

GPT-3自動生成的語言竟然能和人類差不多,堪稱奇跡。但在很大程度上,GPT-3也不過是個噱頭。判斷方法也很簡單。若提問GPT-3:羊是什么顏色?它會說“白色”,還會說“黑色”,頻次一樣高。因為英語里有“black sheep”(黑羊,引申意為害群之馬)。

這就是語言模型的問題。只用文本訓練語言模型,會導致模型缺乏常識。不過,為了改變這種狀況,北卡羅來納大學教堂山分校(下文簡稱UNC)的學者莫希特班薩爾和其博士生譚昊研發了一種新技術,研究人員稱其為為“視覺監督”,如此,GPT-3等語言模型便能具備“看”的功能。

將語言模型與計算機視覺結合起來并不新鮮,該人工智能研究領域其實正在快速發展。出發點是這兩種類型都有不同的優勢。GPT-3等語言模型通過無監督學習來訓練,不需要人工進行數據標注,因此很容易開發出大型模型。而物體識別系統等圖像模型更多是在現實世界中學習。換句話說,圖像模型并不依賴文本所提供的抽象世界來理解世界。比如,圖像模型可以從羊的圖片中“看到”,羊其實是白色的。

能夠同時解析語言和視覺輸入的人工智能模型用處很大。例如,機器人需要計算機視覺來導航,也需要語言來與人類交流,因此該模型能用于開發機器人。

但要結合這兩種類型,是說起來容易做起來難。并非把現有的語言模型與物體識別系統拼接在一起便大功告成,而是需要從頭開始訓練新模型。所用數據集要包括文本和圖像,也就是所謂的視覺語言數據集。

要獲得這樣一個數據集,最常見的方法是做帶有描述性標題的圖片集。例如,下面這張圖片的標題設為“一只橘貓臥在空行李箱里”。這樣的圖片集便和傳統圖片數據集不同。后者只用名詞來標注圖片,比如給下面這張圖片只簡單地命名為“貓”。因此,視覺語言數據集不僅可以教人工智能模型如何識別對象,還可以教人工智能模型如何根據動詞和介詞識別不同對象之間的相互關系。

但如此也意味著,創建數據集會耗費很長時間。因此,現有的視覺語言數據集太單薄了。而常用的純文本數據集則不同。如英語維基百科,包括了幾乎所有英語維基百科條目,有近30億個單詞。而視覺語言數據集 Microsoft Common Objects in Context(下文簡稱MS COCO)只包含700萬個,根本不足以訓練一個有用的AI模型。

有了視覺監督,問題迎刃而解。視覺監督使用無監督學習方法,將MS COCO的數據規模擴展到與英語維基百科相當。視覺語言模型用規模化后的數據集訓練后,研究人員使用了一些最難的AI語言理解能力測試對其進行檢驗。結果模型的表現甚至優于當今最先進的模型。

自然語言處理初創公司Hugging Face的聯合創始人兼首席科學官托馬斯沃爾夫說:“要在這些測試中擊敗最先進的模型,得下大力氣。這些測試可不是兒戲。能有這樣的結果,真的讓人非常激動。”

我們先理清一些術語。到底什么是“voken”?

在人工智能領域,用來訓練語言模型的詞稱為token。UNC研究人員便以“voken”,來指代所用視覺語言模型中與任一token相關聯的圖像。用來匹配token和voken的算法稱為vokenizer,整個匹配過程稱為“視覺監督”。

說了這么多,主要是為了幫助大家理解視覺監督的基本理念。UNC研究人員沒有拿著圖像數據集來手動編寫標題,這耗時過長;他們選擇了使用語言數據集以及無監督學習法,匹配每個單詞與相關圖像。如此便很容易規模化。

此處的無監督學習技術正是此項研究的貢獻。那么,究竟如何為每個單詞找到關聯圖像呢?

視覺監督

先回到GPT-3。GPT-3所屬語言模型家族有“變形金剛”之稱。2017年,該類模型首次面世,便是將無監督學習應用于自然語言處理取得的重大突破。變形金剛可以觀察單詞在上下文中的使用,再根據上下文創建每個單詞的數學表達式,即“單詞嵌入”,以此來學習人類語言模式。例如,代表“貓”的嵌入可能會顯示,“喵”和“橙”兩字周圍,“貓”出現頻率高,但在“吠”或“藍色”周圍出現的頻率便較低。

因此,變形金剛猜單詞含義的準確度較高,GPT-3也因此能寫出仿佛由人所作的句子。變形金剛一定程度上依靠這些嵌入,學習如何將單詞組成句子、句子組成段落。

還有一種類似技術也可以用于處理圖像。這種技術不是通過掃描文本來尋找單詞使用規律,而是通過掃描圖像來尋找視覺規律。比如,該技術將貓出現在床上與出現在樹上的頻率制成表格,并利用這些上下文信息創建“貓”的嵌入。

UNC研究人員認為,處理MSCOCO要同時使用這兩種嵌入技術。研究人員將圖像處理為視覺嵌入,將標題處理為文字嵌入。而這些嵌入妙就妙在能在三維空間中繪制出來,完全可以看到嵌入之間的關系。如果某一視覺嵌入與某一單詞嵌入密切相關,繪制出來后位置很接近。換句話說,理論上,代表貓的視覺嵌入應該與代表貓的文字嵌入重合。

之后的工作也就水到渠成。一旦嵌入都繪制完畢、并相互比較和關聯,就很容易開始匹配圖像(voken)與文字(token)。而且,由于圖像和單詞基于原嵌入進行匹配,那么實際也在基于上下文進行匹配。這樣,即便一個詞可能有多個不同含義也不必擔心,該技術能為單詞的每個含義找到對應voken。

這兩個例子中的token都是“contact”一詞。但在第一個句子中,上下文表明“contact”是聯系的意思,所以voken是聯系圖標。在第二個句子中,上下文表明這個詞有觸摸的意思,所以voken顯示的是一只被撫摸的貓。

這些利用MSCOCO創建的視覺和單詞嵌入,便用來訓練算法vokenizer。

一旦經過訓練,vokenizer就能夠在英語維基百科中找token的對應voken。雖然該算法只為大約40%的token找到了voken,并不完美,但英語維基百科可是有接近30億字。

有了新的數據集后,研究人員重新訓練了BERT語言模型。BERT是谷歌開發的開源變形金剛,比GPT-3還要早。然后,研究人員使用六個語言理解測試,測試改進的BERT。語言理解測試中有SQuAD斯坦福回答數據集,該測試要求模型回答基于文章的閱讀理解題;還有SWAG測試,該測試利用英語語言的精妙處,檢測模型是否只是單純模仿和記憶。改進的BERT在所有測試里表現都比原來更突出。沃爾夫說,這并不奇怪。

雖然研究還處于早期階段,但沃爾夫認為,從在視覺語言模型中利用無監督學習方面看,這項工作是一項重要觀念突破。當年,正是類似突破極大推動了自然語言處理的發展。

沃爾夫說:“在自然語言處理領域,兩年多前便有了這一巨大突破,然后突然間自然語言處理領域有了很大發展,開始走在其他AI領域前面。但是把文字和其他事物聯系起來還是有很大障礙。就像機器人只能說話,但不會看、不會聽。”

“這篇論文則做到了將文字與另一種模式連接起來,而且效果更好,樹立了典范。可以想象,如果要把這種非常強大的語言模型用到機器人上,也許能用到部分新技術。比如,用同樣的技術將機器人的感官和文本聯系起來。”

(綜合整理報道)(編輯/多洛米)

猜你喜歡
單詞監督語言
突出“四個注重” 預算監督顯實效
人大建設(2020年4期)2020-09-21 03:39:12
語言是刀
文苑(2020年4期)2020-05-30 12:35:30
單詞連一連
看圖填單詞
讓語言描寫搖曳多姿
監督見成效 舊貌換新顏
人大建設(2017年2期)2017-07-21 10:59:25
夯實監督之基
人大建設(2017年9期)2017-02-03 02:53:31
累積動態分析下的同聲傳譯語言壓縮
我有我語言
監督宜“補”不宜“比”
浙江人大(2014年4期)2014-03-20 16:20:16
主站蜘蛛池模板: 波多野衣结在线精品二区| 人妻无码中文字幕第一区| AV在线天堂进入| 一本一道波多野结衣一区二区| 中文字幕亚洲另类天堂| 色综合a怡红院怡红院首页| 国产在线八区| 中文字幕调教一区二区视频| 99久久国产自偷自偷免费一区| 97se亚洲| 天天躁狠狠躁| 亚洲福利视频网址| 精品人妻一区二区三区蜜桃AⅤ| 久久久受www免费人成| 好紧太爽了视频免费无码| 2021亚洲精品不卡a| 免费毛片全部不收费的| 色亚洲激情综合精品无码视频| 91美女视频在线| 免费a在线观看播放| 亚洲婷婷丁香| 欧洲亚洲欧美国产日本高清| 欧美高清国产| 中文字幕日韩视频欧美一区| 二级毛片免费观看全程| 91www在线观看| 久久免费视频播放| 2021国产在线视频| 久久综合丝袜日本网| 日韩精品一区二区三区swag| 亚洲黄色高清| 国产成人精品午夜视频'| 日韩在线视频网| 亚洲AV无码乱码在线观看裸奔 | 国产成人精品免费视频大全五级 | 成人av专区精品无码国产| 五月天在线网站| 伊人久久久久久久| 在线五月婷婷| 香蕉网久久| 亚洲第一成网站| 青青热久麻豆精品视频在线观看| 一本久道热中字伊人| 人人妻人人澡人人爽欧美一区 | 国产白浆视频| 女人18毛片一级毛片在线 | 成人在线观看一区| 国产精品部在线观看| 国产精品污视频| 国产微拍精品| 强乱中文字幕在线播放不卡| 久久亚洲中文字幕精品一区| 亚洲人成人无码www| 18禁高潮出水呻吟娇喘蜜芽| 无码日韩视频| a在线亚洲男人的天堂试看| 黄色三级网站免费| 日韩成人午夜| 亚亚洲乱码一二三四区| 无码专区第一页| www.youjizz.com久久| 国产又粗又猛又爽视频| 国产av一码二码三码无码| 日韩av高清无码一区二区三区| 日本高清免费不卡视频| 成人中文字幕在线| 欧美日韩另类国产| 在线国产三级| 草草影院国产第一页| 国产精品白浆在线播放| 国产产在线精品亚洲aavv| 亚洲日韩国产精品无码专区| 国产成人高清精品免费软件 | 99视频在线免费| 亚洲动漫h| 国产丝袜丝视频在线观看| 亚洲永久精品ww47国产| 精品剧情v国产在线观看| 九九九国产| 在线看片国产| 国产69精品久久久久孕妇大杂乱 | 波多野结衣一区二区三区AV|