999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

揭秘你不知道的AI數據: 它們是這樣加工生產出來的

2018-09-13 10:29:57
電腦報 2018年27期
關鍵詞:人工智能

去年的某一天,小袁被理發店老板開除了,原因是聽力有限,耽誤了工作得罪了客戶……

這是“90后”小袁的第39次失業。在此之前,他在飯店做過傳菜工、在工廠做過皮鞋、在廣告公司做過牌匾、在奶粉廠裝過箱子,卻總是因為無法避險、難以溝通被辭退。“我是燙手的小袁,因為我是聾啞人,所以我總是會燙到身邊的人,被扔出很遠很遠。”他用如此悲傷的文字描述自己內心世界。

終于,小袁在第40份工作,等到了他心中的渴望——掙錢不僅僅混口飯吃,還有做人的基本尊嚴。

他用一個月的時間,刻苦訓練學會了用模板做數據標注,成了人工智能革命浪潮背后的一位“數據標注員”,為企業提供圖像、語音、文本等的數據標注服務。“我很慶幸,也能成為一個在人工智能產業中有用的人。”

在人工智能全面影響社會和應用越來越普及, “人臉識別”、“自動駕駛”、“語音識別”等產業狂潮的背后,最重要的核心就是越來越龐大、越來越精準的數據——離開數據,談人工智能應用無異于“無米之炊”。

“數據標注”,是將最原始數據變成算法可用數據的關鍵過程,是整個 AI 產業的基礎,是機器感知現實世界的原點。而“數據標注員”,正是一個人工智能產業未被寫出的幕后隱形故事:在中國,有10萬的全職數據標注員,以及100萬的兼職數據標注員,每天源源不斷地用人工,為人工智能的發展供應最重要的“數據燃料”——在現有技術框架下,數據量越大,質量越好,算法模型就表現越好。

這100多萬個標注數據的人,很多學歷不高,卻決定著中國整個人工智能行業的發展態勢:他們之間,既有小袁這樣生理缺陷者,找不到理想工作的職高學生,從工地輾轉而來的新生代農民工,還有原來淘寶刷單的,賦閑在家的中年婦女……

流水線上加工數據

25歲的羅雪嬌,正把手寫體的古德文轉錄為印刷體字母,然后把轉錄出的這些文字發給OCR(光學字符識別)公司——這些被羅雪嬌一個個標注出來的字母,將作為機器訓練的數據材料。

這個工作并不容易,要知道,即便在德國,認識這種古老字體的人也寥寥無幾,但羅雪嬌卻如同流水線上的機器人,需要每秒鐘準確輸入1個字母。

在羅雪嬌的旁邊,另一位同事正為路況圖片中的各種機動車、非機動車、自行車和行人打標簽、做標記,并標注行進方向和是否有遮擋——這將用于安防系統,甚至成為中國天網系統能2秒過濾全球所有人口的基礎。

另一位同事,則在標記圖片中汽車的可行駛區域,之后會用于無人駕駛場景的訓練。他需要分毫不差地描繪建筑物的邊緣,將靜止畫面中鱗次櫛比的大樓一一分割,標注成不同的色塊。

還有的正將雷達掃描出的障礙物3D線條一一還原成實物,長方體是建筑、綠色的是樹木,這些內容會被用來訓練雷達數據和真實世界的關聯性。

他們這種介于手寫錄入和圖像標記之間的工作,共同的行業學名叫做“人工智能數據標注”——盡管數據標注并不算一個完全新興的產業,早在1998年“海天瑞聲”就已成立,但彼時人工智能尚未興起,數據應用也相對較少。

“2011年針對AI的數據標注開始出現,2015年真正開始,2017年有了大爆發。”一家數據標注外包公司的主管說。

人工智能浪潮催生了這一切,相關數據顯示,2017年,僅北京中關村大數據產業規模就超過700億元,貴陽則超過了1500億元。聯合國教科文組織信息與傳播知識社會局主任英德拉吉特·班納吉也認為,到 2030 年,人工智能將向世界經濟貢獻 16 萬億美元。

對于AI而言,優質數據必不可少,需要標注的領域也越來越多:自動翻譯的語音識別、機場安檢時的人臉識別、識別選取商品的無人商店、安全行駛的無人駕駛等等。

所以,就像傳統工廠一樣,一個叫“數據標注”的隱形產業正在迅速擴大,數據正在流水線上處理,被分塊加工,然后應用到不同領域。

這是整個 AI 產業的基礎,是機器感知現實世界的原點。京東眾智一位高層人士對記者說,一張圖片識別系統能瞬間認出某個物品,一套語音識別系統能瞬間讀懂你說的話,其實也是一張張圖片、一段段語音素材后天訓練出來的結果。

“對圖片標注仍然需要依靠人力。”上述高層人士表示,盡管互聯網催生了浩如煙海的內容,但標注這件需要耐心和專注的“小事”,暫且還需要大量人力。“圖片包含的特性太多,比如在不同光線下的拍攝,模糊、清晰等等。即便在對5000萬張圖片進行歸類之后,也只有幾種特性被準確地標注出來了。”

關于“數據標注”,上述京東眾智高層人士打了一個形象比喻:和小孩一樣,要認識一個足球,你不能告訴它是“圓形的”、“用腳踢的”、“黑白相間網格的”,最簡單最常用的辦法是,找來一個真實足球擺在小孩面前,告訴他“這就是足球”,沒有真球,用圖片或視頻也行。試過幾遍就會發現,孩子就能“自然而然”地認出足球。

機器也一樣,工程師想讓 AI 準確識別出足球,最好的辦法不是用代碼來描述足球,而是直接找來很多張帶有足球的圖片,用 AI 能讀取的方式把圖片、視頻里的足球“標注”出來,扔進 AI 模型訓練,之后它“自然而然”就獲得了識別足球的能力。

和小孩不同的是,機器需要在不同場景、不同角度下反復學習,這個漫長的教授過程就是羅雪嬌們在 AI 產業中的位置——標注大量用于訓練機器學習模型的數據,讓機器越來越像人。

一個讓人崩潰的“辛苦活”

通常而言,數據標注得越準確、數量越多,模型效果就越好。自然,產品的效果就會更好。

對羅雪嬌而言,她必須保證給機器的標注數據達到 90% 以上精度(即是指標注的正確率),否則最直接的后果是機器也會跟著犯錯,這對于機器學習將毫無意義。

90%的精度,意味著100 個點里有兩個點錯誤,就會被打回。羅雪嬌遇到過一次“讓人崩潰”的經歷,那是一張人物群體站立圖,只要露出了頭、脖子、胸口,羅雪嬌就要從圖片的左上角開始畫矩形,框住這些動作、著裝完全一致的人。重復拖動50個框后,要再放大這些帶有藍色陰影的矩形框,從頭到四肢標注完每個人的骨骼點。最后,600多個點密密麻麻地落在了那張圖里。

這個項目讓她不記得重復了多少次,“拉框要求十分精細,偏差絲毫都不行。最后無論是滴眼藥水,還是冷水洗臉,拍打臉部、揉眼睛,都沒有任何作用,只剩下流眼淚了。”羅雪嬌說。

“有些任務圖上密密麻麻的點,看兩個小時以上眼睛絕對會花掉了,只有要求員工不斷克服人本身的一些‘消極因素’,才能避免標錯數據。”數據標注公司、BasicFinder創始人杜霖說。

其實,看似簡單的操作,要達到 90% 的精度對大多數標注者來講卻是天方夜譚。據了解,很多兼職標注團隊最高精度只能達到 70%,即便是在全職、全把控情況下,很多項目只能達到50% 的精度,基本上承接的每個項目都需要重復三次以上才能達到 90% 的精度。

但現在,越來越多的客戶要求達到95%甚至97%的精細化標注。“95% 以上的準確率是理想情況,但從 95% 提到 97% 所花的成本就不再是一兩倍了,可能是100 倍。”杜霖說。

每個行業人士都認為這是一個讓人崩潰的“辛苦活”。提起“數據標注”四個字,2002年成立,來自上海的華院數據的首席科學家尹相志不禁苦笑:幾個月前,華院數據舉辦過一次大數據應用比賽,在“通過賣場貨架圖片自動計算產品的貨架占有率”這項測試中,她們拍攝了1600多張真實的貨架圖片作為原始數據,為了讓比賽的難度不那么“變態”,她們還為選手們提供了“精細化標注”后的貨架圖片——也就是貨架上每一包緊挨著的零食、泡面,都要沿邊緣仔細劃分。

最終,這一千多張圖片的標注耗費了12個人大半個月時間,負責標注工作的組員“幾近崩潰”。

另一個例子是,李飛飛創辦的Image

Net,是目前世界上圖像識別最大的數據庫,擁有1500萬張標注圖片,不過大部分人不知道,這是來自167個國家的48940名工作者,花費了2年時間,清理、分類、標記了近十億張通過互聯網搜集到的圖片,才得到這個有1500萬張圖片的數據集。

“無論國內外,情況都差不多。一旦要求質量,每個人的產出量就不會太多。熟練者平均一天可以標注40張圖片,前提是只需要為圖片中的物體打框、標注類別和前后關系。如果涉及刻畫建筑物邊緣等復雜細節,一天標注10張已是極限。”一位數據標注行業人士說,看似簡單的數據標注背后,其所耗費的時間與人力,遠非一般項目可比。

在高質量數據標注不容易,同時又決定了一家人工智能公司競爭力的情況下,國內外大大小小的科技公司都開始用另一種方式,來完成這樣細碎的任務,以獲得更細致、更準確的數據。

AI時代的“富士康”

這種方式,就是外包。

實際上,無論是Google Open Image

Datasets中的900萬張圖片,還是YouTube-8M中800萬段被標記的視頻,這些精心標記的數據,大部分是由亞馬遜勞務外包平臺“Amazon Mechanical Turk”(以下簡稱AMT)上數十萬名注冊用戶花費2年時間完成的。

科技網站TechRepublic的一篇文章描述稱:這些分布在全球各地的50萬名工人,晝夜交替、時常待命,對數據進行手工輸入、分類,區分出下一張照片中是否有“狗”,語句中的“bass”到底是低音還是鱸魚。

文章評價稱,人類變成投喂機器的流水線工人,亞馬遜AMT也順勢成為AI時代的富士康。

在國內,人工智能創業公司、BAT同樣采用了目前數據標注行業的主流模式——“外包”。某數據標注公司負責人就透露,BAT、商湯、曠視、云從科技這類大的人工智能公司,一年在數據上的外包支出高達數千萬元。此外,學術團體、政府、銀行等傳統機構的需求相對較小但有不斷增長的趨勢。

“按照人員規模劃分,現在的數據標注行業分為小型工作室(20 人左右)、中型公司以及巨頭企業。”京東金融眾智平臺項目負責人對記者表示,而從外包方式來看,也分為“眾包”和“工廠”兩種模式。

眾包(Crowdsourcing)平臺是《連線》(Wired)雜志2006年發明的一個專業術語,用來描述一種新的商業模式,即企業利用互聯網來將工作分配出去、發現創意或解決技術問題。

京東金融方面提供給本報的數據顯示,2018年1月,京東金融發布國內首個聚焦人工智能領域的數據眾包平臺——京東眾智,通過聚合擁有碎片化時間和閑暇時間的普通人,為企業提供圖像、語音、文本、視頻的數據標注等服務。

“百度眾包”、“龍貓數據”、數據堂等同樣是這個模式。去年11月,龍貓數據宣布獲得3370萬元A輪融資,且用戶量達到百萬級,為百度、騰訊、小米等數十家科技公司提供數據標注業務。數據堂則成立于2011年,并在2014年12月10日成為第一家在新三板上市的數據標注企業。

記者觀察發現,無論是百度眾包,還是京東眾智、龍貓數據、數據堂,其官網首頁都有明顯的 “任務簡單、輕松賺錢”廣告,其實質都是把任務轉嫁給網民——某知名數據眾包平臺就稱,其擁有超過5000名數據標注專員,上十萬數據標注兼職人員,單日可處理超過200萬條數據,能穩定提供數據標注服務。

“亞馬遜AMT也是如此,每天會發布任務給墨西哥以及印度兼職人員,但很多高精度工作是不適合眾包的。”在杜霖看來,由于參與眾包標注的工作者數量很多,專業背景和工作能力參差不齊,其標注質量也并非所說的那么可靠,一些任務收集到的標注內容中存在噪聲甚至錯誤,不能直接作為正確的標注使用。

以定制為主的數據標注“工廠”模式應運而生——也就是自己經營團隊,成為一個上游,對整個流程進行控制。

BasicFinder采用的正是“工廠”模式,其注冊成立于2015年, 2017年3月份完成了一千多萬元pre-A輪融資。目前與二十來家“數據工廠”有長期業務合作,這些數據工廠有些是參與投資,有些是深度合作,少則幾十人,多則二三百人。

而具體到標記過程,杜霖表示都是流水線式的,從最前端的任務定義、采集數據,到中間的清洗、加工,以及后端的質量檢測、訓練迭代等全部環節分開作業,并開發了一套系統輔助人工提高效率。

算上合作的周邊工廠,杜霖的公司已經有 2000 多人,他們可以同時進行 20 多個不同項目的標注。在“工廠”內部,如同傳統制造加工業一樣,這里的各個小組都有自己的管理者。管理者之上是項目經理、高層管理者。員工“生產”的內容會經過質檢人員的核驗,全部合格后才會最終交付項目方,以便保證穩定的標注效率和質量。

同樣,受困于人力成本,“工廠”很多時候不得不把一些業務外包給小團隊,因此在這些相對規范的機構之外,還游離著眾多規模不等的“小作坊”——在京東眾智負責人看來,這同樣是一個短板:“小作坊沒有標注工具,而工廠更多是流程化操作,缺乏合理的運營模式。”

搖身一變都做AI數據標注

外包的興起,讓數據標注員成為一個熱門行業——相關數據顯示,截至2018年1月,目前中國有10萬的全職數據標注員,以及100萬的兼職數據標注員。

“在提供無差別人力勞動這件事上,大家都沒有門檻。原來干淘寶刷單的、送快遞的、賦閑在家的大媽,現在也能搖身一變做AI數據標注。” 杜霖說。

無從統計那100萬兼職數據標注員都來自何方,但數據標注工廠,目前多集中在貴州、河北、河南、山東、山西等地區,這和傳統制造企業富士康契合——算法公司和人才多集中在北深杭等科技核心區域,而作為一個“勞動密集型”的中低收入行業,數據標注人員散落于三四線城市。

在距離“大數據之都”貴陽市中心50公里的惠水縣百鳥河數字小鎮,有一個規模500人的“數據工場”,合作對象包括百度等AI巨頭,500名數據標注員中,近一半是隔壁一所扶貧高職“盛華職業學院”的學生。

除上課外,這些不懂AI的學生每天有大約6個小時可以工作,“易于管理、盡職盡責”是該數據工場負責人給這些學生的評價。對于當地政府和學生而言,這是一件雙贏的事:學生們大多來自貧困山區,在數據加工公司兼職賺來的錢不僅足夠生活,有些學生還會拿出一部分補貼家用。當地媒體《貴州日報》稱,未來三年百度將在百鳥河基地完成2萬小時的數據加工,直接解決1000人就業,促進惠水縣每年近5000余名大學生優質就業。

作為一個勞動密集型行業,門檻并不高,幾萬元啟動資金,就可以在四五線小城組起一個“工作室”。在河北衡水,原來在化工廠上班的小蘇,帶著原先 30 多人的銷售團隊轉行數據標注,隊員小的 20歲不到,老的超過40歲,共同點是都不明白什么是AI。

高中學歷是小蘇在招人時的最高期望——在行業中,這個招聘標準已經算是較高水平,在某些眾包平臺上,有的標注者只有小學文憑,在北京的全職工廠中,最高學歷是大專或者中專。而在京東眾智平臺上,則重點強調在眾智工作的殘疾人士比例,截至目前,在京東眾智平臺上從事數據標注工作的總人數已達到30000人,其中殘疾人士1000人左右。

在這個行業,理想標注精度和學歷沒什么關系,而且操作非常簡單,經過培訓,誰都能做——一家數據標注公司的高層人員就表示,一個農民在標注方言語音時,可能會比不懂這種語言的大學生還好。

事實上,對發布任務的甲方公司來講,誰來標注、學歷高低、如何管理這些都不是他們需要擔心的問題,成本和按時保質交付才是核心。

某數據公司的主管說,通常數據工廠需要處理的客戶訂單往往以萬為單位。比如客戶要求 6 萬張圖片,7 天內完成標注,理論上這個訂單需要 200人左右,共同機械般工作 7 天才能完成。

但部分AI公司卻過分壓低預算,把項目外包給一些不靠譜的團隊,工期又很短;這些團隊做不完、做不了,又會把任務轉包給另一些小團隊,或重新找到大的數據標注公司,使質量和交期都無法保證。

這種情況下,層層外包也就出現了,“小團隊只能接二手甚至是好幾手的項目,一手項目就像江湖傳說,聽過沒見過。”曾做室內裝修,現在轉行做AI數據標注的小何說,他們的項目都是從小公司手里接的,連發包方的名字都不知道。

“數據標注行業比較混亂,沒有一個標準,低價競爭和行業不規范,導致層層外包是行業的噩夢。”京東眾智平臺的負責人李工說。

甚至,這還可能涉及欺詐。“我們這邊剛收到的上家發來的一個數據標注任務,到公司應該是四五手資源了。公司為了節約成本讓我們在網上發帖招收大量任務標注員,然后剩下的就能想象到了。”7月4日,某數據標注公司一位內部人士老柳對記者稱,公司以試題的形式要求兼職人員完成,第一次給你打回去,然后讓你反復的試題,最后合格了,我們再以各種理由推托拒絕付酬。

“甚至,人們不會想到的是,兼職人員做過的題,我們自己改動下也能節省很多時間。”老柳說。

他們也有自己的無奈,一手的項目在誰手上,價格多高,會經歷多少層級,每層有多少利潤,都是謎。對小團隊來說,層層外包下來,其實沒什么利潤了,“比如,一個拉框平均4分,一個人一天最多能做4000個,一共160元。過關率90%,再除去審核成本,再給每個標注員每天發100元左右的工資,平均下來工作室每天也就從每個人身上賺20元,公司都虧損了,還拿什么去付給兼職的呢?”

猜你喜歡
人工智能
我校新增“人工智能”本科專業
用“小AI”解決人工智能的“大”煩惱
汽車零部件(2020年3期)2020-03-27 05:30:20
當人工智能遇見再制造
2019:人工智能
商界(2019年12期)2019-01-03 06:59:05
AI人工智能解疑答問
人工智能與就業
IT經理世界(2018年20期)2018-10-24 02:38:24
基于人工智能的電力系統自動化控制
人工智能,來了
數讀人工智能
小康(2017年16期)2017-06-07 09:00:59
人工智能來了
學與玩(2017年12期)2017-02-16 06:51:12
主站蜘蛛池模板: 亚洲国产理论片在线播放| 亚洲无码电影| 青青热久麻豆精品视频在线观看| 制服丝袜无码每日更新| 国产三级视频网站| 天天色天天操综合网| 欧美成人午夜视频免看| 亚洲视频三级| 国产亚洲高清在线精品99| 中日无码在线观看| 午夜福利亚洲精品| 国产一级一级毛片永久| 国产中文一区二区苍井空| 色欲色欲久久综合网| 日韩欧美中文在线| 国产麻豆永久视频| 精品人妻一区无码视频| 久久这里只有精品国产99| 久久青草热| 国产成人精品亚洲77美色| 亚洲va在线观看| 91成人在线观看| 免费99精品国产自在现线| 久久天天躁夜夜躁狠狠| 国产www网站| 永久免费av网站可以直接看的| 伊人福利视频| 国产激情第一页| 国产微拍一区| 亚洲精品天堂在线观看| 久久毛片基地| 午夜毛片免费观看视频 | 欧美日韩亚洲综合在线观看| 国产综合在线观看视频| 免费人成网站在线高清| 国产爽妇精品| 日韩视频免费| 亚洲69视频| 中文字幕1区2区| 一本色道久久88| 国产精品色婷婷在线观看| 日韩精品一区二区深田咏美| 国产免费久久精品44| 国产一级毛片在线| 四虎成人精品| 男女精品视频| 台湾AV国片精品女同性| 亚洲精品国产成人7777| 黄色在线不卡| 大学生久久香蕉国产线观看| 又黄又湿又爽的视频| 国产丝袜一区二区三区视频免下载| 免费观看国产小粉嫩喷水| 噜噜噜久久| 久久99国产视频| 亚洲a级毛片| 99久久精品视香蕉蕉| 麻豆AV网站免费进入| 午夜色综合| 伊人久久久大香线蕉综合直播| 99热国产这里只有精品无卡顿"| WWW丫丫国产成人精品| 日本欧美一二三区色视频| 亚洲精品午夜天堂网页| 九色国产在线| 51国产偷自视频区视频手机观看| 青青青亚洲精品国产| 国产性生交xxxxx免费| 男人天堂伊人网| 日韩黄色精品| 狠狠做深爱婷婷综合一区| 国产粉嫩粉嫩的18在线播放91| 成年女人18毛片毛片免费| 亚洲男人天堂2020| 国产成人亚洲精品蜜芽影院| 91伊人国产| 国产真实乱了在线播放| 国产精品无码AⅤ在线观看播放| 精品中文字幕一区在线| 欧美色亚洲| 国产免费久久精品99re丫丫一| 91久久国产热精品免费|