蘇 明,陳·巴特爾
(1.汕頭大學高等教育研究所,廣東 汕頭 515063;2.南開大學周恩來政府管理學院,天津 300350)
圖靈獎得主Jim Gray認為,今天在科學的很多領域里,科學家們已不再透過望遠鏡觀察,而是由儀器采集或模擬產生數據,再通過軟件處理,將產生的信息或知識存儲在計算機里,在數據采集、數據處理、知識存儲、知識應用等數據化知識生產的全鏈條中,人所發揮的作用越來越小,人智對科學發明的決定性作用正在消失,許多科學研究已經不再苛求于科學家的親力親為和靈光一現,而是更加重視數據系統的硬件和軟件建設,進而把知識生產轉變為程式化、規范化、智能化的機械流水線[1]。Gray把知識生產總結為四種范式 (不同于庫恩定義的范式):第一范式是以簡單數量關系與通則論為基礎的定性研究;第二范式是以小樣本數據外推復雜因果關系的定量研究;第三范式是以有限數據模擬科學結論的仿真研究;第四范式是以全樣本大數據驅動的數據密集型研究[2]。傳統知識生產范式對大數據時代的海量數據束手無策,長期面臨 “數據很豐富,缺乏分析能力”的問題,以深度學習為核心的新一代人工智能使得基于大數據的知識生產成為現實。本文分析了新一代人工智能與人腦知識生產的比較優勢和人工智能知識生產的問題,并提出改進建議。
新一代人工智能是以深度學習為代表的人工神經網絡方法,本質上是一種對生物神經元的模擬而形成的數據分析技術,主要包括數據訓練過程和模型應用過程,如圖1所示。

圖1 深度學習的運行流程
人腦是一個功能非常強大的信息處理器,有860億個神經元,僅僅人的眼睛每秒處理的數據量就高達140.34GB,而且能夠同步處理圖像、聲音、溫度、氣味等數據,每秒大腦神經網絡處理數據達1000億次,相當于50億本書的存儲容量[3]。人工神經網絡中的神經元數量在近些年中快速增長,但是也沒有超過人腦的水平。目前人工神經元數量最多的是2020年浙江大學與之江實驗室研發的 “達爾文二代”人工腦,共含有1.188億個人工神經元,但也只是達到小鼠的大腦神經元水平。盡管如此,人工智能還是具有很強的優勢,主要是因為人腦存在以下兩方面的局限:
其一,人腦對數字數據的處理能力極差。Hans Moravec發現,駕駛等人類很容易做到的事情人工智能做起來卻很困難,同時也有一些人工智能做起來容易的事情人卻很困難,這個特點最顯著的領域就是數字計算。普通人計算兩個兩位數的相乘就已經很困難,機器卻能夠快速準確地計算非常復雜的數據,同時,數字數據早已取代書籍、報紙等媒介數據,成為數據的主要形式。在2000年,數字數據僅占全球數據總量的25%,到2007年這一占比就達到了93%,越來越多的數據是以數字的形式存儲,而人類所能理解的書籍、報紙等媒介數據占比大幅下降[4]。面對數十ZB級的數字數據,人工智能可以彌補人腦無法處理大數據的缺陷,將人腦無法利用的海量數字數據自動化地搜集、分析和可視化呈現,把人腦無法分析的數字數據可視化為人腦可以分析的媒介數據。
其二,人腦的信息存儲能力不足。遺忘是人腦的顯著特征,人腦24小時的遺忘率高達66.3%,回憶或提取信息非常困難,而對于短期記憶,如果輸入的信息量太大,人腦也很難保存。因此,人腦在信息處理中總是使用片段數據,無法處理數據的全景,再加上人腦的數據獲取會受到個體經歷差異的影響,導致人的知識生產常常帶有主觀性,甚至是片面性,而網絡中的數據具有 “永久記憶”的特征,即使經過再長的時間也不會被遺忘,信息損耗較小。
人工智能非常擅長模仿生成一種與數據訓練樣本風格相似的作品,而且在許多領域的應用中有超越人的表現,如表1所示。人工智能程序的運算效率比人更快、信息獲取更便捷,能夠時時刻刻關注到動態數據,并在第一時間進行數據分析和處理。人工智能搜集信息、加工信息和推送信息的銜接更流暢,各知識生產環節銜接的間隔時間很少。
人工智能知識生產具有很大的比較優勢,同時產生了新的問題,主要體現在以下方面:
其一,人工智能知識生產的理解困境。可理解性是知識的基本要求,知識加工就是一個知識理解的過程,人無法從自己不理解的知識中建構和生長出新的知識,也無從知曉其價值和可靠性,更無法在知識分享中讓他人獲得理解。人在知識生產中會形成 “如果A,那么B”的產生式規則,而人之所以能夠在A和B之間建立聯系,一定是基于自己對A和B兩個事物或行為的理解之上。而人工智能只是按照算法規則將數據處理之后輸出一個結果,由于缺乏先驗的知識定義,人只能知道數據處理中有哪些維度以及各維度的參數,卻無法理解為何輸出這一結果,其知識生產過程是不可理解的黑箱。美國已有一半以上的州使用COMPAS、PSA、LSI-P等智能量刑評估軟件來裁定犯人的量刑,但是人工智能對犯人信息的運算過程不可理解,法官和犯人都不知道為何會輸出這樣的結果,只能接受程序的輸出結果就是如此,而人工智能的算法是否有效、結果是否準確、量刑的依據是否可靠都存在疑問,法律的程序正義受到極大挑戰[6]。

表1 人工智能與人的比較
其二,人工智能與精英權力的弱化。在某種程度上,精英在高深知識生產中具有壟斷性,在知識解釋和知識應用中具有權威性。權力來自于施加影響的能力,精英在高深知識生產中具有不可替代的作用,也因此獲得與職能相匹配的軟性或硬性權力。隨著人工智能應用的加深,在金融等許多領域人工智能的能力已經超過了精英,人工智能生產的知識替代了專家知識,打破了精英知識生產的壟斷性,專家成為知識生產和企業決策的可替代品,而數據的價值顯著擴大,各個社會領域中的重要決策不再向外仰賴于專家指導,而是向內挖掘數據的價值。
其三,人工智能知識生產的約束問題。知識生產是在已有知識結構上生長,但是這種生長不是自然生長,而是受約束的生長。一方面,知識生產的目的是為人服務,人的價值選擇和現實需要引領知識生產的大方向,人的需求是知識生產的主要牽引力;另一方面,人的倫理觀念限制了惡的知識生長,由于知識結果的不可預知性,生產出的新知識既可能對人的公共利益有所損害和威脅,也有可能違反人的倫理綱常,因此人必須對知識生產進行強力干預來約束知識生產的過程,并通過人的價值選擇來引導技術的社會化改造,從而保障知識真正具有造福于人的功能。人工智能的知識生產難以受到人的約束,雖然人設定了人工智能知識生產的目標,但卻無法干預知識生產的過程,也無法預測知識生產的結果,人工智能的程序設計和開發者并不具有對智能產品的完全控制力,很有可能造成人工智能的歧視等問題。機器學習讓人工智能產品具有獨立的判斷、學習和決策能力,程序設計者只是制定了學習規則而無法準確判斷其具體影響,人工智能甚至可以突破原有設定而學習到新的規則。如果生產的知識侵犯了人的利益,該知識生產者需要承擔相應的法律責任,法律機制是約束知識生產的主要方法。但是人工智能知識生產卻難以受到法律約束,智能算法的黑箱化讓人們難以分辨清楚造成損失的具體原因,難以制定人工智能法律評判的標準,而且人工智能的知識生產過程具有一定的自主性,難以將人工智能知識產品的缺陷歸咎于程序設計師,對人工智能知識產品本身施加法律處罰也沒有任何意義,通過法律約束人工智能的知識生產非常困難。
其四,人工智能知識生產的數據壟斷問題。數據是人工智能知識生產的必備原料,數據壟斷直接導致人工智能知識生產的壟斷。數據的質量差異、搜集成本以及分析能力都會使得數據具有很強的排他性。數據驅動的人工智能知識生產最需要解決的問題是數據的可得性問題,在智能制造領域這主要體現為需要通過高昂的費用布置傳感器來搜集生產過程中的大數據,而在互聯網領域這主要體現為需要通過建立對用戶的吸引力來誘使規模化的用戶自愿成為互聯網平臺中的數據生產者,尤其是互聯網平臺的雙邊市場特征決定其必然存在走向壟斷的趨勢,基于壟斷數據生產的知識也必然是壟斷性的知識。生產知識的目標是為了獲取企業更大的競爭優勢,而其中所附帶生產的公共價值也很難被共享,無法形成知識生產的帶動效應。
(1)人工智能知識產品是否具有知識產權?知識產權是一種針對智力勞動的財產權,其確權的主要依據在于判斷該知識產品是否有別于純粹自然狀態的創造物[7]。顯然,人工智能的知識生產過程也是一種智力活動過程,人工智能知識產品也具有很強的獨創性,而且人工智能的知識產品已經達到與自然人的知識產品難辨真假的程度。既然自然人生產的知識產品符合知識產權保護的要求,那么人工智能的知識產品也應該符合知識產權的保護要求。但是人工智能的知識生產活動是否是勞動存在極大爭議,知識產權既是一種私權,也是一種人權,設立知識產權是為了保護人的智力勞動所形成的非實體成果,使知識產品的生產者獲得智力勞動的應有收益而免遭剽竊者的侵害,并以此來激發人的創造精神。因此,知識產權一定是自然人的知識產權,而人工智能卻不是自然人。所有的知識產權理論都強調被保護的知識產品必須是自然人的智力勞動成果,美國版權局規定作品的法律保護必須符合人類創作的條件,包括所有動物等非自然人使用工具生成的作品都不受版權保護。2011年印尼森林中的一只猿猴使用斯萊特的攝影機拍攝了一張照片,斯萊特認為他應當享有該照片的版權,但是版權局拒絕對該照片進行版權登記,法院上訴也被駁回[8]。從這個角度看,人工智能的知識產品肯定沒有知識產權,盡管人工智能知識產品符合知識產權保護的獨創性要求,但是由于人工智能不是自然人,現有法律并不認可人工智能的知識產權。
如果人工智能的知識產品不受法律保護,那么人工智能的知識產品必然會被濫用,鑒于人的知識產品和人工智能知識產品在消費市場中處于競爭關系,人工智能知識產品的濫用必然會導致人的知識產品毫無競爭優勢,直接威脅到人的智力勞動的應有收益,當人的知識產品失去市場和獲益價值,針對自然人的知識產權法律保護也就失去了其存在的意義。另一方面,如果人工智能知識產品不受法律保護,隨著人工智能知識產品越來越多,由人工智能知識生產所帶來的財富應該如何分配也成為一個亟待解決的問題。總體上,現有的法律體系非常強調知識產權的人權屬性,并不認可人工智能知識產品具有知識產權,但是由此引發的社會問題要求法律界對知識產權制度進行檢討和改變,近些年中國、日本、歐盟等國家或地區都在激烈討論人工智能知識產品的產權保護問題,仍然沒有達成共識,鑒于人工智能區別于一般工具的特殊性,法律界存在一種針對人工智能單獨立法的傾向。
(2)如果人工智能的知識產品具有知識產權,那么人工智能知識產權應該歸屬于誰?目前只有英國明確規定了人工智能知識產品的法律地位和歸屬問題,其1988年 《版權、設計和專利法》規定,對計算機所生成的作品進行必要的程序設計的人員,視為計算機生成作品的作者。本法中的計算機生成是指作品完全由計算機創作,不存在任何人類作者[9]。可以看出,法律設定了一種特殊情況下的人工智能知識產品歸屬方案,即當人工智能完全自主地進行知識生產的情況下,人工智能知識產品的產權明確歸屬于程序設計者。然而,當前的人工智能仍然不具備完全自主的知識生產能力,人總是需要或多或少地參與到人工智能的知識生產過程中,因此,英國法律雖然進行了明確的規定,但是卻缺乏實際應用場景。在一般知識產權歸屬的認定中,人對知識生產的掌控能力是知識產品具有創造性的根本原因,所以,明確誰具有知識產品生產過程的直接掌控能力是確定誰具有該知識產權的關鍵。例如,當攝影師使用相機拍攝照片時,攝影師對取景、光線等內容的控制對該照片的獨創性起決定性作用,那么該攝影師享有該照片的版權,而不是相機的制造者。基于知識生產中的掌控力,按照一般知識產權歸屬的認定規則,人工智能知識產品的產權應該歸屬人工智能的使用者,如果該使用者是被雇傭人員,那么該人工智能知識產品的產權應該歸屬于雇主。這種人工智能知識產品的產權歸屬認定辦法存在幾個問題:
其一,相對于一般的機械工具,人工智能知識生產的自動化水平更高,其獨創性來源于人工智能程序本身,而人對于人工智能知識產品的獨創性沒有任何實質性的貢獻,這使得人在人工智能知識生產中所發揮作用的程度遠小于其他工具的知識生產。因此,把人工智能知識產品的產權歸屬于使用者會高估使用者的實際貢獻,進而造成權益不平衡和知識生產中過高的收益-投入比率,形成一種 “不勞而獲”的現象。
其二,人工智能知識生產中最核心的資源是數據,如果把人工智能知識產品的產權完全歸于使用者,那么數據生產者的權益就被忽視了。例如在網絡購物中,互聯網數據的獲得仍然具有 “綁架”性質,消費者只是自愿地在網絡平臺中購物,但卻不自愿被平臺 “搜集數據” “存儲數據” “分析數據”,作為數據的生產者,其數據權力完全被漠視了,消費者只能為了能夠進行網絡購物而不得不妥協。
其三,許多人工智能知識產品是在人的知識產品基礎之上生成的模仿產品,這使得如果將人工智能知識產品歸屬于使用者會構成對被模仿人知識產品的侵權。例如,巴黎索尼計算機科學實驗室使用巴赫的歌曲訓練人工智能系統,所生成的作品具有鮮明的巴赫風格,而且達到了以假亂真的程度,專業音樂家都分辨不出人工智能的歌曲并不是巴赫的歌曲。顯然,人工智能學習了人類作品的風格,所創作的作品很難判定為抄襲,而更像是對先有作品的演繹。因此,人工智能知識產品應該視為演繹作品,其權力歸屬按照演繹作品制度處理[10]。可以看出,人工智能的知識產權問題非常復雜,對原知識產權法律體系的邏輯自洽構成極大挑戰,需要對人工智能知識產權進行細分規定。
本文分析了新一代人工智能和人腦知識生產的比較優勢,以及人工智能知識生產所帶來的理解困境、權力弱化、缺乏約束、數據壟斷和產權不明等問題。人工智能區別于一般技術的最大特征就是其能夠自動化地生產知識,知識生產最能夠體現人工智能 “智”的方面,新一代人工智能帶動了數據驅動知識生產的新范式,既提升了知識生產的效率,也帶來了新的問題。無論人們歡欣抑或踟躕,人工智能時代已經向我們走來,技術的井噴式發展和法律的滯后性造成了目前人工智能 “無法可依”的局面[11]。總體上,現代社會在享受人工智能的技術紅利之時也需要謹慎人工智能帶來的問題,真正 “用好”人工智能可以從以下三方面著手:
其一,建立人工智能知識產權的分級共享機制。人工智能知識生產的三要素是數據、算法和硬件,這使得在人工智能知識生產過程中總共有三個利益相關者,分別為數據生產者、程序設計者、程序使用者。由于人工智能程序本身并不具有法律主體地位,因此,人工智能知識產權一定歸屬于某個或某些利益相關者。人工智能知識生產是多主體的協同過程,如果把人工智能知識產品的產權僅歸屬于某一個利益相關者,就難以發揮知識產權激勵創新的作用,可以按照人工智能程序知識生產的自動化程度劃分不同的等級,不同等級下人工智能知識產權的分配比率不同,通過分級共享機制讓數據生產者、程序設計者和程序使用者獲得與貢獻相匹配的產權比率。
其二,加強人工智能知識生產的可靠性評估和標準建設。由于人工智能知識生產過程的黑箱化和知識生產結果的不可理解性,人工智能知識產品的可靠性、歧視性和安全性都存在疑問且難以控制。人工智能標準建設既可以強化人工智能的可靠性和質量,又可以降低人工智能檢測評估的成本。2019年美國國家標準與技術研究院發布了 《人工智能標準制定計劃》,強調人工智能的安全風險和倫理標準。2020年中國國家標準化管理委員會發布了 《國家新一代人工智能標準體系建設指南》,同樣強調了人工智能的安全和倫理標準。但是,截至目前中美都尚未制定出明確的人工智能標準體系。
其三,加強人工智能的跨學科合作和領域交叉人才的培養。人工智能知識生產問題的解決有賴于人工智能、法學等多領域的知識,而人工智能學家 “法盲”、法學家 “技術盲”使得他們必須要跨界合作,更好的方法是培養兼具法學和人工智能技術知識的跨學科專業人才。目前西南政法大學等高校已經建設了人工智能法學院,設置了人工智能法學二級學科,隨著人工智能技術的不斷擴散,人工智能法學人才的需求將不斷增加,會有更多的高校加強人工智能法學交叉人才的培養工作,當前人工智能的法律困境也許會由新型交叉人才破解。