劭浩
當前,科技的發展使得數據量呈指數增長,更新速度也越來越快,有研究表明,過去3年間產生的數據量已經超過人類歷史以往數據的總和。在大數據時代,通過人工閱讀資料、處理數據變得愈發困難,這也就導致了大量數據的堆積而不能有效發揮其應有的作用。人們逐漸意識到可以利用先進的數據挖掘方法從中找出大量有價值的信息,更好地理解和領會海量數據中隱含的知識,加速學習過程,從而“喚醒沉睡的價值”。
在WTO,每年都會產生大量的文本資料,包括各種會議記錄、法規條文、貿易協定文本以及爭端解決案等等。這些文檔的涵蓋內容之多,范圍之廣,跨度之大,已經超出了在短時間內用人工進行翻譯、理解、歸納和分析的范圍。如何使得專家能夠在有限的時間內掌握更多的信息,從而在談判中掌握主動權和優勢?大數據挖掘給我們提供了一種新的思路。針對貿易政策審議報告(Trade Policy Review,TPR)而言,通過文本挖掘,可以找出其涵蓋的全部貿易議題,分析出政策和議題的變化趨勢,并從文字中挖掘出政府和機構對于某個議題的態度,從而輔助專家進行文本的閱讀和理解,大幅提高其工作效率。
貿易政策審議機制是WTO在總結GATT運行四十余年的經驗基礎上,在烏拉圭回合中期評審中通過并發展起來的。它是WTO的重要監督機制,由貿易政策審議機構負責,定期對所有成員進行審議。貿易政策審議機制協議第A條明確闡述了其主要目標是“通過提高各成員貿易政策和做法的透明度并使之得到更好的理解,有助于所有成員更好地遵守多邊協定和使用的諸邊貿易協定的規則、紀律和在各協定下所作的承諾,從而有助于多邊貿易體制更加平穩地運行”。通過對貿易政策審議報告的分析,就能夠大體理解貿易的趨勢和走向,掌握不同國家參與國際經貿治理的程度,具有重要的理論和實際意義。
大數據透視TPR
對貿易政策審議文本的分析,主要為了解決專家的三類需求:第一是通過數據挖掘方法快速瀏覽全部文本資料,歸納出文本的主要觀點和內容以及對不同國家的評論態度進行分類等。第二是通過主題挖掘模型,分析不同主題的分布和變化趨勢,并歸納出文檔中不同主題的重要程度。第三是在搜集資料的基礎上建立檢索數據庫,對于專家給出的議題,能夠迅速抽取出相關資料并根據需要分析出相應結果。
分析的手段包括對同一國家不同年份的報告進行分析,對不同國家的相同議題的比較以及對會議提問的評論態度進行分類等。上文中提到的關于中國G264報告中知識產權議題,如果對秘書處報告S264進行相同的分析,就可以得到不同的結果。例如,在G264中,知識產權的重要程度為0.021,而在S264中的數值為0.046,這樣的信息需要引起專家的思考,在貿易政策審議會議的時候要特別注意其他國家針對知識產權方面的提問。又如對美國S275報告進行比較可以發現,對知識產權的關注度只有0.039,這在一方面說明了美國在知識產權領域已經比較成熟,而另一方面也說明中國正逐步完善知識產權保護,因此也得到了更多的關注。同時,我們也可以通過情感分析得出不同國家對中國的評論態度有何不同。
而如果對同一個國家(區域)進行不同年份的趨勢分析,也可以得到一些有價值的信息。例如對歐盟9年度的貿易政策審議報告進行主題挖掘,我們可以得到針對特定議題的關注度的變化趨勢。舉例來說,對農業補貼的關注程度從1995年到2013年呈現出先上升后下降的趨勢。這是因為為了適應WTO談判達成的有關《農業協定》及新一輪談判的要求,1999年歐盟委員會通過了《歐盟2000年議程》,強調對農業政策進行徹底改革,其主要內容是確定將2000-2006年的農業預算支出凍結在每年405億歐元的水平上,同時,分步驟、分階段地消減對主要農產品的價格補貼,通過提供直接收入補貼的方式補償農民因此造成的損失。因此,在2000到2006年中的關注程度就有了明顯的上升。
大數據助力WTO人才培養
數據就是財富,隨著數據挖掘技術的進步,文本挖掘方法已經可以在一定程度上挖掘出海量文本中有價值的信息。通過主題挖掘模型,可以分析WTO各個國家貿易政策審議報告文本,歸納出文本的主題并按照重要程度排序,提供檢索,并為談判專家提供指導性意見和建議。研究方法和模型也可以進一步擴展到其他類型的文本資料,例如分析WTO的貿易爭端案中不同國家和組織對某一特定案例的觀點和態度等。
中國在2001年加入WTO,至今已有十余年,但相對于關稅及貿易總協定(GATT)到WTO幾十年的歷史,仍是一個缺乏實踐經驗的成員。因此,中國有必要培養更多的專業人士來通過國際規則尋求國家利益。然而,人才培養和經驗積累都是長期的過程,這些專業人士必須了解大量的相關資料,具有良好的外語技能并且具備國際談判的實踐經驗,不可能一蹴而就。大數據的挖掘技術可以在一定程度上加速人才培養的過程,加強談判專家對規則的理解和掌握,提升研究水平,并輔助進行決策,使得中國在國際舞臺上擁有更強的主動權和話語權。(作者邵浩為上海對外經貿大學WTO學院講師,研究方向為數據挖掘和機器學習。本文受上海高校智庫上海對外經貿大學國際經貿治理與中國改革開放聯合研究中心資助)
編輯|趙麗芳 lifang.zhao@wtoguide.net