袁俊杰,王 彬
體育信息工作中,跟蹤國外體育最新動態是一項非常重要的常規性任務。外文信息的翻譯整理是其中的核心環節。雖然近年來機器翻譯準確度隨著人工智能發展而不斷提高,但目前機器翻譯系統與人類譯文仍然差距尚遠,短期內很難完全取代人類譯員。
隨著互聯網的迅速發展,網絡信息更新速度加快,僅僅依靠人工搜集國外體育動態信息已愈來愈不能滿足實際需要。同時,采編團隊之間溝通不及時也容易造成不必要的重復勞動。這些都需要從技術手段上加以解決。
網絡信息采集技術是目前時興的一種信息獲取方式,可以短時間里,智能的自動采集不同網站的信息,已在其他領域廣泛應用。近兩年,筆者在網絡信息采集系統基礎上設計開發了體育信息采譯編系統,將外文體育信息的采集、翻譯、校對、編輯等工作統一管理,取得了很好的成效。
文獻資料法:查閱有關網絡信息采集、眾包翻譯、新聞采編等方面的文獻資料。
專家訪談法:與部分體育信息專家、翻譯人員以及程序員進行訪談交流。
軟件編程法:運用PHP、Java及MySQL進行系統編程。
我們接觸最多的網絡信息是以網頁形式存在的,而網頁上的信息基本上是非結構化的。利用時,一般需要轉為結構化的信息,以便檢索和分類。
網絡信息采集技術是指利用計算機軟件技術,針對定制的目標數據源,實時進行信息采集、抽取、挖掘、處理,將非結構化的信息從大量的網頁中抽取出來保存到結構化的數據庫中,從而為各種信息服務系統提供數據輸入的整個過程。
匯集了各種網絡信息采集技術的程序集成系統稱為網絡信息采集系統,主要用于門戶網站的新聞采集、行業資訊采集、競爭情報獲取等領域。

圖一 網絡信息采集系統流程圖(來源:百度百科)
但目前網絡信息采集系統也存在一些缺點,雖然可以自定義部分篩選規則,能自動屏蔽一些信息,但仍有不少無用信息會被采集入庫,不如人工搜集相關度高,后期仍需要人工介入。
當眾包翻譯首先在社交網站一展身手之后,逐漸在新聞、娛樂、語言學習、非營利組織及政府機構等領域得到廣泛應用。在眾包翻譯模式下,一篇原文通過網絡管理系統分割多塊交給多名翻譯員,最后匯總整合,翻譯、編輯和審校并行多向進行,譯員隊伍規模大,成員個體差異大,結構松散,不受時間和地點限制,翻譯速度快,但譯文質量很難控制。而傳統翻譯模式采用翻譯——編輯——審校自上而下的單向模式,譯員隊伍相對固定,結構嚴謹,成員個體差異小,翻譯速度較慢,譯文質量容易控制,但受到一定的時間和空間限制。
體育信息翻譯專業性較強,對譯文質量要求較高,要符合中文表達習慣和行業規范,實際工作中合作的翻譯人員相對固定,因此,傳統翻譯模式更容易控制翻譯質量,而其受時間和空間限制的缺點可以借鑒眾包翻譯模式中的網絡化管理加以解決。
整個信息采譯編平臺包括采集和譯編二個子系統,相對獨立,通過同一后臺數據庫共享數據。平臺采用B/S結構,用戶通過瀏覽器訪問系統進行操作。
采集子系統采用國內先進的商業化采集軟件,譯編子系統在采集子系統后臺MySQL數據庫基礎上定制開發。原采集庫基本不動,增加譯編庫,人工篩選時自動將選定的采集庫數據拷貝到譯編庫,后續翻譯和編校操作均在譯編庫中進行。
系統設管理員、組長、選稿員、翻譯員、審校員和主編等6類角色。管理員負責采集任務配置和系統管理;組長負責本組人員管理和角色分配;選稿員負責篩選信息,或另外上傳其他信息;翻譯員在線競爭選擇翻譯任務;審校員負責初步校對本組譯文;主編負責所有譯文再次審校并改編成最終文稿。
不同角色的用戶訪問界面不同,每個用戶可分配多個角色。
系統主要功能是通過采集子系統每天自動跟蹤采集權威體育信息網站的最新動態,經人工篩選后,翻譯員在線競爭翻譯,再經初步校對和再次審校,最后改編成最終文稿,實現信息采集、篩選、翻譯、審校、編輯一體化管理。
3.4.1 信息采集和篩選
采集任務配置是整個系統的基礎,操作難度較大,要求管理員熟悉網頁結構。采集子系統提供網頁探測器和任務配置器等輔助工具,幫助管理員配置采集任務。
在任務配置開始前,需要通過網頁探測器分析擬采集的網頁,確定要抽取網頁的哪些信息、信息在頁面的哪個位置、采集時使用的遍歷方式以及是否有下一頁等。
配置任務時,利用前面的分析結果把采集所需要的各種參數加入到任務文件中,例如標題、作者、時間、來源、過濾規則等,以便任務執行器按照我們的意圖進行采集。大部分外文網站的網頁結構各不相同,需要單獨配置,少部分的網站可直接使用系統默認的配置文件。
最后設定采集任務開始執行時間和執行頻率,如每天6點執行一次,每隔8小時執行一次。
采集系統按設定參數自動訪問各網站,下載最新動態信息并存儲在采集庫中。

圖二 采集任務列表界面
選稿員需要手動挑選出有針對性的信息,供各組翻譯員競爭翻譯,各組選稿員也可直接指定本組的某個翻譯員進行翻譯。選稿員可以對原文進行改編,還可以刪除或另外上傳新的信息。

圖三 采集的信息列表及人工篩選界面
3.4.2 信息翻譯
各組翻譯員統一從待譯任務池中競爭任務。系統限制每個翻譯員同時承接的任務數,若已達到限制數,則不能承接新任務。承接后,任務自動鎖定,別人無法翻譯。翻譯過程中可以暫時保存,也可取消任務,重新返回任務池。
平臺提供了世界地名、外國人名、國際體育組織和體育項目等中英文術語對照表,供在線查詢參考。

圖四 翻譯任務列表界面

圖五 信息對照翻譯/校對界面
3.4.3 譯文審校和編輯
翻譯完成后,初譯稿自動進入初校任務池,由本組審校員進行初步審校。各組審校員只能審校本組成員翻譯的譯文,其他小組的譯文則無權審校。審校員還可以對譯文進行1-5星的評分,便于對翻譯員的能力進行評估。
所有一校稿需要經過主編最終審校,并改編成符合要求的最終文稿。一些重要信息還會由主編進一步整合或補充資料。
平臺完成后,合作的兩家院校的教師翻譯團隊以及十余位外語兼職人員進行了兩年多的使用,效果良好。平臺每天采集130余個外文體育信息網站的200余條信息,經篩選和翻譯后,每天可提供10余條譯文,與以前每周提供一次相比,信息時效大大提高。
整個平臺采用B/S結構設計,用戶通過瀏覽器訪問,操作簡單,簡化了培訓過程。采集管理和譯編管理相對獨立,安全性更高。
平臺利用網絡信息采集技術每天定時自動采集上百家體育信息網站的最新信息,極大地節約了人工,提高了采集效率。
平臺在傳統翻譯模式中引入了競爭翻譯和網絡化管理,既發揮了傳統翻譯模式質量易控的長處,又發揮了網絡管理的便捷優勢,對體育信息工作實現創新升級具有重要作用。