摘 要 本文從“通過快捷多樣檢索手段擴展功能”、“實現客戶端免安裝,解決大字符集漢字跨平臺、跨系統、多文種的顯示問題”、“以新技術保護知識產權”等三方面介紹了《漢語大詞典》(網絡版V.2)的特色,從中可以看出,《漢語大詞典》(網絡版v.2)是在計算機網絡平臺上,組合運用網絡技術、數據庫技術和現代檢索技術制作成的網絡工具書,實現了大型漢語詞典從紙面走向網絡的轉折。
關鍵詞 《漢語大詞典》 網絡版 特色
大型漢語工具書的數字化問題一直受到社會各方面的關注。但是,漢語網絡工具書的發展近幾年卻相對緩慢,正面臨不少瓶頸問題亟待解決。不過,由上海數字世紀網絡有限公司出版的互聯網出版物《漢語大詞典》(網絡版V.2),讓我們看到了解決問題的希望。
一
《漢語大詞典》是一部大型的、歷時性的漢語語文詞典,編纂
歷時18年,有專家學者千余人參與。《漢語大詞典》曾榮獲首屆國家圖書獎、上海市哲學社會科學優秀成果獎、上海市優秀圖書(199l-1993)榮譽獎及第五屆全國圖書金鑰匙獎等多項殊榮。
從上世紀80年代末開始,漢語大詞典出版社就專門設立了計算機編輯室,跟蹤計算機技術的發展、研究中文大字符集平臺,并著手《漢語大詞典》的數字化工作。1997年,《漢語大詞典》數字化工作取得初步成果,出版了《漢語大詞典》1.0光盤版。
1999年,上海世紀出版集團成立后,投資幾百萬元,繼續開發、制作《漢語大詞典》網絡版。2000年7月,《漢語大詞典》1.0網絡版在“易文網”上推出,后被上海市信息化辦公室評為\"2000---2002年上海市信息化優秀應用項目。
2005年初,上海數字世紀網絡有限公司開發、出版了《漢語大詞典》(網絡版V.2)(以下簡稱網絡版V.2)。在我國,這是以互聯網出版物形式出版的第一部大型漢語網絡詞典。
二
網絡版V.2綜合運用了中文信息技術的各項前沿成果,解
決了有關知識產權保護、中文大字符集平臺運用等多項重大技術難題。2005年3月,上海市科委評定其為高新技術成果轉化項目。網絡版V.2具有三大特色:
1.內容依據印刷版。通過快捷多樣的檢索手段擴展功能
網絡版V.2是在原印刷版的基礎上開發的,為了保證權威性,內容完全依據印刷版,共收入29937個漢字,346067個復詞,23444條成語和其他熟語;共有515668項釋義,894981個例證。版面上保留了印刷版繁體字與簡體字并用、正體字與異體字并用、某些專名加專名線等特殊格式。利用數字化詞典檢索手段多種多樣的特點,網絡版V.2設有部首筆畫查詢、讀音查詢、古音查詢、匹配查詢、超文本查詢、關聯查詢、直接輸入查詢等20多種互動查詢功能,擴展了功能,可兼作順序詞典、逆序詞典、組詞詞典、擴詞詞典、成語詞典等。網絡版V.2還提供漢字的相關信息,說明字的繁簡體、正異體、古今字、通假與被通假字、正訛字、新舊字型、中國漢字與日本漢字等7項對應關系,準確指出漢字的源流及演變,并形成獨特的檢索系統。先進的HASH靜態數據檢索技術則提高了查詢速度,使取得查詢結果的時間只取決于網絡傳輸速度而不受查詢內容的影響。
2.實現客戶端免安裝。解決大字符集漢字跨平臺、跨系統、多文種的顯示問題
在計算機上顯示漢字需要操作系統的支持。絕大多數計算機使用的微軟視窗操作系統以GB2312-80(P—Windows 3.2)、BIG5(中文繁體字)、GBK(Windows 95/98)為基本漢字編碼,并配以相應的字庫;最新版本則采用IS010646/Unicode編碼字集。GB2312—80編碼收6763個簡體字;BIG5編碼收13060個繁體字;GBK編碼標準兼容GB2312,簡、繁體字融于一庫,收21003個漢字。顯然,采用以上三種編碼的計算機操作系統,都無法完全顯示《漢語大詞典》所收的近3萬個漢字。為了遷就微軟視窗操作系統,《漢語大詞典》1.0網絡版不得不刪掉了印刷版中4500多個生僻字和相關內容,還要求客戶必須下載安裝專門的字庫,影響了《漢語大詞典》的完整性。
網絡版V.2采用IS010646/Unicode國際標準編碼,建立在7萬漢字的標準平臺上,適應微軟Windows 2000/XP/2003各種語言版本的系統環境,使簡繁體字、多國語言文字可共存在瀏覽器的同一頁面中。網絡版V.2使用了先進的互聯網流式技術,能自動適應用戶端各種版本的微軟視窗操作系統,無須把不同版本漢字編碼標準以外的生僻字存到客戶的硬盤中,卻能顯示那些生僻字,實現了跨平臺、跨系統、多文種的網絡瀏覽,可以滿足各類用戶的需求。由于該程序運行時不需要客戶另外安裝任何附加程序,網絡版v.2的版本升級以及漢字大字符集的動態升級問題也隨之解決,確保了未來的可擴展性。
3.以新技術保護知識產權
網絡版V.2的開發制作花費了大量人力、物力、財力。在互聯網環境下,只有采取必要的技術手段,保護好網絡出版物的知識產權,才能避免巨大的經濟損失。
網絡版V.2采用了多重信息加密手段。首先,網絡版V.2提供的是在線有償使用,身份認證是防止非法用戶入侵的第一道防線。用戶的密碼加密后存儲在服務器的文件系統中。當用戶登錄時,系統把用戶輸入的密碼和保存在文件系統中的密碼進行比較,進而確定輸入的密碼是否正確。這樣,系統在不知道用戶密碼的明碼的情況下,就可以確定用戶登錄系統的合法性。這不但可以避免用戶的密碼被具有系統管理員權限的用戶知道,而且還在一定程度上增加了破解密碼的難度。第二,網絡版V.2具有動態適應功能,不僅確保客戶可以在各類中文字符集平臺上都可以正常輸入查詢要求,拷貝、粘貼查詢結果,還通過一種加密法對客戶端字符隨機加密,使數據解密后才可讀,這樣,即使通過下載盜取到數據,也無法使用。第三,針對我國目前互聯網通信網速較慢和費用較高的現狀,網絡版V.2還提供在局域網上使用的版本。這需要將網絡版V.2的基礎數據安裝在客戶局域網的服務器上。為了有效保護版權,這些基礎數據都經過加密處理。客戶要啟動服務器上的網絡版V.2程序,必須先取得“易文網(www.ewen.cc)”隨機提供的密鑰,將數據解密后才可運行。
三
網絡版V.2絕不是印刷版《漢語大詞典》的簡單電子拷貝,而是在計算機網絡平臺上,運用網絡技術、數據庫技術和現代檢索技術進行重新加工和組合后形成的網絡工具書,實現了大型漢語詞典從紙面走向網絡的轉折。不過,網絡版V.2并非沒有問題。例如,原印刷版中已發現的一些明顯錯誤,在網絡版中并沒有改正;文字的排版格式也不夠規范,句號、逗號等標點竟允許排在行首。當然,這樣的問題不難在新的版本中改正。
作為網絡出版物,網絡版V.2必須面向市場。采取什么樣的出版模式,如何進行營銷,這些也是需要摸索解決的新課題。
(上海世紀出版集團易文網站200001)
(責任編輯 王慧敏)