閔 閱,老 青,丁瀟君(.高等教育出版社外語與國際漢語出版事業部,北京0009;.北京青年政治學院 英語系,北京000;.北京工業大學經管學院,北京004)
文本數據挖掘技術對速記教學及語料庫建設的啟示——以松下幸之助演講數據分析為樣例
閔閱1,老青2,丁瀟君3
(1.高等教育出版社外語與國際漢語出版事業部,北京100029;2.北京青年政治學院 英語系,北京100102;3.北京工業大學經管學院,北京100124)
摘要:基于文本數據挖掘技術,探討在速記教學設計中如何培養職業速記人員利用文本數據挖掘技術發現潛在的、有用的知識,以更加有效地開展速記前的信息儲備工作。速記筆記符號識別語料庫能夠解決速記中筆記產出的受阻情況,提升速記筆記記錄源信息的質量。
關鍵詞:文本數據;挖掘技術;速記教學;語料庫建設
文本數據并非數字型態的數據。以往對這類數據的比較常見的分析方法,是通過截取、引用原文的一部分,再添附分析者的說明、研究等。與之相比,被稱為文本數據挖掘的計量分析方法則提出對文本數據加以某種數字化操作,從而進行計量分析。
對文本進行計量分析的目的主要有兩點:提高客觀性和數據搜索性。例如,一個人以肉眼閱讀演講和發言內容后,能夠對演講或發言內容有一個大概的印象。但是,怎樣才能將這些印象客觀地展示給第三方呢?當文本數據數量龐大,多至無法全部閱讀的時候又該如何呢?若想如根據年代、受眾等特征來搜索演講內容發生了什么變化,又該如何呢?這就需要利用文本數據挖掘的計量分析優勢,來解決這些問題。
在實際運用中,文本數據挖掘有三大要素:第一是提取數據;第二是數據分析;第三是分析結果的可視化。也就是說文本數據挖掘必須考慮:怎樣減少誤差,正確有效地收集必要的信息;該用什么樣的方法對這些信息進行科學分析;如何以一目了然的形式來說明體現分析結果。我們可創建數據庫、對數據進行處理分析,并對其結果進行研究,具體流程見圖1。

圖1 文本數據挖掘技術應用研究流程[1]
我們從日本PHP研究所 (松下幸之助于1946年所創立的研究所及出版社)收錄整理的松下幸之助講演集,包括1940年至1987年之間松下幸之助發言記錄的文字數據中,特別選定了以面向松下電器集團外部經營者為主的對外演講(第1卷~第5卷)(以下簡稱“對外演講”)和面向松下電器集團內部員工的對內講話(第22卷至第24卷)兩個部分[2]。
我們將松下幸之助共計百余次演講、發言的內容收入數據庫,之后用文本數據挖掘的分析工具在數據庫的基礎上構建關鍵詞庫,從整體數據和特定關鍵詞兩個角度進行分析。最后,全面評測分析結果,進行深層解析并討論,從而對松下幸之助的經營思想全貌進行科學客觀的理解分析,探索其經營思想的特征以及其在不同時期的變化。
(一)語素分析與高頻詞
文本數據挖掘法,將文本數據進行數字化分析研究,它并沒有具體特定的分析方法與流程。文本數據挖掘有多種形式,有的是從文本數據中提取高頻詞,匯總敘述統計量;有的是將觀測數據分組;有的是調研一組句子中兩個特定詞同時使用的傾向,等等。這些研究方法均以語素分析為基礎。語素是語言中最小的語音結合體。語素分析是把一個個句子進行語素分離,分析出這句話用了哪些詞匯,正確地說是分析每一句話由哪些語素構成,從而獲得基本統計量。
例如,我們對松下幸之助的所有演講和發言都進行語素分析和糾錯處理(排除沒有分析必要的語言和使用頻率較低的詞),在此基礎上,提取排名靠前的高頻詞,統計使用該詞條的演講、發言的次數以及該詞條總共出現的次數,并將對外演講和對內講話進行對比驗證。
總結起來,對外演講和對內講話的共通點表現在:首先,確認了詞條的“出現次數”(詞條在所有文本數據中共出現多少次)和“出現演講場次”(該詞條在多少場演講中被使用過)之間的關聯性。也就是說,“出現演講場次”較多的詞,其“出現次數”也較多。其次,高頻詞涵蓋了經營、政治、地域、銷售、勞動雇用等多元化領域,同時還發現松下幸之助的特征性語言出現頻率并不高。另一方面,與對外演講較為宏觀的視角相比,對內講話則更多是從職員、工人、個人等比較微觀的視角出發。這便是他講話的一個基本特征。
此外,將關聯程度較高的關鍵詞貫穿成線形成關聯網絡,不僅能看出詞條與詞條之間的關系,還能了解詞條與時代之間的關系。也就是說,可以研究被提取的關鍵詞在不同時期受到松下幸之助本人何種程度的關注,以及不同時期和關鍵詞之間又有怎樣的聯系。
從松下幸之助個人的角度,根據其生涯經歷,將其40多年來的講演發言,按照三大時期(社長時期、會長時期、顧問時期)劃分并進行分析。同時也從另外的角度——經濟景氣與否的角度,劃分為八個經濟波動時期,結合經濟的變化解析關鍵詞所發生的變化,見表1。

表1 松下幸之助各時期演講情況統計一覽表[2]
通過分析得出,不同時期的講話既存在共通的詞條,也存在不同的關鍵詞組。例如,20世紀50年代后期的社長時期,伴隨著事業的擴展、新工廠的建設、大規模批量生產開始,這個時期的對外演講和對內講話兩方面,都時常提到“工廠”和“生產”這類與制造業相關的關鍵詞。20世紀60年代,隨著經濟的騰飛,受隨之而來的物價上漲的影響,“物價”一詞被多次提及。在同一時期,開始推行“顧客第一”的銷售戰略和積極建設服務網絡的新銷售制度,這一時期的發言,尤其是對內講話中,集中出現了“銷售”、“銷售公司”等詞條。20世紀70年代中期開始,面對艱難而不景氣的日本,如何進行反省,并結合眾人的智慧和力量,建設理想社會成為其主要關注點之一。在該時期,“不景氣”、“反省”、“智慧”等關鍵詞頻繁出現。從這些關聯網絡的分析結果來看,對外演講和對內講話同樣都受到了時代的影響。
(二)特定關鍵詞分析
1.特定關鍵詞的年代變遷分析
在他的演講中,松下幸之助的經營哲學大多以格言的形式表現出來。作為經營實踐中的指導思想和思考方法,“智慧集體經營”、“適應式經營”、“自主責任經營”、“共存共榮的經營”、“人盡其才”等均是松下幸之助提出的經營之道,我們把這些內容相關的詞條進行整理,詳細分析這些詞條在對外演講和對內講話中出現頻率的增減情況,并研究與各種經營理念有關的詞條,在不同的年代是如何被運用的,其受關注時期以及相關的背景信息又是如何。
從其演講數據分析的結果來看,“智慧集體經營”受關注的時期主要集中在20世紀50年代中期到70年代。50年代初期,受到赴美考察的影響,松下幸之助提出打造合作經營的經營理念,強調必須集中全體員工的智慧來開展經營活動。而“適應式經營”在1965年前后最受關注。當時“昭和40年(1965)大蕭條”出現了進一步惡化的趨勢,松下幸之助在演講中提出了“水壩式經營與適應式經營”理念。另外“共存共榮”最受關注的年份也是1965年,松下幸之助向各銷售代理店贈送手寫的“共存共榮”題詞,提高代理店組織的向心力。同時,“自主責任經營”的概念在很長一段時期內受到了松下幸之助的關注。他對于“自主責任經營”的思考,從戰前較早的時期就已經開始并在多次講話中反復強調。至于 “人盡其材”的概念,在戰前就已經被提出,50年代初期,他去美國考察時看到了在美國“人盡其材”的實例,因此再度提出了對這一概念的重視[3]。
2.特定關鍵詞的關聯語分析
我們可以對特定關鍵詞的周邊概念進行分析來確認和特定關鍵詞相關聯的詞條有哪些。這一關聯是從文本數據來推測,一般是通過帶有附加條件的概率計算來進行。當輸入“出現〇〇特定關鍵詞”這一條件后,系統會自動搜索滿足該條件的文章,同時將其中出現頻率特別高的詞語列成表格。之后進一步使用列表中的高頻詞構建關聯性網絡,顧名思義,這是將分析得出的關聯性特別強的詞條用線連接起來而形成的一種關聯詞的網狀圖,見圖2。
根據圖2所示,我們可以獲知如下信息:首先,與“美國”關聯最密切的詞條是“美國的民主主義”。尤其在談到經營方面時,松下幸之助多次提到美國的民主主義,認為民主主義,就是要做到“人盡其用,物盡其材”。其次,提到生產性的時候,可以得知他赴美考察時參觀了眾多公司、工場,對美國的高效率生產非常佩服。對于勞工組織問題,他時常提到美國的工會與日本工會不同,組織結構非常透明。總而言之,可以認為“美國”對松下幸之助的經營理念產生了不小的影響。
上述示范僅在對講演資料進行文本數據定量分析,解析演講話題與關鍵詞等方面做了相關展示。作為職業速記工作者。還可進一步從語言含義與深度、地區變化等其它角度入手開展有助于速記信息儲備工作的更深層次的探索。
(一)文本數據挖掘技術引入速記教學

圖2 特定關鍵詞“美國”的關聯語分析結構示例
大多數情況下,速記活動的過程始終處于傾聽狀態,基本上無二次重聽的機會,職業速記者在聽準關鍵信息的前提下,還要在有限的時間里將聽取的信息加以分析與整理,迅速地掌握信息言內與言外之意,之后及時地形成有效筆記并加以保存。因此,文本數據玩具玩技術視角下,速記教學設計應以源語語言應用能力、泛專業知識儲備能力為主線展開。具體可分為兩個層面:
1.掌握源語語言知識,提高源語語言應用能力[4]
(1)語言分析:側重言談形態與邏輯結構的訓練,包括基于文本數據挖掘技術的文稿結構分析、語體風格分析,等等;
(2)語言知識:側重積累多頻詞匯、常套句的訓練,包括基于文本數據挖掘技術源語詞語數據庫搭建、源語模仿跟述比對,等等;
(3)語言能力:側重聽說讀寫記能專項技能及綜合能力應用訓練,如基于文本數據挖掘技術交互轉述訓練比對、視錄速讀訓練比對,等等。
2.構建泛專業知識體系,拓寬基于英語發言者所屬文化及組織的背景知識
(1)泛知識領域學習與整理歸類:一般知識吸收注重原理與實務的理解;專業知識吸收注重專業概念、術語辨析與詞語的理解。
(2)知識與語言并行訓練:潛在性訓練(限時網絡搜索與閱讀)與顯著性訓練(源語速讀與視讀)相結合。
(3)速記時(非速錄要求),除了數詞、術語、專有名詞以及引用經典、法條等之外,一般性內容可不采取詞對詞的方式完成記錄,聽取與思考并重并行、傳訊不傳詞、意譯式速記。
在速記中,我們常常遇到一些直接或間接地影響理解的詞語,首先包括傳達語言信息重點、表述實際意義的關鍵詞,如名詞、動詞、形容詞、數詞等;其次是固定的、約定俗成的、與背景知識關系密切的困難詞,如專有名詞和專業名詞;還有承載一個國家發展歷程、社會習俗演變與傳承的文化詞,如典故、諺語、成語、俚語、詩歌、口號、影視片名等;異國語言與文化影響下創造出來的、多原創于新事物或新概念的外來詞,等等。
上述基于文本數據挖掘技術的相關訓練更適合于“慕課”環境或“翻轉課堂”模式的速記教學。根據受訓人員個體情況,開展多樣化的 “微技能”培訓,可拆解的具體“微技能”包括
頻道詞典:如分析關鍵詞、困難詞、文化詞、外來詞等在源語中的分布;
半搭配分析:如搜索關鍵詞(某一高頻動詞)后面的關聯與名詞分布;
詞性排名:基于統計的某一類詞(如名詞)使用頻率排名;
詞條比對:對比兩個源語的詞條超用和少用現象;
詞性對比:對比兩個源語(如專有名詞、專業詞語)的用法分布。
在速記教學設計中有意提升受訓人員的信息化意識,有序培養職業速記人員利用文本數據挖掘技術發現潛在的、有用的知識,使其更加有效地開展速記前的信息儲備工作。
(二)基于文本數據挖掘技術構建速記筆記符號識別語料庫
隨著信息通訊技術與網絡的迅速發展,速記筆記符號與網絡語言及文化、普適技術(ubiquitous computing,泛在計算機)產生密切聯系,并使速記筆記符號具有模態互轉和分享共用的特征。目前,速記模態(如語音識別、文語轉換)互轉輔助技術已成為現實,研發基于文本數據挖掘技術的速記筆記符號識別語料庫已不再是難題。
針對速記筆記信息速符的形式表征,基于文本數據挖掘技術的速記筆記符號識別語料庫可根據其屬性與功能可分為:詞語速符(具有實質意義,以實體詞為主,如名詞、動詞等)、會意速符①會意速符與詞語速符所不同的是,它脫離源語形式,即不依附于詞語的形式和讀音,并傳達偏于思維化、抽象化的信息概念。會意速符在速記者實際操作時是比較普遍的,且似乎頗具共性。(表抽象語意,以不具備實質意義的功能詞為主)、關系速符(語法意義為主)、區別速符(顯示信息間的群組關系);下設子系統應包括速記筆記符號識別設置(詞語聯想、筆勢識別)、手寫設置(筆跡顏色、筆跡粗細、筆跡類型)、顏色設置(色彩方案)、發音設置(音速、音質)、筆勢瀏覽(退格、空格、刪除、回車)等,確保速記人員可連續以行草連筆字、英文、數字、符號等方式輸入或搜尋速記筆記符號,在無須切換界面的情況下“一筆到底”,輸入內容還可直接對PPT、WORD、EXCEL等文件進行批注,勾畫出示意圖標注重點,遇到會讀不會寫的字詞,可通過書寫同音字詞速符找到[5]。應該注意的是,在構建基于文本數據挖掘技術的速記筆記符號識別語料庫中,其最基本的符號識別功能應包括:
1.在詞庫模式下,輸入詞語的首尾字母(或字母組合)后,計算機即可呈現出相關詞語的列表,如圖3所示:

圖3 速記首尾字母速寫筆記符號識別結構
2.在詞庫模式下,計算機可按文章中選定詞語的出現頻率并排序,生成關鍵詞詞語的列表,如圖4所示:

圖4 關鍵詞速記詞語識別結構
速記的根本目的是記錄源信息,速記的內容是對源信息內容和結構的采集記錄,構建基于文本數據挖掘技術的速記筆記符號識別語料庫的出發點是解決速記中筆記產出的受阻情況,如源語信息關鍵詞輸出密度過大、源語信息專業性、學術性、專有名詞密集并列程度過高等,有助于提升速記筆記記錄源信息的質量,尤其在提高信息完整性(Faithfulness)、筆記詮釋性(Reformulation)和筆記可識率(Recognition)等方面取得顯著成效。
參考文獻:
[1]KH Coder.文本挖掘技術軟件操作介紹[EB/OL].[2013-04-30].http://khc.sourceforge.net/.
[2]日本PHP研究所.松下幸之助發言集[M].京都:日本PHP研究所出版社,1991.
[3]經營哲學學會.經營哲學的實踐[M].東京:文真堂出版社,2008.
[4]楊承淑.口譯信息處理過程研究[M].天津:南開大學出版社,2010.
[5]劉幺和,宋庭新.語音識別與控制技術[M].北京:科學出版社,2008.
(責任編輯:明遠)
中圖分類號:H 026.1
文獻標識碼:A
文章編號:1007-5348(2015)07-0170-05
[收稿日期]2015-05-11
[基金項目]2015年北京市高職學生培養——高端技術技能人才培養模式改革子項目“旅游英語專業實踐教學研究與實訓資源建設”(PXM2015-014208-000023)
[作者簡介]閔閱(1974-),女,北京人,高等教育出版社外語與國際漢語出版事業部副編審;研究方向:英語語言文學、國際出版。
The Enlightment of Text Data M ining to Stenography Teaching and Its Corpus Construction:Taking the Data Analysis of Konosuke M atsushita’s Speeches as an Exam p le
(1.Foreign Language Publications,Higher Education Press,Beijing,100029; 2.Department of English Language,Beijing Youth Politics College,Beijing 100102; 3.School of Economics and Management,Beijing University of Technology,Beijing 100124)
Abstact:‘Text Data Mining’(TDM)is a kind of technology for analyzing a large amount of text data by dozens ofmeasures,with which people could find out patterns and laws,as well as gain useful knowledge and information.Also,we are discussing how to cultivate such ability in the design of shorthand teaching so that professional stenographers could utilize TDM to discover the underlying and valuable knowledge in order tomake a better and more effective preparation before taking shorthand.And we think that notation recognition corpus based on TDM for shorthand purpose could be helpful for notation-output and improve quality of shorthand.
Key W ords:text data Mining;shorthand training;corpus;design