999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種Web信息挖掘的英語閱讀選篇分類研究

2009-02-18 09:11:54
現代教育技術 2009年2期
關鍵詞:英語閱讀

吳 昊

【摘要】隨著網絡信息化程度的不斷提高,英語閱讀教學模式也發生了根本性的變化,網絡環境下英語閱讀教學題材選篇的多樣性與靈活性有了質的飛躍。由于目前英語閱讀題材選篇多為手工挑選,題材涉及面不夠廣泛并且任務繁重,提出了一種基于Web信息挖掘的英語閱讀選篇自動分類的設計模式,以期利用計算機技術為構建高效實用的英語閱讀自動選篇系統提供有效的解決途徑。

【關鍵詞】Web信息挖掘;英語閱讀;文本分類;結構模型

【中圖分類號】G40-057 【文獻標識碼】A 【論文編號】1009—8097 (2009) 02—0067—04

引言

信息化的不斷推進給信息獲得方式帶來前所未有的沖擊,英語閱讀素材的獲取也必然要隨之進行相應的改進和調整,而有效利用網絡資源則是未來英語閱讀材料研究的一個重點領域。針對于英語閱讀題材選篇的模式單一、手工操作相對繁雜、歸類困難和數據量少等問題,本文擬通過一種高效的、靈活的網絡文本分類的英語閱讀選篇分析方法來給予解決,為實現網上海量數據的英語閱讀選篇自動歸類給出可供借鑒的依據,并提出一種實際有效的解決方案。

為了從海量數據中發現有效、新穎、潛在有用、可最終理解的模式,數據庫領域引入了數據挖掘(Data Mining)[1,2]。由于數據挖掘的缺陷,Web 挖掘技術(數據挖掘技術跟 Web技術相結合)作為一種新技術逐漸得到重視。有研究表明,在海量的Web信息資源中,有80%以上的信息是以文本的形式存在的,因此隸屬于Web內容挖掘的Web文本挖掘顯得尤為重要[3,4]。Web文本挖掘就是從 Web 文檔和 Web 活動中發現、抽取感興趣的潛在的有用模式和隱藏的信息的過程。因為Web文檔中的標記給文檔提供了額外的信息,所以提高了Web文本挖掘的性能,而Web 文本挖掘是文本挖掘的主要研究內容。Web文本挖掘對我們充分利用Web信息資源很有幫助,能夠使人們比較準確找到需要的資料,同時還可以節約搜索時間,提高Web文檔的利用價值等。Web文本挖掘可以對Web文檔集合的內容進行總結、分類、聚類、關聯分析以及趨勢預測等。

隨著Web文本分類技術在信息檢索、智能搜索引擎和文本分類器的構造等領域的廣泛應用[5],Web文本分類的研究己經成為信息處理的一個前沿課題,有著廣泛的應用前景和重要的研究意義,它的研究和應用對于英語閱讀題材的分類和歸納也具有相當重要的作用。

一 Web信息挖掘

1 Web信息挖掘及其分類

Web是一個巨大的、開放性、動態性、廣泛分布、相互聯系并且不斷進化的信息倉庫[6]。它也是一個巨大的文檔累積的集合,包括超鏈接信息、訪問及使用信息,資源分布分散,這樣一來也就導致了信息獲取的困難。Web信息挖掘是指對目標樣本進行特征分析,并且據此從Web文檔和Web活動中抽取人們感興趣的、潛在的有用模式和隱藏的信息,所挖掘出的知識能夠用于信息管理、查詢處理、決策支持、過程控制等方面。人們利用Web信息挖掘技術可以從Web海量的數據中自動地、智能地抽取隱藏在這些數據中的知識。但如何滿足各種用戶不同的個性化需求,卻成了新的信息服務系統面臨的具有挑戰性的課題[7]。Web信息挖掘的一種比較流行的分類方法見圖1。

根據Web信息挖掘的數據對象,將Web挖掘分為3 類:Web內容挖掘(Content Mining) 、Web結構挖掘(Construct Mining) 、Web使用挖掘(Usage Mining)。這里Web內容挖掘又可以分為Web文本自動分類和Web搜索結果歸納,本文將主要研究其中一個分支Web文本自動分類,并結合英語閱讀自動選篇進行分析。

2 Web信息挖掘的流程

本過程主要涉及四個方面問題:數據收集,數據選擇及特征提取,模式發現,模式分析。其流程如圖2所示。

(1)數據收集。找到Web信息挖掘的數據源,通過預先設置的URL路徑找到合適的信息資源。

(2)數據選擇和特征提取。針對取得的Web信息資源,剔除無用信息,并將信息按特定要求進行特征提取。

(3)模式發現。利用合理有效的挖掘算法,自動對上一步整理完成的內容進行深入分析,發現其中蘊含的模式。

(4)模式分析。驗證、解釋上一步驟產生的模式,并對挖掘出來的模式、規則進行分析,找出其中蘊含的讀者感興趣的模式和信息。

3 Web信息挖掘技術手段

Web信息巨大,要有效處理這么大的數據量既要考慮系統運行時的時間復雜度,也要考慮空間復雜度,結合二者并加以合理分析利用才能使系統的整體性能真正提高。在Web信息挖掘技術手段方面當前主要涉及以下幾點:

(1) 統計分析。它是一種重要的數據處理技術[8],根據現有大量數據應用統計分析的方法進行歸納、解析,從而找出某類數據的分布規律。

(2) 關聯規則。關聯規則是表示數據庫中一組對象之間某種關聯關系的規則[9]。

(3) 文本分類。文本分類是指按照預先定義的主題類別,為文檔集合中的每個文檔確定一個類別。

(4) 文本聚類。文本聚類沒有預先定義好的類別,它能夠從信息本身出發,自動進行分類,它的目標是將文檔集合分成若干個簇,要求同一簇內文檔內容的相似度盡可能地大,而不同簇間的相似度盡可能地小。

二 英語閱讀Web文本分類

1 特征表示

Web文本信息的特征表示,是指自動地從Web 文本信息中抽取出代表英語閱讀內容主題的特征詞條,形成特征矢量來表示英語閱讀素材的Web文本。抽取文本特征一般需要先移除HTML標簽或其它標識、刪除停用詞、執行詞根化等。由抽取的關鍵詞形成的特征矢量表示特定的英語閱讀文檔。文本特征分為描述性特征和語義性特征。

對于一篇英語閱讀題材來說,詞是題材篇章表意的最基本單位,也是能夠反映內容的最主要特征,一篇文章中使用的詞,在某種程度上可以代表文章的內容。目前英語閱讀題材的表示模型有很多,其中最普遍使用的是向量空間模型(Vector Space Model)。在這種模型中,每篇英語閱讀題材被表示成特征向量:

式(1)

其中:fi為特征詞條,wi ( d)為特征詞條fi在題材中的權重[8]。可以將英語閱讀題材d中出現的所有詞作為fi,然而這樣做會使得特征向量的維數特別高,特征不明顯,計算復雜。英語閱讀題材的內容主要是由動詞、名詞、形容詞等實詞決定的,虛詞和一些在所有題材中均出現的高頻詞對分類是沒有任何意義的,所以需要進行有效特征表示,降低特征空間的維數,以達到降低計算的復雜度、提高分類準確率的目的。然后對初始特征向量通過統計的方法提取有效特征。

2 特征相似度的計算

利用特征向量空間模型進行英語閱讀題材分類時,通常是先計算出待分類題材與每一種題材類別之間的相似度,然后取相似度最大的類作為待分題材的歸屬類。一般相似度的計算公式采用兩個特征向量間的余弦夾角來表示:

式(2)

其中:Wik、Wjk分別表示題材di和類cj第k個特征項的權值。

3 英語閱讀文本分類方法

如前所述,當前許多基于向量空間模型的Web文本自動分類方法均是通過比較某個網頁與所有類之間的相似度,將相似度最大的類作為網頁的歸屬類。

對于任意給定的一篇閱讀題材,設定合適的閾值是正確分類的關鍵,閾值設定過小會導致分類數太多,而設定過大會導致識別不出是哪一類,因此本文根據每個待分類題材與各個類的相似度的實際情況動態地計算出一個閾值。這樣每個待分類題材在分類時使用的閾值是不相同的,不是固定的。這里預先將動態閾值設定為所有相似度的平均值,即:

式(3)

為了使設定的閾值盡量偏向于相似度較大的類別,以減少錯誤劃分,本文給每一個相似度分配一個權重 ,其計算方法如下:

式(4)

則動態閾值 。

通過計算出的動態閾值λ,比較每一個相似度與λ的大小,如果Si>λ,則英語閱讀題材d屬于第i個類。

三 英語閱讀語料選篇實驗

1 語料集的選擇

英語閱讀語料集是在網上各大英語類網站上進行收集的。常用經濟網站有:金融時報、財富、遠東經濟評論、福布斯、商業周刊等;新聞類網站有:CNN、BBC、華盛頓郵報、泰晤士報、今日美國、觀察家、每日電訊等;英美周刊雜志網站有:每周標準、ESL港灣、沙龍、外交事務雜志、新共和、國家評論、外交政策、民族等;時事類網站有:安全政策研究中心、世界各國地圖、衛星照片、網上各國政府資料等;綜合類網站有:華爾街日報、南華早報、俄羅斯周刊、時代周刊等。其題材十分廣泛,涉及體育、教育、財經、工業、農業、法制、交通、科技、軍事、環保十個方面的內容,這里一共選擇了3000篇文檔資料用于實驗,一半用于訓練,另一半用于測試。實驗文檔類別構成如表1所示。

2 評價標準

進行Web文本分類的最終目標都是為了盡可能地得到最滿意的結果,所以對分類結果的評價才是真正衡量一個分類系統好壞的最終標準。本文目前所做的工作大都是基于試驗性的,所用的語料或者仿真數據都是已知類別數及其樣本數,所以在我們用分類算法對那些特定語料庫(已知分類結果)做分析時就可以參照在信息檢索、文本分類中經常應用的一些評價方法。衡量傳統信息檢索系統的性能參數是準確率(文檔集中正確歸類的文檔數占所有被分入該類文檔總數的百分比)和召回率(文檔集中正確歸類的文檔數占該類文檔總數的百分),同時也是衡量分類算法效果的常用指標[9]。本實驗中使用準確率和召回率兩個常用的文本分類評估測試值。

3 實驗分析

針對表1中的實驗數據選取其中的1500篇文檔用于實驗測試,由于一開始搜集的文檔是HTML格式的,所以要經過預處理,轉換為合適的空間向量模型才能進行文檔分類。實驗結果如表2所示。

從表2的測試結果可以看出,本文方法對英語閱讀題材分類達到了滿意的分類效果,平均準確率和平均召回率分別為92.5%和92. 3%。這里獲得的準確率和召回率均有較好的表現,因此本文的研究方法是可行的。

四 結束語

隨著Internet在全世界的普及和廣泛應用,網絡信息成為人們取之不盡的信息來源。然而大部分可以獲取的信息是以電子形式存在的,尤其是以Web文本方式存在居多。英語閱讀手工選篇已經不再適應日益增加的海量數據的處理需求,人們需要能夠自動完成Web文檔相應題材選篇的技術,這就要求進行正確有效的文本挖掘。近年來針對英語閱讀的文本挖掘已經逐漸成為研究的新課題,并取得了一些成果。

英語閱讀選篇由于分類自身的難度和Web數據自身的特點,其性能還有待進一步完善。如需要研究更高效的降維方法來提高分類的質量;需要有效降低時間消耗成本;需要進一步的研究分類搜索引擎,進而把文本分類應用到搜索引擎中,提高信息檢索的效率。

本文主要闡述了基于Web信息挖掘的英語閱讀自動選篇的分類研究方法,給出了系統實現的一般設計流程,通過實驗數據驗證了這種方法有較好的準確率和召回率。

參考文獻

[1]Iawei Han and Micheline Kamber, Data Mining: Concepts and Techniques[J].Morgan Kaufmann Publishers, 2001

[2]Olivier Vandecruys, David Martens, Bart Baesens, Christophe Mues, Manu De Backer, Raf Haesen, Mining Software Repositories for Comprehensible Software Fault Prediction Models Journal of Systems and Software Vol. 81, Nb. 5, pp. 823-839, 2008

[3]BAI Jing, NIE Jianyun, CAO Guihong. Integrating compound terms in Bayesian text classification[C]//Proc of IEEE /W IC/ACM International Conference. 2005: 598-601.

[4]LI Baoli, LU Q, YU Shiwen. An adaptive k-nearest neighbor text categorization strategy[J].ACM Transactions on Asian Language Information Processing,2004,12(31):215-226.

[5]E.Kirkos,C.Spathis and Y. Manolopoulos, Applying data mining methodologies for auditor selection, Proceedings 11th Pan-Hellenic Conference in Informatics (PCI), Patras, Greece, 2007, pp. 165–178.

[6]Magdalini Eirinaki, Michalis Vazirgiannis, Web Mining for Web Personalization [J].ACM Transactions on Internet Technology, 2003.

[7]He B,Tao T, Chang K. Clustering structured Web sources: A schema-based,model-differentiationapproach[A].International Workshop on Clustering Information over the Web [C]. Crete, Greece, 2004.

[8]MODHA D S, SPAN GL ER W S. Feature weighting in K-Means clustering[J]. Machine Learning, 2003, 52(3): 217-237.

[9]Ma ZhongMiing, Gautam Pant, Olivia R Sheng. Interest-Based Personalized Search [C] //ACM Transactions on Information Systems. New York: ACM, 2007.

猜你喜歡
英語閱讀
以學生為中心的初中英語閱讀有效教學研究
考試周刊(2016年89期)2016-12-01 13:06:27
快樂學英語
淺談在英語閱讀教學中培養學生的猜詞能力
《大學英語閱讀中的母語思維研究》課題結題報告(一)
東方教育(2016年16期)2016-11-25 00:51:17
將批判性思維融入英語專業閱讀課程的教與學
基于輸出假設的提高大學英語閱讀教學途徑
藝術科技(2016年9期)2016-11-18 19:41:42
淺談高中英語閱讀教學中英語報刊閱讀的應用
探究性閱讀在高中英語教學中的應用研究
技工院校英語思維創新型閱讀教學的探討
初探利用講故事的方式激發低年級小學生英語閱讀興趣
文理導航(2016年30期)2016-11-12 15:35:59
主站蜘蛛池模板: 亚洲开心婷婷中文字幕| 国产精品无码久久久久AV| 久久久久国产精品免费免费不卡| 国产精品视频a| a网站在线观看| 国产丝袜一区二区三区视频免下载| 成人字幕网视频在线观看| 青青草原国产av福利网站| 久久久久无码精品| 九九免费观看全部免费视频| 毛片免费观看视频| 亚洲成a人在线播放www| 一区二区午夜| 波多野结衣视频网站| 亚洲欧美另类日本| 欧美中日韩在线| 亚洲精品无码AV电影在线播放| 国产三级毛片| 99久久亚洲综合精品TS| 视频一本大道香蕉久在线播放| 精品无码国产一区二区三区AV| 国产另类乱子伦精品免费女| 中文毛片无遮挡播放免费| 欧美日韩精品在线播放| 国产精品页| 国产乱视频网站| 男女精品视频| 试看120秒男女啪啪免费| 综合五月天网| 真人高潮娇喘嗯啊在线观看 | 波多野结衣视频一区二区| 亚洲国产成人精品一二区 | 免费国产小视频在线观看| 久久综合色天堂av| 国产九九精品视频| 亚洲一区二区无码视频| 精品视频福利| 国产激爽爽爽大片在线观看| 日韩毛片基地| 在线免费亚洲无码视频| 国产正在播放| 99久久国产精品无码| 国产丝袜无码精品| 国产菊爆视频在线观看| 啪啪啪亚洲无码| 亚洲色图欧美在线| 一本色道久久88亚洲综合| 另类欧美日韩| 亚洲欧美综合另类图片小说区| 亚欧乱色视频网站大全| 欧美日韩国产成人高清视频 | 大香网伊人久久综合网2020| 亚洲日韩Av中文字幕无码| 婷婷色在线视频| 国产美女在线观看| 欧美亚洲国产精品久久蜜芽| 久久国语对白| 国产成a人片在线播放| 高清视频一区| 青草午夜精品视频在线观看| 二级特黄绝大片免费视频大片| 国产亚洲精| 国产无遮挡猛进猛出免费软件| 日韩精品毛片| 99视频免费观看| 日韩精品无码一级毛片免费| 国产白浆在线观看| 国产日韩欧美在线播放| 亚洲AⅤ无码国产精品| 婷婷午夜影院| 91热爆在线| 成人免费午间影院在线观看| 四虎国产精品永久一区| 亚洲二区视频| 天堂在线www网亚洲| 天堂成人在线视频| 国产精品欧美激情| 日本高清视频在线www色| 九九久久99精品| 国产综合色在线视频播放线视| 免费无码又爽又黄又刺激网站| 中国一级毛片免费观看|