999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

俄語文本易讀性研究:回顧與展望

2021-05-28 08:36:10李晨蕊
現代交際 2021年8期
關鍵詞:單詞特征文本

李晨蕊

(國防科技大學國際關系學院 江蘇 南京 210039)

在這個信息爆炸的時代,如何在浩如煙海的文本數據中快速選擇所需的文本?這個問題使文本的自動化分析方法進入大眾視野。文本易讀性是文本自動化分析的一項重要內容。它的研究最開始是出于軍事目的——弗萊士(Flesch R.)為滿足軍事需要研究出文本易讀性公式。當然除了軍事需要,相關研究還有其他重要的實踐意義。俄國學者米克(Я.А.Микк)[1]利用文本易讀性研究成果來確定學生對所給文本的理解能力,以提高教學質量。如若可以對文本易讀性進行準確而高效的分析,俄語學習者便可以選擇難度適宜的文本進行閱讀,提高語言學習效率。由此可見,文本易讀性的研究對語言學習、語言教育,甚至軍事等方面都有重要意義。

本文首先對文本易讀性的相關術語進行區分,然后對俄語文本易讀性的研究歷史進行回顧與總結,明確今后的研究方向,以期能夠更深入地開展俄語文本易讀性研究。

一、俄語文本易讀性術語的區分

1.文本復雜性(сложность текста)

文本復雜性通常基于文本自身的內在特性計算。相關變量可分為定距變量和定類變量。定距變量包括單詞長度、句子長度及長詞數量等變量;定類變量則包括文本的語法特征、語義特征、詞匯特征等變量。文本復雜性這一概念只與文本自身有關,是文本的客觀屬性。[2]

2.文本難度(трудность текста)

文本難度通常由文本的客觀特征和主觀特征決定。客觀特征就是文本復雜性所研究的文本的自身特征;主觀特征則取決于讀者本身,它包括讀者的年齡、性別、背景知識等一系列特征。由于文本難度的概念包括客觀和主觀兩個方面,因此同樣復雜性的文本對于不同讀者而言,難度可能是不同的。正因為其主觀參數大多數超出了語言學研究范圍,所以現階段缺乏合理的文本難度公式。[3]

3.文本易讀性(читабельность текста)

文本易讀性,是由英語中的readability一詞翻譯而來。在俄語中文本易讀性這一概念具有多義性。一方面,該術語是指文本易于理解的程度,可通過測量句法難度、詞匯、主題表達的清晰程度等一系列變量計算;另一方面,也可以通過能夠理解該文本的讀者的平均受教育程度衡量。

4.文本可理解性(понятность текста)

如果將文本不利于理解的屬性視為文本難度,那么文本有利于理解的屬性即為文本可理解性。由此可見,影響文本可理解性和文本難度的因素是一致的,只是這些因素對這兩個屬性的影響效果相反。

二、俄語文本易讀性研究歷史

文本易讀性的研究起始于英語文本。從20世紀20年代至今,英語文本易讀性的研究歷經80多年而不衰,且日益受到關注。相較于英語文本易讀性的研究,該問題在俄語中的研究起步較晚。研究主要分為三個階段。

1.第一階段:20世紀60—70年代

在這一階段,俄羅斯的語言學家重點關注文本的定距變量,提出對文中的字母、音節、語法詞素、單詞、詞組、句法結構等進行定量分析。其中,列斯基斯(Г.А.Лесскис)[4]重點關注了文本的句法難度。他開始研究文本中簡單句和復合句的數量,并將句子平均長度、簡單句平均長度、復合句平均長度等變量作為計算文本復雜性的定距變量。馬茨科夫斯基(М.С.Мацковский)[5]曾選取60名七年級學生參與實驗,實驗者需對50篇政論體裁文本難度進行評估,將其劃分為由易到難七個等級。在此數據的基礎上,馬茨科夫斯基定義了俄語文本難度公式:

其中:

Y——文本難度

X1——平均語句長度(單詞數除以語句數)

X2——文本中包含三個及三個以上音節的單詞的比例

由于當時文本易讀性的研究并未得到關注,文本材料數量受限,參與實驗的人數不足,這個公式的合理性有待進一步考量,但這個公式所選取的變量值得我們參考。

2.第二階段:20世紀末—21世紀初

在這一階段,俄羅斯的語言學家開始將定距變量與定類變量結合。在對文本可理解性的研究中,米克提出文本可理解性的衡量主要基于句子中單詞的數量、單詞的“熟悉程度”、單詞的抽象性(文本中抽象單詞和具體單詞的比例)三個特征。其中,單詞“熟悉程度”的計算方法是憑借經驗將單詞劃分為六個等級進行統計。單詞抽象性的計算方法共兩種:一是三級劃分法,即將單詞按抽象性分為三個等級進行統計;二是計算含抽象性詞素的單詞。除此之外,米克詳細闡釋了文本復雜性與文本難度的區別,提出了衡量文本復雜性的特征:文本的信息量、語句的復雜性、敘述的抽象性及文本結構的明晰性。

圖爾達娃(Ю.А.Тулдава)提出了一個補充參數——文中多義詞的數量。她通過統計發現,俄語中每個單詞平均擁有3.7個意義,其中動詞平均有4.6個意義,名詞平均有3.1個意義。除此之外,該學者定義了自己的文本復雜性公式[7]:

其中:

R(i,j)——文本復雜性

I——單詞平均長度(音節數除以單詞數)

J——語句平均長度(單詞數除以語句數)

3.第三階段:21世紀初至今

在這一階段,俄羅斯語言學家深入研究了已確定的變量對文本易讀性的影響。其中,奧博爾涅娃首次嘗試將英語的弗萊士文本易讀性公式運用于俄語。這一研究為俄語易讀性公式的研究做出突出貢獻。她將英語和俄語中的單詞平均長度進行比較分析,發現俄語中單詞的平均長度為3.29個音節,而英語中則為2.97個音節。由此,她開發出如下公式:

其中:

Y——文本易讀性

ASL——語句平均長度(單詞數除以語句數)

ASW——單詞平均長度(音節數除以單詞數)

這一階段的另一個特點是學者在不斷擴大變量種類。其中,普什金娜(Е.С.Пушкина)[8]指出由于術語的抽象程度較高,會增加文本復雜性。葉爾馬科夫(А.Е.Ермаков)和普列什科(В.В.Плешко)[9]指出應關注文本中的同音異義詞。克里奧尼(Н.К.Криони)、尼京(А.Д.Никин)及菲利波娃(А.В.Филиппова)[10]認為可以通過語言結構特征、敘述抽象性及文本信息量衡量文本復雜性。其中,語言結構特征可以用如下變量衡量:長詞數量(三個音節以上為長詞)、包含長詞的句子比例、單詞平均長度、語句平均長度、副動詞和形動詞數量、包含副動詞和形動詞的句子比例、復合句所占比例。學者計算敘述抽象性的方式借鑒于米克計算含抽象性詞素的單詞所占文中單詞總數量的比例。文本信息量則體現在文中所引入的定義的數量。

什帕科夫斯基(Ю.Ф.Шпаковский)[11]在文本易讀性研究中提出如下變量:單詞長度、語句長度、文本長度、簡單句和復合句占全文的比例、每100個名詞中的具體名詞數量和抽象名詞數量及生詞比例等。隨后,什帕科夫斯基專注于分析化學教材的文本復雜性,并開發出化學教材文本難度公式。公式如下:

其中:

Y——高等學校化學教材文本難度

X1——長詞所占比例(含九個或九個以上字母的單詞)

X2——術語所占比例

X3——化學符號所占比例

這一階段的第三個特點是計算機程序廣泛應用于文本易讀性研究。其中,別格京(И.В.Бегтин)將奧博爾涅娃提出的公式轉化為文本自動化分析在線工具(ru.readability.io/),這一公式還成為Microsoft Word內置的俄語易讀性測量公式。葉爾馬科夫和普列什科在統計文本中的同音異義詞時,提出應開發俄語句法自動分析器用于抽取名詞短語和消歧。這一分析器已成為Russian Context Optimizer系統①的部件之一。在分析文本的句際聯系時,指代消解是關鍵問題。當代學者開始關注自動化提取先行詞和照應語。托爾佩金(П.В.Толпегин)[12]研究的重點是俄語文本中第三人稱代詞自動消歧問題。學者嘗試實現自動化算法以確定先行詞和照應語之間共指關系,建立了“一般前指代識別模型(MB)”與“特征空間和評價識別任務的共指消歧模型(DSE)”,其中DSE模型的準確率達到83.05%。阿布拉莫夫(В.Е.Абрамов)等人[13]共同開發出用于解決“俄、英、德、法語文本分類”問題的計算機程序,為文本的自動化分析做出貢獻。

三、俄語文本易讀性研究展望

未來俄語文本易讀性的研究方法仍應是通過構建統計模型并利用編程的方法實現自動化分析。具體的研究步驟應包括:構建適用于文本易讀性研究的語料庫—選取特征變量—對變量進行相關性分析—確定回歸方程—通過計算機程序實現文本易讀性自動化分析。下一步的研究方向應包括:擴大變量種類、優化統計模型、推廣研究成果。

1.擴大變量種類

今后的研究應該擴展研究范圍,將語法特征、語義特征、詞匯特征、體裁等的自動識別研究納入易讀性研究之中,擴大特征變量種類,使易讀性研究更加深入和細致,進一步提高易讀性測量的適用范圍和測量準確性。

2.優化統計模型

今后的研究中應結合多元統計相關知識,探索更為精確的統計模型以提高擬合度。在建立統計模型時,應注意各變量之間是否出現多重共線性問題,并根據變量類型合理選擇回歸模型,科學地構建和優化統計模型,使其能更準確地計算文本難度。

3.推廣研究成果

文本易讀性的研究是出于實用目的,因此研究不應該脫離實際應用。研究者要積極探索其理論在實際領域的價值,進一步結合網絡資源,開發在線網絡服務,將易讀性研究成果轉化為在線分析工具或計算機應用的組成部分,推廣文本易讀性的研究成果,擴大研究影響力。

四、結語

文本易讀性研究這一課題具有十分重要的實踐意義。從俄語文本易讀性的研究歷史來看,利用統計模型和計算機編程的方法對此進行研究無疑是一次有益的嘗試,這也應是今后的努力方向。未來應繼續加大研究深度,擴展研究范圍,不斷推進易讀性研究發展。

注釋:

①RCO 系統用來進行文本信息分析與檢索,適用于Oracle數據管理系統。

猜你喜歡
單詞特征文本
單詞連一連
如何表達“特征”
在808DA上文本顯示的改善
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
看圖填單詞
抓住特征巧觀察
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
如何快速走進文本
語文知識(2014年1期)2014-02-28 21:59:13
線性代數的應用特征
河南科技(2014年23期)2014-02-27 14:19:15
主站蜘蛛池模板: 欧美日韩免费在线视频| 久久国产亚洲偷自| 国产成人a在线观看视频| 8090午夜无码专区| 国产杨幂丝袜av在线播放| 18禁色诱爆乳网站| 国产成人一区免费观看| 亚洲国产成人综合精品2020| 国产第一色| 久久国产V一级毛多内射| 动漫精品中文字幕无码| 国产女人爽到高潮的免费视频| 久草视频福利在线观看| 在线观看免费人成视频色快速| 无码福利视频| 亚洲色欲色欲www在线观看| 日韩在线视频网站| 亚洲国产精品一区二区第一页免 | 精品一区二区三区四区五区| 亚洲久悠悠色悠在线播放| 亚洲资源在线视频| 国产综合欧美| 91视频国产高清| 九色综合伊人久久富二代| 国产亚洲高清在线精品99| 狠狠干综合| 欧美中文一区| 久久精品欧美一区二区| 国产99欧美精品久久精品久久| 色婷婷久久| 国产精品美女网站| 伊人成色综合网| 国产成人无码播放| 欧美劲爆第一页| 国产美女无遮挡免费视频| 超薄丝袜足j国产在线视频| 亚洲区第一页| 激情無極限的亚洲一区免费| 国产国产人在线成免费视频狼人色| 精品伊人久久久香线蕉| 99精品在线看| 久久中文字幕2021精品| 国产91av在线| 成人夜夜嗨| 亚洲日韩精品欧美中文字幕| 国产本道久久一区二区三区| av在线5g无码天天| 中文字幕久久精品波多野结| 国国产a国产片免费麻豆| av无码久久精品| 天天综合色网| 就去色综合| 国产成人啪视频一区二区三区| 国产成a人片在线播放| 国产h视频免费观看| 亚洲国产中文在线二区三区免| 久久久久国产精品嫩草影院| 亚洲色图综合在线| 亚洲91精品视频| 久久这里只有精品免费| 久久精品娱乐亚洲领先| 在线观看亚洲天堂| 国产h视频在线观看视频| 亚洲天堂网在线视频| 不卡午夜视频| 亚洲天堂777| 免费国产小视频在线观看| 国产福利拍拍拍| 久久夜色撩人精品国产| 伊人福利视频| 国产福利在线免费| 欧美日本激情| 亚洲国产一成久久精品国产成人综合| 国产91无码福利在线 | 免费AV在线播放观看18禁强制| 久久国产拍爱| 免费不卡在线观看av| 久久精品人人做人人爽电影蜜月| 午夜欧美理论2019理论| 国产亚洲精品在天天在线麻豆| 青草精品视频| 亚洲精品片911|