999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

計算語言學名詞

2008-04-29 00:00:00
中國科技術語 2008年5期

全國科學技術名詞審定委員會 發布試用

計算語言學 computational linguistics

一種涉及語言學、計算機科學和數學的邊緣學科。用數學、計算機科學和技術的方法研究語言,研制計算機處理語言的軟件。研究成果可用于自然語言理解與生成、語音識別與合成、機器翻譯、信息檢索、信息挖掘、文獻自動分類、文獻自動摘要、計算機輔助語言教學等領域。

計算詞匯學 computational lexicology

計算語言學的一個分支。用計算機科學或數學的方法從意義、形態、結構等方面研究自然語言的詞匯結構和詞匯系統,建立面向各種應用目標的機器詞典和語料庫。

計算語義學 computational semantics

計算語言學的一個分支。運用數學方法(主要是謂詞邏輯、內涵邏輯等數理邏輯方法)構建語義模型,把語義分析作為一個計算過程來研究。

數理語言學 mathematical linguistics

用數學思想和數學方法研究語言現象的學科。通常采用集合論、數理邏輯、算法理論等代數方法,或采用概率論、數理統計、信息論等方法來建立語言的數學模型,分析描述語言成分出現和分布的統計規律。可分為代數語言學(algebraic linguistics)、統計語言學(statistical linguistics)等。

語料庫語言學 corpus linguistics

語言學的一個分支。把大規模的真實的自然語言數據(書面文本或言語錄音的轉寫)作為語言學描寫、驗證語言假說或建立語言學統計模型的依據。也是一種以語料庫為基礎的語言研究方法。包括:1.對自然語料進行加工、標注;2.應用已經標注好的語料進行語言研究和應用開發。有時也可以使用未加工過的語料進行語言研究或辭書編纂。

自然語言處理 natural language processing

研究使用計算機處理在人際交際或人機交際中的自然語言問題的學科。主要研究表示語言能力和語言應用的模型,建立計算框架來實現并不斷完善這樣的語言模型,根據這樣的語言模型設計各種實用系統,并探討這些實用系統的評測技術。計算機對自然語言的研究和處理,一般應經過以下過程:1.把需要研究的問題在語言學上加以形式化,使之能以一定的數學形式,嚴密而規整地表示出來;2.把這種嚴密而規整的數學形式表示為算法,使之在計算上形式化;3.根據算法編寫計算機程序,使之在計算機上加以實現;4.對于所建立的自然語言處理系統進行評測,使之不斷地改進質量和性能,以滿足應用的要求。

自然語言理解 natural language understanding

在研究自然語言的機制和實現過程的基礎上,用計算機分析口語或書面語,理解它們所表達的意思,并用形式化的方式表示出來。自然語言理解的過程是從語音或文本映射到意義。

自然語言生成 natural language generation

在研究自然語言的機制和實現過程的基礎上,用計算機把要表達的意思從非語言形式的輸入構造成自然語言輸出,并以口語或書面語的形式表達出來。自然語言生成的過程是從意義映射到語音或文本。

語言工程 language engineering

指開發和研制識別、理解、生成人類語言的計算機系統的技術和領域。包括機器翻譯、信息檢索、文本分類、自動文摘等。

人工智能 artificial intelligence

一種交叉學科。利用計算機系統模擬人類的智能活動,完成人用智能才能完成的任務。包括專家系統、自然語言理解、機器學習、自動定理證明、模式識別、知識工程、智能數據庫、自動編程、智能控制等。

信息論 information theory

關于信息的本質和傳輸規律的科學理論。研究信息的計量、發送、傳遞、交換、接收和儲存等。

本體知識體系 ontology

對概念體系的明確的、形式化的、可共享的規范。“概念體系”指所描述的客觀世界的現象中有關概念的抽象模型,“明確”指對于所使用的概念的類型以及概念用法的約束都明確地加以定義,“形式化”指本體知識體系應該是機器可讀的,“共享”指本體知識體系中所描述的知識不是個人專有的而是集體共有的。本體知識體系是構建自然語言詞匯系統的重要理論基礎。

漢字信息處理 Chinese character information processing

中文信息處理的一個重要組成部分。用計算機對漢字信息進行操作和加工,包括漢字的輸入、存儲、識別、生成和輸出等。

漢字編碼 Chinese character encoding; Chinese character coding

按照一定的規則,對指定的漢字集內的元素編制相應的代碼。

漢字識別 Chinese character recognition

利用計算機抽取漢字字形特征,實現對漢字的自動輸入。可分為聯機手寫體漢字識別、印刷體漢字識別和手寫體漢字識別。

漢語分詞 Chinese word segmentation; Chinese word tokenization

又稱“漢語自動分詞”“漢語切詞”“漢語自動切詞”。依據一定的原則和方法,按照分詞單位對漢語語句進行切分的過程。

分詞標記 mark of word segmentation

漢語句子中可以作為分詞依據的標記。書面語的分詞標記主要有:1.自然的分詞標記,例如標點符號等;2.非自然的分詞標記,例如沒有構詞能力的單音節單純詞。

分詞單位 unit of word segmentation

漢語信息處理使用的、具有確定的語義和(或)語法功能的基本單位。

交集型歧義切分字段 overlapping ambiguous segmentation

在漢字字符串ABC中,AB是詞,BC也是詞,稱ABC為交集型歧義切分字段。例如在“會診斷”中,“會診”是詞,“診斷”也是詞,“會診斷”就是一個交集型歧義切分字段。

組合型歧義切分字段 combination ambiguous segmentation

又稱“多義型歧義切分字段”。漢字字符串AB是詞,同時A和B也分別是詞,稱AB為組合型歧義切分字段。例如在“將來”中,“將來”是詞,同時“將”和“來”也分別是詞,“將來”就是一個組合型歧義切分字段。

詞頻 word frequency

在一定范圍的語料中統計詞語的實際使用情況而得到的絕對頻度和相對頻度。絕對頻度是詞語出現的次數;相對頻度是該次數與整個語料所含的詞例總數之比。

詞例 word token

詞匯表中的詞在語料中的每一次出現,稱為一個詞例。

詞型 word type

語料中出現的詞匯表里的各個不同的詞,稱為詞型。

詞匯差異度 vocabulary diversity

語料中平均每個詞型所對應的詞例數。

詞匯集中度 vocabulary concentration

詞匯在語料中集中出現的頻度。

詞長分布 distribution of word length

單詞長度(即組成單詞的單字或字母個數)的概率分布。

類屬詞 generic word

又稱“上下位詞”。表示概念體系中具有類屬關系的詞。這種類屬關系是相連的上下級層次,既不能位于相同層次,也不能跨越幾個層次。

句法樹 syntactic tree

表示句法分析結果的樹形圖。說明在一個句子中各個語言成分的結構、層次和功能關系。可分為二叉樹和多叉樹。

剖析樹 parsing tree

從起始符號開始,運用語言規則逐步識別出句子的句法結構,描述這個推導過程的樹形圖稱為剖析樹。

標記樹 annotated tree; labeled tree

結點上帶有語法、語義等標記的樹形圖。

分析器 analyzer

根據詞法、句法、語義等信息對語句進行形態、語法或語義分析的計算機程序。

歧義消解 disambiguation

又稱“排歧”。利用各種分析方法將語言中歧義現象的不同理解區分開來的過程。

組塊分析 chunk parsing; chunking

又稱“基本短語分析”。一種識別和分析語句的局部結構的方法。認為一個句子中,從句法、韻律或意義的角度可以劃出各種互不交叉、沒有嵌套的句塊,例如名詞塊、動詞塊、韻律塊等。組塊分析的目標是識別這些句塊、分析句塊內的結構和句塊間的關系。與通常的句法分析方法相比,組塊分析方法能夠降低句子分析的難度,針對特定的應用目標,提高整體分析的效率。參見“部分句法分析”和“淺層分析”。

部分句法分析 partial parsing

一種句法分析方法。與通常的句法分析不同,這種方法通過降低分析深度提高分析效率和準確性,目標是識別句子中的某些成分,例如基本名詞短語、非遞歸的動詞短語等。參見“淺層分析”和“組塊分析”。

淺層分析 shallow parsing

一種通過降低分析深度提高分析效率和準確性的語句分析策略。其目標是識別和分析句子中某些局部成分的句法或語義結構。參見“部分句法分析”和“組塊分析”。

標準通用置標語言 standard generalized markup language;SGML

又稱“標準通用標記語言”。置標語言是描述書面自然語言的文檔結構的語言,標準通用置標語言(SGML)是由國際標準化組織制定的定義電子文件結構和內容描述的標準。目的是促進語言信息格式的標準化,便于自然語言文本信息的交換。一個SGML語言程序由語法定義、文件類型定義和文件實例三部分組成。語法定義給出文件類型定義和文件實例的語法結構;文件類型定義給出文件實例的結構和組成結構的元素類型;文件實例是SGML語言程序的主體部分。在計算機處理過程中,置標語言的標記既可以作為數據,也可以作為控制語句來使用。

超文本置標語言 hypertext markup language; HTML

又稱“超文本標記語言”。標準通用置標語言(SGML)的一種文件類型。可用于文本信息的結構化——例如標題、段落和列表等等,也可用來在一定程度上描述文檔的外觀和語義。它對一類特定的文件定義描述信息的方法,用于因特網上電子文本的傳輸和共享。

可擴展置標語言 extensible markup language; XML

又稱“可擴展標記語言”。標準通用置標語言(SGML)的子集。用來定義電子文件的類型,制作和管理用SGML定義的文件,以便在因特網上傳輸和共享。

產生式語言 production language

一種常用的知識表示語言。描述一個(或一些)事件的存在導致另一事件的產生。用符號方法表述如下:if A then B或A→B。其中A稱為前件,B稱為后件,→表示由A真導致B真。

有向圖 directed graph

由一組結點和一組有向邊所構成的圖結構。

二叉樹 binary tree

一種樹形數據結構。其中每個結點至多有兩棵子樹,其中一棵稱為左子樹,另一棵稱為右子樹。

決策樹 decision tree

又稱“判定樹”。一種具有判別功能的樹形結構。其中結點代表一些確定分類的具體條件。它實際上是一種分類規則,通過它對輸入的對象集合進行分類。

故事樹 story tree

用來描述故事的篇章結構的樹形圖。包括背景和各種情節,主要用于研究記憶和語篇理解。

復雜特征 complex features

在基于合一的語法中,對語言單位具有的語音、語法、語義、語用等信息所進行的多重性質的描述。

概念描述concept description

又稱“概念描寫”。使用描述符對某類對象的內涵進行定義,并概括這類對象的有關特征。可分為特征性描述和區別性描述,前者描述某類對象的共同特征,后者描述不同類對象之間的區別。

語言羨余 language redundancy

在識別或理解一個語言單位時,如果某個特征(語音的、語法的等)可不必出現,它就是羨余的。非羨余的特征才構成區別性特征。

語義基元 semantic primitive

從詞語中抽象出來的表示行為或狀態的基本概念。可以用它們和它們的組合來描述句子內部的語義關系。

語義解釋 semantic interpretation

根據語義規則對句法分析生成的句法結構賦予意義的過程。

語義模式 semantic pattern

用來表示語句中詞與詞之間語義關系的格式。在優選語義理論中是“實體—動作—實體”的三元組合。

知識表示 knowledge representation; KR

用形式化的表達方式表示常識、知識和推理過程。目的是讓計算機能夠自動分析自然語言中體現的常識知識以及特定的語言交際環境中出現的具體知識。

框架語義學 frame semantics

一種語義學理論。認為要理解語言中詞語的意義,需要先具備語義框架即概念結構的知識。框架是人們在理解語言時激活的頭腦中已有的認知結構,語義框架提供詞語的意義在語言中存在以及在話語中使用的背景和動因。不同的框架由不同類型和數量的框架元素構成,用來描寫詞語的意義和功能。

數理邏輯語義學 logical and mathematical semantics

運用數理邏輯方法來描述和分析語義現象的理論。

概念依存理論 conceptual dependency theory又稱“概念從屬理論”“CD理論”。一種語言自動分析方法。它試圖用有限數量的基本概念(語義基元)組成各種集合,構造概念依存表達式來表示語句的意義。

優選語義學 preference semantics

一種語言自動分析方法。用語義公式表示詞義、用語義模式表示短語或句子、用語義優先選擇的方式表示詞語之間的語義限制。

語言串理論 linguistic string theory

用結構主義觀點描述語言的一種自動句法分析方法。認為每一個句子都可以看做由若干個基本串通過附加、連接和替換等方式組合而成。這些基本串中至少有一個是中心串,代表句子的基干。每一個句子都由一個中心串加上零個或多個基本附加成分組成。從中心串出發通過逐漸擴展的方式,可以生成語言中無限多的、任意復雜的句子。

語言的隨機模型 stochastic model of language用概率統計的方法來表示語言單位內在的統計規律的模型。常用的有n元語法以及隱馬爾可夫模型等。

元理論 meta theory

D.Hilbert采用分層理論的辦法。把理論分為兩層,一層是需要證明其相容性的系統,稱為“對象理論”;另一層是作為證明工具的系統,稱為“元理論”。元理論必須簡單清晰,正確可靠。

元語法 metagrammar

可以用來生成語法的元規則的集合。通過元規則來揭示語法中規則之間存在的規律。

語言知識庫 language knowledge base

收錄關于語言系統或語言使用的各種信息的語料庫或數據庫。一般按照某個范疇體系或概念層級系統進行形式化的描述和組織,能夠為語言信息處理的基礎研究和應用開發提供支持。例如:帶標注的或不帶標注的、單語的或雙語平行的語料庫、語法信息詞典、語義信息詞典、專業術語詞典、句法樹庫、語義結構標注語料庫等。

語料庫 corpus

儲存在計算機中的大量自然語言素材的集合。這些素材是書面文本、言語錄音或其轉寫,可以應用于語言學研究、語言教學、辭書編纂、自然語言處理等領域。

平衡語料庫 balanced corpus

在語料采集時按照平衡性原則進行隨機抽樣,使語料的類別分布比例和時間分布比例相對均勻,能夠充分反映和記錄語言的實際使用情況的語料庫。書面語語料類別的平衡性要素通常包括文類、語體、語式、主題、媒體等。

雙語語料庫 bilingual corpus

收錄了兩種語言文本的語料庫。可分為平行語料庫(Parallel Corpus)和比較語料庫(Comparable Corpus)兩種類型。在平行語料庫中,兩種語言的文本互為譯文。比較語料庫是把表述同樣內容的不同語言的文本收集在一起,這些不同語言的文本之間不存在翻譯關系。

術語庫 terminology bank

又稱“術語數據庫”。存儲專業術語的數據庫。數據庫中的每條記錄是一個專業術語和與該術語有關的各種信息,例如注釋、類別、出處、語言學特征、其他語種的譯名等。

機器詞典 machine dictionary

對詞語條目的語音、詞法、句法、語義、用法等信息進行系統的形式化描述,存儲在計算機里的詞典,可以為各種自然語言處理系統提供語言知識資源。

語義詞典 semantic dictionary

收錄詞匯語義信息的語言知識庫。除了描述詞匯意義以外,通常還描述詞語之間的各種意義關系,包括聚合關系和組合關系,也常用網狀結構或樹形結構表示詞語的概念之間的各種關系,例如同義關系、反義關系、上下位關系、整體-部分關系等。

用戶詞典 user specific dictionary

應用型自然語言信息處理系統中為特定用戶設計的、便于該用戶使用和維護的機器詞典。

詞典結構 dictionary configuration

機器詞典中詞項以及詞項具有的各種信息的組織形式。

詞典信息 dictionary information 機器詞典對每個詞項的語音、詞法、句法、語義特征或用法的形式化描述。

詞型和詞例關系 relation between type and token

又稱“類型和類例關系”。在一個文本中詞型的全部數目與詞例的全部數目之間的關系。

詞性標注 part of speech tagging

在給定的語句中判定每個詞的詞性并加以標注的過程。通常指采用規則或統計方法進行的自動標注,是語料庫加工的基本任務,其難點是兼類詞的歧義排除問題。

詞義自動標注 word sense tagging 又稱“語義自動排歧”。用計算機分析和辨識語句中的詞語的意義,確定其義項并加以標注的過程。

文本對齊 text alignment; bilingual alignment又稱“雙語對齊”。在平行語料庫中原文和譯文的相同語言單位之間建立對應關系的過程。平行的語料文本之間存在著多層次的對應關系,例如段落對齊、句子對齊、短語對齊和詞對齊。

主站蜘蛛池模板: 五月婷婷综合网| 国产sm重味一区二区三区| 天堂在线www网亚洲| 在线视频亚洲色图| 亚洲视频影院| 中文字幕人妻av一区二区| 亚洲成aⅴ人片在线影院八| 国产va在线| 亚洲swag精品自拍一区| 婷婷六月激情综合一区| 久久中文字幕av不卡一区二区| 中字无码av在线电影| av午夜福利一片免费看| 亚洲区视频在线观看| 欧美日韩中文字幕二区三区| 精品国产91爱| 日韩中文精品亚洲第三区| 视频二区亚洲精品| 久久人搡人人玩人妻精品一| 欧美福利在线观看| 久久久久久久久久国产精品| 国产精品黑色丝袜的老师| 香蕉视频在线观看www| 国产美女精品在线| 国产人碰人摸人爱免费视频| 色一情一乱一伦一区二区三区小说| 东京热高清无码精品| 国产欧美日韩在线一区| 国产剧情无码视频在线观看| 亚洲欧洲综合| 免费一级毛片完整版在线看| 婷五月综合| 亚洲成在人线av品善网好看| 亚洲国产天堂久久综合226114| 九色在线观看视频| 欧美人在线一区二区三区| 99激情网| 亚洲国产日韩欧美在线| 思思99思思久久最新精品| 香蕉在线视频网站| 日韩欧美在线观看| 萌白酱国产一区二区| 欧美乱妇高清无乱码免费| av午夜福利一片免费看| 国产精品99一区不卡| 污网站免费在线观看| 欧美一区二区三区欧美日韩亚洲| 538精品在线观看| 69免费在线视频| 国产青青草视频| 美女被躁出白浆视频播放| 特级做a爰片毛片免费69| 国产精品伦视频观看免费| h网站在线播放| 日本91视频| 欧美国产日韩在线| 狠狠亚洲婷婷综合色香| 久久黄色影院| 国产美女91视频| 一本大道香蕉中文日本不卡高清二区| 秘书高跟黑色丝袜国产91在线 | 98精品全国免费观看视频| 专干老肥熟女视频网站| 国产系列在线| 国产区人妖精品人妖精品视频| 老熟妇喷水一区二区三区| 毛片免费视频| 麻豆AV网站免费进入| 欧美不卡视频一区发布| yjizz视频最新网站在线| 国产在线一区视频| 在线免费不卡视频| 久久香蕉国产线| 伊人激情久久综合中文字幕| 天堂网亚洲系列亚洲系列| 欧美性精品| 国产精品亚欧美一区二区| 国产凹凸一区在线观看视频| 国产一级毛片yw| 91麻豆国产视频| 国产精品成人一区二区| 久久综合九九亚洲一区 |