999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

船舶資料快速批量著錄系統(tǒng)文本自動標引研究

2019-08-16 03:02:42馬曲立
艦船科學技術 2019年7期
關鍵詞:船舶

馬曲立

(海軍工程大學 教研保障中心,湖北 武漢 430033)

0 引 言

在船舶設計、制造、維修等過程中,將會形成海量圖紙和技術文件、管理文件(簡稱船舶資料)。如何管理和處理這些資料,實現(xiàn)有效識別、快速查詢、資源共享的目標,是擺在有關管理和技術人員面前的難題。信息化技術的發(fā)展使得數(shù)字化處理海量船舶資料成為可能。船舶資料分為紙質和電子2 種,就數(shù)字化過程而言,前者只比后者多了掃描和識別2 個過程,其余過程(包括著錄、輸出、共享和管理等)都是一樣的。在這些過程之中,如何快速、簡潔、準確、有規(guī)律地開展著錄,是實現(xiàn)船舶資料數(shù)字化的關鍵。而著錄的重要前提則是文本的自動標引,只有通過自動標引技術提取、歸納、凝練船舶資料中關鍵的、典型的、有代表性的信息,才能實施有效的著錄和索引,從而實現(xiàn)真正意義上的數(shù)字化管理和共享。

1 船舶資料中文文本自動標引

自動標引是指計算機通過“閱讀”文獻的題名、摘要、關鍵詞、正文等信息,按照一定的規(guī)則或方法來抽取該文獻檢索標識的過程[1]。目前,自動標引的規(guī)則或方法可分為語言分析、機器學習(即人工智能)和概率統(tǒng)計三類[2]。

語言分析方法試圖將自動標引納入語言學研究的范疇,利用語言學的原理和辦法來解決自動標引這個語言問題,但準確率較低、通用性較差。人工智能方法是自動標引研究的熱點,也是重要的發(fā)展方向,但該方法必須基于較為完善和及時更新的知識庫、策略庫和訓練庫,才能充分發(fā)揮其優(yōu)勢。概率統(tǒng)計方法歷史比較悠久、研究比較充分,具有直觀性強、通用性好、易于實現(xiàn)等特點,應用較為廣泛和成熟。但也存在著不足:一是策略性不夠,僅僅依據(jù)詞頻開展工作,不考慮單詞出現(xiàn)的位置;二是準確率不高,容易受到出現(xiàn)頻率高卻意義不大的虛詞、介詞、助動詞等的影響;三是容易出錯,受限于已有的分詞系統(tǒng),對系統(tǒng)未納入的單詞,分詞效果不太理想,甚至出現(xiàn)錯誤。

為此,綜合應用人工智能和概率統(tǒng)計2 種方法。首先,建立知識庫,將該庫掛于分詞系統(tǒng)的外圍,作為其補充,解決分詞出錯的問題;其次,建立策略庫,解決虛詞、介詞、助動詞等問題,剔除這些無用詞;第三,建立訓練庫,依據(jù)一定的數(shù)學模型根據(jù)單詞出現(xiàn)的位置確定其權重。

文獻[3]描述了單詞t 在船舶資料d 中權重的計算方法:W(t,d)

從上述公式可以看出,該權重僅僅考慮了單詞出現(xiàn)的頻率,而未考慮出現(xiàn)的位置。實際上,某一個單詞處于船舶資料的不同位置,其意義是大不相同的。因此需要引入位置權重P 的概念,改進和完善該公式。可以將某一船舶資料分為題名、摘要、關鍵詞、標題、首段、尾段、其余共7 個部分[1],設定各部分權重P,則算如下[4]:

根據(jù)上述2 個公式計算出權重并采取人工智能方法構建專用的訓練庫、策略庫和知識庫后,按照一定的流程和規(guī)則,即可對船舶資料實施自動標引。圖1為船舶資料自動標引流程圖。

如圖1 所示,將船舶資料分為電子和紙質2 種,前者直接進入自動標引階段;后者因為需要數(shù)字化后才能進行自動標引,所以還應經(jīng)過前期處理階段。該階段主要由以下過程組成。1)掃描。將紙質文件變成數(shù)字化標量文件。2)矢量化。將標量文件轉換成矢量文件,以便于開展編輯、識別等工作。3)二值化。將矢量文件中的圖形和文字分割開。4)文字識別。采用專門的文字識別系統(tǒng)對文字進行識別。自動標引階段是需要重點關注的,由分詞、剔除無用詞和確定權重3 個過程組成:1)分詞。采用標準化分詞系統(tǒng)(比如Ictclas,Nlpir,Httpcws,Scws,phpanAlysis 等)將連續(xù)的字變成有意義的詞,同時借助于知識庫解決標準化分詞系統(tǒng)還暫未收入的新詞、專業(yè)詞匯等,避免出現(xiàn)太大的錯誤。2)剔除無用詞。開發(fā)并及時更新策略庫,依據(jù)該庫剔除掉出現(xiàn)頻率高但對標引無用的虛詞、副詞、形容詞、介詞、助動詞等。3)確定權重。按照一定的計算和規(guī)則,確定某一詞的位置權重。最后,輸出關鍵詞并將關鍵詞分類,其中關鍵詞分類可以依據(jù)標準分類詞庫(比如中國分類主題詞表)進行,甚至可以生成主題詞與中圖分類號的對應表。某些作者引入回歸系數(shù)的概念對學術期刊知識交流效率進行評價[5],實際上的作用與權重相類似。

圖 1 船舶資料自動標引流程圖Fig. 1 Flow chart for auto index of ship drawing and file

2 自動標引結果的著錄

紙質和電子2 種船舶資料的著錄都是在ISBD 和ACCR2 的規(guī)則下進行的,但是側重點不同。前者的主要信息源是其本身,遵守規(guī)則按照分類習慣進行著錄即可;后者的著錄則側重于對電子資源性質的揭示和來源的鏈接[6]。自動標引結果的著錄主要有2 種方法:一是基于元數(shù)據(jù)的多媒體信息分類檢索,代表是DublinCore 元素;二是基于內容的多媒體信息分類檢索,代表是MPEG7 標準接口。前者主要適用于電子文獻的著錄,后者主要通過定義一系列的方法和工具來描述和著錄多媒體內容,起到檢索標準接口、方便計算機自動分類檢索的目的[7]。

無論是紙質還是電子船舶資料,也無論是基于元數(shù)據(jù)還是基于內容的多媒體信息分類檢索,需要重點解決的是著錄的準確性和效率問題。而著錄的準確性取決于自動標引的準確性。要提高效率則應在2 個方面開展工作:一是盡量減少人工干預,讓計算機來完成相關工作;二是盡量避免單文著錄,應利用數(shù)據(jù)庫、接口分析等技術對同類型、同專業(yè)、同性質、同時間的船舶資料進行批量著錄。

圖2 為快速批量著錄界面。該批量著錄的信息主要有文件名、文件序號、題名、主要責任者、文件大小、制作者、分類號、關鍵詞、描述、制作日期和類型等,另外還規(guī)定了全部、當前路徑、選中行和從選中開始等批量范圍,以及全部字段、指定字段等批量著錄操作字段,還可以對著錄信息的完整性進行校驗。據(jù)初步測算,通過對近萬張船舶資料的著錄實踐,該快速批量著錄方法可以顯著提高著錄效率。

圖 2 快速批量著錄界面Fig. 2 Interface of fast batch record

3 船舶資料數(shù)字化處理平臺

圖紙資料的數(shù)字化在地震模擬圖紙?zhí)幚淼阮I域應用范圍較廣[8],船舶領域同樣如此。目前船舶資料來源復雜、種類繁多、分布分散,客觀上存在著使用效率不高、資源共享不夠、集中管理偏弱等現(xiàn)象。需要建立一個具有強大數(shù)字化處理能力、牢固信息安全能力、規(guī)范信息管理能力、海量數(shù)據(jù)管理能力和有效共享保障能力的數(shù)字化處理平臺。圖3 為船舶資料數(shù)字化處理平臺系統(tǒng)的主界面。

圖 3 船舶資料數(shù)字化處理平臺主界面Fig. 3 Main interface of digitalization system for ship drawing and file

數(shù)字化處理平臺由軟件和硬件兩部分組成。軟件包括掃描、矢量化、文字識別(含自動標引功能)、批量著錄管理、信息管理等模塊;硬件則包括B0 幅面的掃描儀和繪圖儀等。

4 結 語

綜合利用權重技術等實現(xiàn)了自動標引,能夠按照一定的規(guī)則從船舶資料中自動選取具有代表性的關鍵詞等信息,用作檢索等管理之用。借助數(shù)據(jù)庫等信息技術,研制出批量著錄系統(tǒng),極大地提高了著錄的效率。最后在自動標引和批量著錄的基礎上,研制出數(shù)字化處理平臺。該平臺對有效開展船舶資料的數(shù)字化及其管理大有益處。

猜你喜歡
船舶
船舶避碰路徑模糊控制系統(tǒng)
計算流體力學在船舶操縱運動仿真中的應用
CM節(jié)點控制在船舶上的應用
基于改進譜分析法的船舶疲勞強度直接計算
《船舶》2022 年度征訂啟事
船舶(2021年4期)2021-09-07 17:32:22
船舶!請加速
BOG壓縮機在小型LNG船舶上的應用
船舶 揚帆奮起
軍工文化(2017年12期)2017-07-17 06:08:06
船舶壓載水管理系統(tǒng)
中國船檢(2017年3期)2017-05-18 11:33:09
小型船舶艉軸架設計
船海工程(2015年4期)2016-01-05 15:53:30
主站蜘蛛池模板: 久久网欧美| 91福利在线观看视频| AV天堂资源福利在线观看| 国产中文一区二区苍井空| 一级香蕉视频在线观看| 国产十八禁在线观看免费| 亚洲手机在线| 亚洲最大福利视频网| 亚洲最猛黑人xxxx黑人猛交| 欧美日韩在线成人| 美女被狂躁www在线观看| 91久久偷偷做嫩草影院| 亚洲永久色| 欧美成a人片在线观看| 日韩黄色在线| 人人澡人人爽欧美一区| 91在线免费公开视频| 国模沟沟一区二区三区| 亚洲精品日产AⅤ| 好紧好深好大乳无码中文字幕| 欧美.成人.综合在线| 9丨情侣偷在线精品国产| 国产精品理论片| 久久免费精品琪琪| 免费高清毛片| 人妻中文久热无码丝袜| 国产农村精品一级毛片视频| 欧美成人影院亚洲综合图| 国产一区二区精品福利| 欧美无遮挡国产欧美另类| 亚洲精品无码AⅤ片青青在线观看| 日韩精品亚洲人旧成在线| V一区无码内射国产| 日本在线欧美在线| 日韩第九页| 国产精品无码制服丝袜| 2024av在线无码中文最新| 在线播放真实国产乱子伦| 中国一级特黄大片在线观看| 在线亚洲精品自拍| 欧洲在线免费视频| 久久青草免费91线频观看不卡| 国产丰满大乳无码免费播放| 在线无码九区| 国产打屁股免费区网站| 国产专区综合另类日韩一区 | 久久精品视频一| 中文字幕2区| 国产美女精品人人做人人爽| 国产网站黄| 国产人在线成免费视频| 不卡无码网| 日本一本正道综合久久dvd| 国产精品夜夜嗨视频免费视频| 97se亚洲综合| 久久香蕉国产线看观看精品蕉| 亚洲中文字幕久久无码精品A| 国产污视频在线观看| 亚洲av日韩av制服丝袜| 成人一区在线| 国产h视频免费观看| 黄色在线不卡| 第一页亚洲| 欧美性天天| 伊人大杳蕉中文无码| 国产又粗又爽视频| 亚洲av无码牛牛影视在线二区| 九九精品在线观看| 人妻免费无码不卡视频| 久久96热在精品国产高清| 国产婬乱a一级毛片多女| 久久这里只有精品国产99| 亚洲综合婷婷激情| 精品视频在线一区| 久久久波多野结衣av一区二区| 国内精自线i品一区202| 国产亚洲精品91| 欧美亚洲一二三区| 日本国产在线| 久久精品国产国语对白| 在线无码九区| 日韩精品亚洲一区中文字幕|