楊 昆
(辰溪縣融媒體中心,湖南 懷化 419500)
在網絡快速發(fā)展的今天,新媒體的自動采編系統(tǒng)為媒體事業(yè)的發(fā)展奠定了堅實的技術基礎。但是,由于目前的采編系統(tǒng)功能較為單一,缺乏完整的作品分享庫,且存在權限不明確等問題,造成了工作效率低下,同時也不能保障系統(tǒng)資源的安全性。針對上述問題,該文提出一種基于AI技術的新型新媒體采編系統(tǒng)。能夠實現(xiàn)新媒體內容的網上協(xié)同工作,以及稿件資源的共享,將業(yè)務和辦公相結合,為企業(yè)的新媒體采編業(yè)務發(fā)展提供了一套完整的解決方案。在系統(tǒng)模塊的設計上,通過層次劃分,把控制層、服務層、數據層、應用層等層次進行了劃分,使整個系統(tǒng)更加高效,更加好維護。在功能設計上,要充分考慮到新媒體的特性和不同的編輯生產要求,從而提高編輯處理系統(tǒng)的實用性。另外,還要考慮到系統(tǒng)的安全需求。從系統(tǒng)的可用性角度出發(fā),針對系統(tǒng)的具體應用進行了測試,從功能和非功能兩個方面進行了驗證,結果表明該系統(tǒng)是可行的,滿足了對采編流程優(yōu)化、圖片管理、績效管理等功能性要求以及易用性、可靠性和安全性等非功能性要求。利用人工智能技術,設計出一套新媒體的自動化采編系統(tǒng),實現(xiàn)了網上采編的全過程,以及新媒體辦公的集成系統(tǒng)。
在基于AI技術的新媒體采編系統(tǒng)開發(fā)的流程中,結構設計具有重大作用。在此基礎上,該文將整個采寫體系的總體框架劃分成五層,從底層到頂層,分別是平臺層、數據層、應用層和用戶層。具體內容如圖1所示。

圖1 系統(tǒng)邏輯結構圖
平臺級為操作系統(tǒng),包括應用服務器集群、緩存服務器集群以及系統(tǒng)的數據庫管理系統(tǒng)。在已有的數據架構基礎上,使用MySQL數據庫,并能適應當前的爬蟲界面、檢索界面等。整合異質的數據和信息來源,提供一個單一的接入端口,并針對不同的客戶需要,為其提供相應的接口和服務。接受和檢視相關的資料,并執(zhí)行相關的交易。按照其對應的服務職能,將其劃分成2類,即后臺管理和前端系統(tǒng)。由于該系統(tǒng)是對多個服務器進行采編,因此需要對各服務器進行不同的設計,將資料整理、文章編輯和審核等部分置于內聯(lián)網的狀態(tài)下,服務器就是內部網路伺服器,采購者可以利用網路接入外部網路伺服器傳送來自附近的突發(fā)訊息。根據新聞編輯體系結構,將外部網絡的用戶分成2個部分,即移動電話等平面媒體以及計算機的瀏覽。移動電話使用者通過移動電話或微信進行登錄,而PC瀏覽者則可以通過計算機上所安裝的瀏覽器進行登錄。在材料收集者找到新的材料后,可以不受時間和設備的限制,將所收集的材料迅速地存儲在資料庫中。在內聯(lián)網環(huán)境下,使用者可以利用PC上的網頁,對收集到的資料進行整理、編輯和修改,并在審查后上傳至相關的網站。
對相關軟件來說,快速檢索和良好的數據處理是非常關鍵的。該文的應用程序采用了MySQL的數據庫,該系統(tǒng)的數據庫按以下步驟進行。1) 需求剖析。與新傳媒員工進行溝通與交流,跟著工作人員深入現(xiàn)場,觀摩從收集到發(fā)行的全流程,對企業(yè)的主要經營行為進行紀錄和剖析,進而對數據庫的設計需求進行深入剖析。2) 概念性架構的設計。利用此步驟建立資料的概念化模型,并對資料庫的邏輯架構進行規(guī)劃,反映出資料庫的運作方式。3) 邏輯架構的設計。依據前一步所提的概念模型,對數據庫進行邏輯架構的規(guī)劃,以反映企業(yè)的業(yè)務邏輯。4) 實體架構的設計。在此基礎上,根據所選取的資料庫和所設計的邏輯架構來決定資料庫中各個資料庫的具體實施方法。5) 數據庫實現(xiàn)。根據上述步驟所設計的邏輯與實體架構,構建一個資料庫及其對應的數據庫,將資料儲存在資料庫內,并透過執(zhí)行來確認資料庫的合理性,若有不符合要求的情況,則即時變更資料庫與資料表的型式。6) 資料庫操作與維修。上述各工作步驟完成后,資料庫將正式投入使用,并要求系統(tǒng)管理員與維修者追蹤記錄資料庫的運作狀況,特別是在初期,出現(xiàn)問題后能即時處理。
新媒體自動采編系統(tǒng)需要解決的是熱點信息的收集與整理,實現(xiàn)對敏感熱詞的自動化確認、搜索、識別和采集,并經過整理后完成文稿提交。因此偵搜熱點信息是新媒體自動采編的核心組成。
要實現(xiàn)智能化的文字潤色,須有包括大量優(yōu)秀表達語句的語料庫。對該文的研究而言,干擾信息大多是廣告、作者信息和叢書信息等,這些信息本身的標簽權重值就較低。因此,基于AI技術的新媒體自動采編系統(tǒng)熱詞偵搜信息算法即可滿足需求,去除干擾信息的算法如公式(1)所示。

式中:為輸入的新媒體文章序列;為輸出的總媒體文章序列;為序列的標簽;()為標簽過濾函數。
標簽權重在0.5及以下時,基本是屬于無法為文字潤色提供服務的干擾文本信息。因此,標簽權重低于0.5的文章序列將被濾除。去除干擾信息之后的內容資源就可以進行資源拆分了,資源拆分主要是為了提高資源處理效率。將一篇文檔拆分成多個文本片段,可以按段拆分,也可以按句拆分。拆分完成的文本片段包括的數據量大幅縮小,為后續(xù)的分詞處理環(huán)節(jié)提供了便利。
分詞算法的3個層級表達如下:第一個層級為“詞語最大長度匹配”,它的含義為分詞結果都是從詞語庫中能夠匹配的最長詞語。第二個層級為“拆分詞組最少匹配方案”,它的含義為拆分后獲得的詞語個數最少的方案為最終選取的方案。第三個層級為“最小詞方差匹配方案”。如果前2個層級都無法很好地獲取到分詞結果,就需要使用第三個層級的分詞方案進行分詞。“最小詞方差匹配方案”的表達如公式(2)所示。

式中:,…,L為各種分詞方案輸出的不同詞語序列;L為詞語序列L的詞語長度方差。
方差最小的分詞結果即是當前方案下的輸出,拆分后的文本片段通過上述分詞環(huán)節(jié)能夠輸出大量詞語,這些詞語會作為基本元素存儲到基礎資源庫中。基礎資源庫里存儲的資源是經過分詞處理之后的文本片段,要實現(xiàn)對用戶輸入內容的語義理解,還需要對這些資源進行語義處理。關鍵詞提取功能能夠提取一段內容的關鍵詞。關鍵詞是描述這段文字的核心信息,它可以代表這段文字的主題,根據研究本身的特征設計了如公式(3)和公式(4)所示的關鍵詞提取算法。

式中:()為詞語出現(xiàn)的詞頻;n為詞語在輸入文本序列中出現(xiàn)的次數;x為詞語所在句子的標簽權重;()為詞語i的關鍵詞權重值;為用一個完整標簽的輸入文本序列總個數;M為包括詞語的用一個完整標簽的文本序列總個數。
為降低某些常用詞語帶來的影響,在算法中引入了詞頻計算因子。概念擴展功能能夠在提取關鍵詞后使用關鍵詞和語義網進行概念擴展,將多個相同的概念指向同一段文字,以豐富、擴展檢索的內容。根據公式(1)~公式(5),基于AI技術的新媒體自動采編系統(tǒng)偵搜熱點信息設計成立,可方便下一步的自動采編設計。
多渠道信息采集是新聞素材的來源,該體系可以采用多種方法進行收集。可以采用常規(guī)方法,將收集到的材料通過數據庫進行整理和存儲;也可以通過爬蟲技術獲取對應網站的信息,除收集工作者積極收集資料,也可由讀者自行撰寫,材料獲取的模塊框架如圖2所示。

圖2 素材采集功能模塊圖
當收集到的材料被上傳時,首先將收集到的材料放在MaterailAdd.php頁面中,然后在相應的頁面中單擊“加入”,把材料加入名為“材料管理類”的MaterailController.php中,隨后材料被錄入“材料表格”中。如果此資訊被成功地錄制,將會傳回已儲存的資訊,反之,會顯示儲存已失效。不合格的理由是必須填好的資料或者所填資料超出了字數的限度,收集者所提供的錯誤資訊會被重新修改和儲存。在執(zhí)行檢索功能時,在用戶界面中鍵入檢索關鍵詞或選定時段進行檢索,然后將所選的關鍵詞和所選定的時段發(fā)送至材料控件,利用此類中的方式,從資料庫中檢索出相應的資料,并將檢索的結果反饋給資料庫,若檢索的結果超過10條將會出現(xiàn)頁面,如果未找到將會自動刪除。
系統(tǒng)管理員也被稱為超級管理員,具備上述用戶的全部功能,管理用戶、部門和角色,其功能架構如圖3所示。

圖3 系統(tǒng)管理功能結構圖
用戶的基本資料管理主要有添加用戶、刪除用戶和修改用戶基本資料等,用戶基本資料的管理有用戶名稱、密碼、角色權限以及所屬單位等。部門的信息管理功能包括新增部門、刪除部門和修改部門基本資料等,部門的變化很小,將部門的屬性被設定為0不會出現(xiàn)部門被刪除的情況。管理員對部門進行管理時,可以在頁面上對其進行增加、刪除和修改,將操作信息發(fā)送給項目控件,利用這個模塊中的方式,在類中使用相應的方式,可以增加新的欄目,可以從欄目類別中移出方法,在邏輯類別中進行調用,進而可以對條目的內容進行編輯。按照上述的步驟,對資料庫的欄目表進行相應更改,并將作業(yè)后的資料反饋至系統(tǒng)管理員以便查看。
在此基礎上,該文結合基于AI的新媒體采編系統(tǒng)的架構,構建了采編服務器,并初步實現(xiàn)了對新媒體內容的簡單收集與分發(fā)。校園網的內部用戶可以在ChinaNet上不需要直接進入大型站點,就可瀏覽到主要內容,同時還能降低中國網絡的流量。在RedhatLinux7.1操作系統(tǒng)中,該文采用了MySQL3.23.44、Apache1.3.22、PHP4.0.6以及FastTemplate模板等軟件。使用PHP、MySQL和Apache構建Web站點是目前比較受歡迎的一種方式。MySQL2是一款比其他大型數據庫系統(tǒng)更易于操作的自由數據庫服務器。Apache3是當前應用最廣泛的Web服務器應用軟件,其源碼是自由的,可以在UnixWindows平臺上運行。在Apache中將PHP4作為一個靜態(tài)模塊,并提供MySQL的支持,以便使用PHP功能存取MySQL數據庫。
該文采用PHP的命令方法實現(xiàn)了后臺數據的采集,并使用Linux操作系統(tǒng)的Cron指令完成了采集整理。該測試將介紹如何對特定的源文件進行分析,以獲取所需的新媒體信息。在一個網站上,從一個網站的HTML源文件中提取2個不同的新聞列表,就可以得到一個頁面1和一個內容2的絕對網址,因此,可以將一個相對網址前后的唯一區(qū)別代碼作為一個特別的識別點。由于頁面的格式比較固定,收集器將網頁的原始資料下載后,通過特定的識別找到相應的網頁,然后與網站的網址構成絕對網址,以供下一步內容網頁的下載。這種特定的識別方式應該能夠識別出新媒體內容的相對地址,而內容頁面的分析原理與之相似,即將新聞標題、正文和圖片等從其來源文檔中提取出來。收集到的消息存儲到MySQL數據庫,相應的表結構見表1。

表1 新媒體內容正文表
當新媒體內容發(fā)行時,會自動產生一個標題清單的javascript。每次有使用者訪問時,該系統(tǒng)會使用FastTemplate模板來動態(tài)產生一個清單頁,當使用者點擊該網頁時,會動態(tài)地將包括文本和圖片的內容從資料庫中提取出來,并使用FastTemplate模板動態(tài)地產生一個網頁。同時,系統(tǒng)還可以通過點擊來統(tǒng)計每天、每周的熱點話題。該系統(tǒng)架構具有很強的擴展性,可以在基礎數據采集功能的基礎上對其他相關的功能進行擴充,以滿足用戶的各種需要。
隨著網絡新媒介的日益增多,如何利用人工智能技術建立新的媒介,減少員工的工作壓力并提高工作效率已成為研究重點。該文設計的新媒體采編系統(tǒng)架構具有很強的擴展性,可以在原有的基礎數據采集基礎上對其他相關功能進行擴充,以適應不同的用戶需要。在此基礎上開發(fā)的抓取服務器,目前僅具有基本的數據采集和動態(tài)發(fā)布功能,需要不斷地改善和進步。下一步的研究重點是利用AI技術進行數據采集,以提高相關數據采集工作效率,并將各功能模塊自動化,為企業(yè)的業(yè)務發(fā)展注入新的生機。以人工智能為基礎的新媒體采編系統(tǒng)的應用領域也從局域網向手機網絡延伸,進而使采編工作者擺脫了時空的限制,提高了新聞內容的時效性。