本刊訊 一個叫「Xiaomingbot」的AI機器人,最近忙壞了。

里約奧運會期間,AI機器人「Xiaomingbot」通過對接奧組委的數據庫信息,實時撰寫新聞稿件,以跟電視直播幾乎同時的速度發布稿件。據了解,Xiaomingbot主要報道乒乓球、網球、羽毛球和女足的比賽,在16天內共發布奧運新聞456篇簡訊和資訊。
Xiaomingbot是今日頭條實驗室研發的AI機器人,可以通過兩種文本生成技術產出新聞:一是針對數據庫中表格數據和知識庫生成自然語言的比賽結果報道,即簡訊;二是利用體育比賽文字直播精煉合成比賽過程的總結報道,即資訊。
Xiaomingbot到底是什么來頭?
Xiaomingbot,是今日頭條實驗室的研發成果,其「寫稿」模塊是由頭條實驗室與北京大學計算所(萬小軍團隊)聯合研發而成。
李磊博士正在跟團隊的小伙伴改良機器人算法。
這是國內第一款可以報道奧運賽事的人工智能機器人,在結合了最新的自然語言處理、機器學習和視覺圖像處理的技術之后,通過語法合成與排序學習生成新聞。頭條實驗室負責人李磊博士介紹道,Xiaomingbot通過連接數據庫實時更新比賽信息,搜集相關選手背景信息,根據比賽規則判斷比賽進程,進而生成文本,自動配選圖片,最后潤色完成報道。機器人可根據比賽的總比分、每節比分情況以及比賽的不同項目、不同狀態,生成不同的短訊和長文比賽詳情描述。
相比國內第一代寫稿機器人——騰訊的 「Dreamwriter」和第一財經的「DT稿王」,Xiaomingbot的寫稿技術已經進入第二代寫稿水平。與第一代機器人相比 ,Xiaomingbot特征顯著:
1. 速度快 數據庫數據更新的2秒之內,即可生成新聞稿并完成發布。2秒的時間包含了從生成、提交到頭條號「奧運AI小記者Xiaomingbot」發布、通過頭條的推薦算法機制分發推薦給用戶的整個過程。
2. 樣式多 既可以生成長的詳細比賽描述總結,也可以生成簡明扼要的快訊簡報,以前的自動體育新聞只能生成較短的文章。
3. 自適應 根據比賽選手的排名,賽前預測與實際賽果的差異,比分懸殊程度,可以自動調整生成新聞的語氣,并使用感情色彩的詞語,如實力不俗、笑到了最后等。
4. 自動配圖 以前的自動新聞都只能生成文本,通過自動選圖技術,Xiaomingbot可以給新聞配圖,更加生動形象。
能做到這些,頭條實驗室給Xiaomingbot的寫稿模塊使用了3種核心技術:一種是通過概率文法生成文章,也就是說這個機器人生成的句子會有完整語法結構,有主語、謂語、賓語、時間、人物、地點等要素,同時不拘泥于一種形式來描述比賽,會有變化;另一種是通過排序學習算法決定一場比賽新聞描述中需要選擇什么樣的句子,重要的句子才會在新聞里出現;還有一種是在技術上不算特別難,卻非常重要的比賽邏輯判斷,可根據每種項目不同的比賽規則來判斷比賽的激烈程度和比賽進程如是否結束、是否中間退出比賽等。
據了解,目前在做奧運報道的機器人只有兩家——《華盛頓郵報》的「Heliograf」和今日頭條的頭條實驗室「Xiaomingbot」。
Xiaomingbot并非想取代記者。相反,新聞機器人是記者的助手,可以幫助記者更高效的完成新聞報道工作。頭條實驗室負責人李磊博士說道。
Xiaomingbot最大的意義在于,面對奧運會這樣同時舉行上百場比賽的綜合賽事,記者很難關注到每一場比賽,而機器人可以任勞任怨的為每一場比賽報道,無論這場比賽多么冷門和不重要。傳統新聞理論并不認為這些冷門比賽或者熱門比賽(比如乒乓球)的前幾輪小組賽有新聞價值,可是通過我們的平臺測試,我們發現對冷門場次的報道仍然有可觀的閱讀量,這個閱讀量非常長尾,而新聞機器人可以彌補對這種長尾的新聞需求。