
每個中文用戶都需要學會的一項基礎PC操作技能就是“打字”,從單字輸入到詞語輸入,再到借助搜索引擎技術實現的整句輸入,如今的漢字輸入法已經處在一個新的發展拐點。將搜索引擎技術與輸入法結合之后,候選詞的動態排序和詞庫的動態更新功能大大提高了漢字輸入的準確性和命中率,但可惜的是中文輸入法對于搜索引擎技術的挖掘也止步于此,在技術創新上并沒有走得更遠。
經過微軟亞洲研究院與微軟中國Office商務軟件部1年左右的聯合研發,微軟終于推出了自己的第一款云輸入法——“英庫拼音”。該產品基于微軟的“英庫(Engkoo)”技術?!坝臁笔俏④浻?009年推出的自然語言領域的技術集合。它借助云計算平臺以及先進的自然語言處理技術和語音處理技術,為中英文詞典、機器翻譯、語言輔助學習、中英文輸入以及寫作等語言相關的應用提供基礎技術。英庫拼音輸入法是繼英庫詞典(現名必應詞典)之后,微軟亞洲研究院在“英庫”技術基礎上的又一項研究成果。通過云計算技術提供的強大存儲和處理能力,英庫拼音不僅讓中文輸入更快捷、精準和智能,而且創新性地將輸入由文本擴展至更為豐富的多媒體信息,為用戶帶來了與眾不同的使用體驗。
基本輸入命中率
對于漢字輸入系統而言,準確性是最核心的競爭力。在包含“非主流、微電影、火星文、秒殺、人肉搜索、經濟適用男、蘿莉、腐女、傷不起、鳳凰男、裸婚、御姐、穿越、吐槽、車震、跑酷、基友、你懂的、腹黑、正太”在內的20個當前最熱門的搜索關鍵詞的輸入測試中,英庫拼音測試版將其中的18個熱門詞匯排列在了候選詞的首位,只有“腐女”的默認排序是第3位,“基友”的默認排序是第12位。而目前國內用戶量最大的輸入法搜狗拼音將17個熱門詞匯排在候選詞的首位,“腐女”、“基友”和“你懂的”都排位靠后。
在最容易寫錯的20個成語測試中,英庫拼音的準確率為100%,而搜狗拼音在保證首個候選詞正確的同時,畫蛇添足地將括號中的錯誤寫法排在了候選詞的第2位,例如按部就班(按步就班)、別出心裁(別出新裁)和矯揉造作(撟揉造作)。另外,從實際體驗來說,英庫拼音在整句輸入上的準確率之高也令人刮目相看。
不難看出,還處在公開測試階段的英庫拼音的中文引擎核心性能擁有極高的水準,甚至在一些關鍵指標上優于已經“出道”多年的主流拼音輸入法。但英庫拼音輸入法真正的獨家秘笈并不在于此。
增強的字詞輸入
云計算技術使英庫拼音輸入法創新性地實現了更自然的中英文混合輸入,用戶無需通過額外按鍵(通常是[Shift]鍵)反復切換中英文的輸入模式,拼音和英文即可被準確識別,而且能夠很自然地融合在一起輸入。例如可以直接輸入“weiruankinect”得到“微軟kinect”或者輸入“chipxindiannao”得到“chip新電腦”。英庫拼音輸入法的這一功能對于用戶,尤其是有雙語輸入習慣的用戶而言有重要的意義,目前還沒有任何其他產品可以做到這一點。
另外,英庫拼音還能夠更智能地輸入英文單詞。開啟“英文輸入小幫手”功能后,在英文輸入模式下,英庫輸入法可以智能地輔助我們完成英文輸入任務。像其他英文輸入法一樣,它擁有最基本的單詞自動補充和糾正功能。更特別的地方在于,如果我們一時想不起單詞的拼寫,那么直接按照漢語拼音的拼寫方式將單詞的讀音大致拼出來,英文輸入助手就會提供讀音相近的詞供我們選擇;如果完全不知道要用哪個單詞,那么直接輸入該單詞的漢語拼音,英庫拼音還可以為我們提供英文單詞的建議。例如輸入“feiniks”就可以得到我們想輸入的單詞“phoenix”(鳳凰),輸入漢語拼音“hangtianfeiji”,就可以得到單詞“space shuttle”(航天飛機)。
懂你的輸入法
傳統的中文輸入法只能輸入文字和一些簡易的表情。但是英庫拼音輸入法創新性地將輸入由文本擴展至更為豐富的圖片、地圖和網頁等多媒體信息。
輸入字母[v],然后選擇第一個候選種類“圖片”,接下來輸入想要的關鍵詞,例如“超極本”,就可以得到來自必應圖片搜索引擎搜索到的圖片“候選詞”,我們不需要打開瀏覽器就可以將搜索到的圖片(縮略圖)插入到正在編輯的文檔中;選擇第二個候選種類“地圖”,然后輸入想要的地名,例如“奧體中心”,就可以得到當地奧體中心的地圖位置信息;選擇第三個候選種類“網頁”,然后輸入關鍵詞,例如“新電腦”,就可以得到從必應搜索中截取的搜索結果摘要和網址。
除了能幫助用戶輸入更豐富的信息之外,英庫拼音還能更好地解讀用戶的輸入意圖,它可以智能地識別用戶所處的情景和輸入習慣。例如在MSN聊天窗口中輸入“哈哈”,就會出現表情圖片,但在記事本中輸入相同關鍵字,表情圖片這種候選結果則不會出現;在Word中使用“V模式”搜索地圖可以得到地圖的圖片截圖,但是在記事本中輸入相同關鍵字則能得到該地圖的鏈接地址;和朋友聊天時說到想去看最近流行的電影(例如“看變形金剛”),就可以在候選詞中看到電影視頻的縮略圖,將鼠標放在縮略圖上,視頻即可自動播放。
另外,聰明的輸入法還應該會不斷地“自學習”。例如,當英庫拼音輸入法發現很多用戶選擇進入“V模式”搜索某個詞條的圖片時,它就會知道并記錄下來,下一次直接輸入這個詞條即會顯示出圖片候選項。
結論
雖然英庫拼音輸入法剛剛推出第一個公開測試版本,很多創新的功能還處在雛形階段,還有許多難題需要攻克,例如目前的“V模式”還有很多限制,實用性有待考驗,但是它的設計理念為我們帶來了驚喜。隨著后續版本功能上的不斷完善和設計上的進一步優化,相信微軟產品的中文輸入體驗將會迎來大幅度的革新。不過更重要的是,它意味著更智能的云輸入2.0時代即將到來,借助云計算、數據挖掘和機器學習技術,更懂用戶的輸入體驗就在不遠處。
讓輸入法更聰明
微軟的基礎研究之一就是千方百計通過網絡挖掘來發現剛剛出現的新詞匯。網絡挖掘與機器學習也是相關聯的。他們教會機器,什么是詞匯,什么是語言,其中的基本內容之一是建立語言模型。這也是輸入法的核心。基礎研究的意義在于從最基本的層面上改善IME體驗,讓它更加精確、速度更快。
英庫是以前的工作和現在的工作之間的一次過渡。他們希望把頂尖的研發成果帶給大家,這也是英庫拼音輸入法的重要差別化因素之一。未來版本中,英庫拼音還將增加更多的功能,讓它變得更聰明,這樣用戶就可以集中精力進行交談或者完成寫作任務,而無需擔心其背后的細節。
研發挑戰
在基礎研究過程中,你必須沿著一條從未走過的道路前行,如何判斷自己所走的是一條正確的道路,這是最主要的挑戰。但幸運的是,車繼偉的Office團隊在工程設計方面為我們提供了極大的支持,讓我們判斷出自己是否在朝著正確的方向前進,因此我們能夠按時,甚至提前交付高質量的產品。
——Matthew Scott
微軟亞洲研究院創新工程中心高級研發主管
用戶行為調研是一個很復雜的過程,我們有傳統的行為調研、數據分析,也會做前一版的數據分析,看現在的設計模式。微妙之處在于,有些決定是設計主導,有些決定則是數據或者行為分析主導,我們需要在兩者之間取得平衡。同樣,在用戶選擇和機器智能之間取得平衡,也是比較大的挑戰。
——車繼偉
微軟中國Office商務軟件部產品規劃總監