“劉德華為什么很少演反派?” 2023年9月,這個網絡提問突然在各大社交平臺火了,但火的不是關于演員的討論,而是問題下面“驢唇不對馬嘴”的回復,竟然是抨擊謾罵中國科技公司華為的內容。原來,“劉德華”和“為什么”兩個詞組的搭配,觸發了境外某些網絡人工智能(AI)識別出“華為”這個關鍵詞,被輸入過相關指令的AI水軍蜂擁而至,大肆攻擊華為,結果反而暴露了幕后操控者。
“通過這件事,我們可以判斷出境外AI的中文水平不如國內。”認知智能全國重點實驗室主任胡國平對記者說,“國內AI是不會犯這種低級錯誤的,因為我們擁有海量的中文語料,足以讓AI正確識別詞組和詞意,而境外的中文大數據不夠多,機器學習得不夠深。”
被“卡脖子”之后
胡國平已經在智能語音領域深耕了20多年,他的另一個身份是科大訊飛聯合創始人、高級副總裁。“要提高AI水平,必須有足夠的文本和題型‘訓練’機器,就像學生刷題一樣,才能讓它少犯錯誤。如果中國的互聯網沒有發達到一定程度,國內AI不可能發展得這么快。”
這種速度也招來了外部打壓。與眾多中國高科技企業一樣,2019年10月,科大訊飛被美國列入出口管制“實體名單”,被限制從美國購買零部件。“比如小語種的語音合成軟件,以前我們可以用美國的,但被列入‘實體名單’后,突然就斷供了。我們必須在短時間內開發出替代產品。”胡國平對記者說。
被“卡脖子”的之所以是小語種,是因為我國的中文語音技術已經領先全球,英文等大語種也沒問題。但小語種文本數據少,投入產出比不高,開發難度相對較大。胡國平坦言,疫情防控期間是研發團隊比較痛苦的階段,因為需要到海外搜集小語種數據,請人錄音,“突然這個人得新冠了,不能繼續錄了,我們就要另外找人”。3年時間里,在中國科學院的支持下,研發團隊克服了重重困難,突破了60個小語種的技術障礙。
同一時期,美國的科技公司正在進軍大模型賽道。2022年11月,美國OpenAI公司發布了一款智能聊天機器人ChatGPT,引發全球轟動。在此之前,科大訊飛一直關注著ChatGPT的發展,其早期版本并不突出,但隨著訓練方法、超大模型和海量文本數據的結合,這款產品的智能水平飛速提升。
2022年12月,科大訊飛決定研發“星火大模型”,胡國平擔任項目攻關負責人,一場新的戰役正式打響。之所以取名“星火”,既有照亮前路之意,也有“率先燎原”的期待,更代表著力量、勇氣和堅韌不拔的精神。經過全力攻關,2023年5月,訊飛“星火大模型”正式發布,之后不斷升級,目前已到第四代版本。2023年10月,首個國產萬卡智能算力集群“飛星一號”正式啟動。
“甘坐十年冷板凳”
創業之初,為了專心搞研發,團隊將公司運營外包給了另一家企業。然而,合作方毫無章法,今天要求團隊做個語音聽寫軟件,明天又要搞工商查詢系統,結果產品做了不少,卻沒有一個做深做透,也賣不出去,團隊疲憊不堪。
大半年后,成員們忍無可忍,集體對劉慶峰說:“要不你當CEO,要不我們就解散!”本來只想搞研發的劉慶峰,硬著頭皮同意了。1999年,科大訊飛公司正式誕生。
“那時的我們就是一幫窮學生,只會悶頭研發技術,什么市場、營銷、品牌都不懂。”胡國平回憶道,“公司成立的最初三四年,我們以為有了好產品就能掙錢,想得太簡單了。”經過幾次挫折,公司始終未能真正打開市場,資金鏈幾近斷裂,最困難時賬上只剩20萬元。
一些團隊成員是放棄了出國留學的機會和外企高薪,拿著兩三千元月薪加盟的。拼命努力卻在短期內看不到結果,軍心開始動搖。有人質疑,語音產業到底能不能做大?有人提議,既然語音業務賺不了錢,不如改做網絡游戲甚至房地產,賺點快錢。為了統一內部想法,劉慶峰將團隊拉到合肥巢湖邊上的半湯溫泉開了一次會。聽大家七嘴八舌地說完意見,他只說了一句話:“如果不看好語音的前景,請走人!”全場立刻鴉雀無聲。
“對公司來說,那次會議的意義,就像紅軍長征時的遵義會議。”胡國平說,“從這天起,我們明確了‘語音是唯一方向’的戰略。絕大部分人選擇留下,也不再有任何異議。”
硬實力的積累期注定比圈錢游戲的風口漫長。直到2010年,科大訊飛才真正實現語音識別技術的突破;語音評測業務則是從2002年起步,到2012年才大規模落地。
“如果是在其他公司,這些項目十有八九要被砍掉。上學時,老師就告誡我們,要有‘甘坐十年冷板凳’的精神。十年磨一劍,每年進步一點,從量變到質變。”胡國平說,“中國科學技術大學是為了中國的科技發展而創立的,從這里走出來的人,普遍有種報國情結。我們能堅持下來,不偏航,歸根到底還是王仁華(中國科學技術大學電子工程與信息科學系教授)老師那句話——一定要把中文語音技術掌握在中國人自己手里。”
(摘自《環球人物》)□