陳孝良和團隊一直在聲學領域悉心耕耘,讓聲智科技走出了自己的發展曲線。
假如你在國外戴上AI耳機,它不僅能幫你翻譯菜單,還能教你實時用外語問路……你會為這樣一款耳機買單嗎?從Walkman、CD播放器、MP3、iPod、Siri、智能音箱,到今天的AI手機、AI耳機……聲學技術一直以來都是消費電子產品發展的關鍵點之一。如今,隨著AI技術的快速發展,聲音正成為人機界面交互的新前沿,在聆聽和對話之間,重塑我們和世界的互動方式。
誕生于2016年5月的北京聲智科技有限公司(以下簡稱“聲智科技”),便是一直在“聲學+AI”交叉領域的探索者。創始人兼董事長陳孝良博士畢業于中國科學院聲學研究所,曾擔任中科院聲學研究所副研究員和信息化辦公室主任,聲智科技的創始團隊全部來自中國科學院聲學研究所。
這是一家典型的科學家創業型公司。
在聲音交互領域迅速成長
聲學在全球范圍內都屬于比較小眾的學科,過去主要服務于國防和軍工領域,比如潛艇聲吶和魚雷等相關技術。在軍事上,聲學的一個關鍵應用就是如何用聲吶更好地探測,以及如何避免被別人用聲吶探測到。
采訪中,陳孝良介紹,水下環境中聲波是唯一能夠保持信號長距離傳輸且不快速衰減的通信和傳感手段。光學信號和電磁波在空氣中是主要通信手段,但在水中它們的信號由于水體的吸收和散射會快速衰減。這就是為什么當你潛水的時候會發現,在10米以下的水域,基本上漆黑一片,因為光會快速衰減。“在消費領域,我們也用到了許多聲學技術,包括錄播客用到的麥克風、音響,在電影院聽到的音效、聽歌的MP3格式等,這些都是聲學領域的典型應用。”
陳孝良和團隊一直在聲學領域悉心耕耘,讓聲智科技走出了自己的發展曲線。2016年3月,隨著人工智能AlphaGo圍棋對弈戰勝李世石,全球人工智能行業迎來了一波新的高潮。圍棋長久以來被視為棋牌運動中“人類智慧的最終堡壘”,而AlphaGo的勝利,讓社會大眾重新認識到人工智能發展的潛力和前景。此后,人工智能、深度學習、自動駕駛等一系列前沿技術引發廣泛關注。
聲智科技正是誕生于這樣的熱烈氛圍之中。在人工智能大潮中,聲智科技創始團隊結合自身在聲學所的積累,以智能語音作為未來人機交互的切入點。陳孝良和團隊發現,世界不是聲音或圖像的單一維度,而是多感官融合的場景,聲光電熱力磁等都會成為人機交互的入口。未來所需要的真正的服務體驗,不光是單一技術維度的領先與突破,更需要一個融合的狀態。這也構成了聲智科技從語音角度向多技能、多模態融合角度的成長路徑轉變。
2018年,聲智科技推出SoundAI Azero(壹元人工智能開發框架),并在2019年進一步升級。據介紹,該框架是基于聲智科技的遠場聲光融合、多模態識別(聲音、文字、圖像、手勢等)、推理和翻譯、推薦搜索等技術的AioT(人工智能物聯網)基礎開發框架,也是聲智科技得以迅速發展的核心技術。2019年,成立僅4年的聲智科技被工業和信息化部評為第二批國家級專精特新“小巨人”企業,可謂發展勢頭迅猛。
聲智科技在業內快速成長主要得益于兩方面:一是企業長期對自主研發能力的注重,二是其核心技術在重點場景的落地應用。
“小模塊”切入大場景
“技術的領先性是企業必須追求的,否則就會失去競爭的最大優勢。我們認為,技術的窗口期只有3~6個月,隨后就會更新迭代。”聲智科技聯合創始人兼首席知識官常樂說。
聲智科技成立以來,持續加大研發投入。基于多模態人工智能操作系統和核心算法,目前聲智科技已具備遠場人機交互、聲紋采集分析、數字接觸追蹤、多模態感知、小樣本決策、多技能數字人等一系列核心技術。
技術從來都不應該是空中樓閣。目前,大量人工智能企業還處于虧損狀態,其自身的“造血”能力也備受關注。常樂認為,人工智能企業的底層技術需要與真實場景相結合,從而在市場空間實現“造血”。值得注意的是,在開拓應用場景的過程中,聲智科技往往能夠在大場景中發現“小模塊”的切入點。例如,在健康領域,疫情期間,聲智科技先以核酸檢測信息化作為切入點,基于SoundAI Azero人工智能開發框架開發出北京核酸檢測信息統一平臺、一站式疫情防控健康管理平臺等,大大提升了核酸檢測效率。此后,聲智科技相繼推出“零接觸”AI電梯系統、AI數字人紅外測溫系統,并依托SoundAI Azero人工智能開發框架承擔了包括北京、云南全省以及河北、河南部分地級市的防疫數字平臺建設,包含大規模核酸檢測、新冠疫苗接種、多點疫情監測預警、社區聯防聯控等功能。
也正是在前期的持續積累下,2022年北京冬奧會期間,聲智科技承擔了包括“冬奧核酸應檢盡檢決策系統”“冬奧核酸‘聲智門’”“冬奧賽事綜合保障組指揮調度平臺”以及“冬奧大腦——冬奧人員信息分析系統”在內的4項冬奧基礎設施,為賽事提供了相關綜合保障服務。
通過這些服務,聲智科技的AI技術不斷向外延展,找到了更多的應用場景。
大模型帶來新交互
陳孝良介紹,目前,聲智科技已經實現了三個目標:一是,他們解決了復雜場景下的聲學問題,成功讓智能音箱脫離手臂距離的束縛,成為真正的遠場交互設備。二是聲智科技構建了完整的AI聲學處理架構,從聲學處理到語音識別、語言處理,再到內容服務和TTS(Text-to-Speech,文本轉語音)合成,整個鏈條被打通了,為后續的智能設備迭代奠定了基礎。同時,聲智科技提高了語音識別的精度。三是聲智科技成功將延遲控制在用戶可以接受的范圍內,保證了精度、延遲和距離的平衡。
“我們要確保對話服務的延遲在1.5秒左右,比如說用戶發出命令后,音箱開始播放音樂的時間不能超過2秒,否則用戶就會感到明顯的延遲,影響體驗。”陳孝良說。
7月31日,聲智科技在北京舉行了一場AI媒體溝通會,以“大模型·新交互”為主題。會議現場,聲智科技公布了AzeroGPT 的算法技術升級成果,并發布了兩款新品——AI交互新品“千面智語”和國內首款“AI 配飾”——“FairyClip 聲智珍珠耳夾式耳機”。
這款耳機證明了AI大模型在可穿戴設備上落地應用的可能。耳機內置的專屬AI助理,能夠隨時響應用戶的指令,不僅可以實現轉寫、翻譯、內容生成等針對辦公學習場景的功能,還針對運動健康、日常生活需求,提供健康數據檢測、助眠音頻以及生活事項提醒等功能。
“未來人工智能與聲學技術的結合,將會創造出更完美的交互智能體。”陳孝良說。智能耳機可以無時無刻地陪伴在你的身邊,它足夠全能,讓你的學習工作更高效;它還極具同理心,對你的了解甚至超過你身邊的任何人,能幫助你解決生活中遇到的各種問題……
“用智慧科技改變生活。”——在聲智科技的企業展廳,處處能夠體會到這句話的魅力,而它正是這家企業的愿景。
延伸
閱讀
創新音頻產品市場蓬勃發展
在新技術的發展浪潮下,適于特定人群和使用場景的創新音頻品類應運而生。這使用戶與智能音頻產品之間的交互更加智能化。目前,創新音頻產品的主要應用領域包括智能音箱、交互式產品、智能穿戴產品等。
在智能音箱領域,隨著大語言模型的發展,智能音箱可以視作以語音交互為界面的新型家用計算設備和智力生產力的載體。2022年全球智能音箱市場規模達161億美元,預計2027年市場規模將增長至259億美元。用戶獲取音頻內容的方式由傳統的線下播放逐漸轉變為在線流媒體播放,播放終端也由收音機、MP3等傳統音頻產品逐漸演化為智能手機、智能音箱等交互式產品。根據 Statista 數據,在線音頻市場包括音樂、電臺(含在線電臺)及播客,預計2027年市場規模將達到1140億美元。另外,智能穿戴式產品市場保持蓬勃發展,預計2028年全球智能穿戴式設備市場規模將達到220 億美元。
(編輯 周靜 charm1121@sina.com)