大模型是指在機器學習和深度學習領域中,利用大規模數據和復雜網絡結構構建的龐大神經網絡模型。大模型往往由數以億計甚至更多的可訓練參數組成,通過學習海量數據中的模式和規律來實現各種智能任務,具有更強的泛化能力和表達能力。大規模預訓練模型的發展歷程可以追溯到2017年,當時谷歌提出Transformer架構,奠定了當前大模型領域主流的算法架構基礎。到2022年年底,OpenAI推出的ChatGPT掀起了一場人工智能領域的“大火”,使得大模型成為人工智能新基建領域新興并快速發展的熱點方向之一。
隨著生成式人工智能大模型技術的不斷創新和發展,大模型在自然語言處理、圖像識別等領域展現出強大的應用潛力,能源、航空、汽車、通信、金融、醫療等垂直行業也基于領域人工智能技術和數據積累等能力,在通用基礎大模型的底座上,推出行業大模型,深度賦能各行業人工智能應用場景。如表1所示。

表1 大模型技術行業應用進展
隨著數據量的爆炸性增長,硬件算力設備以及算法模型的標準化,大模型技術開啟人工智能新時代。國內外科技巨頭積極布局,紛紛推出自己的通用基礎大模型,積極搶占人工智能大模型領域的戰略高地。如圖1所示。

圖1 人工智能大模型技術發展歷程
自2017年Transformer架構推出后,語言大模型技術發展迅速。2018年,OpenAI推出了具有1.17億參數的GPT-1模型,極大地推動了自然語言處理領域的發展。此后,大量新式預訓練語言模型不斷涌現,預訓練技術在自然語言處理領域蓬勃發展。到2020年,OpenAI的GPT-3模型參數規模達到了1 750億,實現了模型規模從億級到上千億級的突破,標志著深度學習和自然語言處理領域的一個新高度。2022年11月,OpenAI公司基于GPT-3.5推出了ChatGPT,掀起了人工智能領域新一輪的浪潮。ChatGPT發布后,用戶數持續暴漲,2個月實現月活用戶過億,成為史上增速最快的消費級應用。之后,OpenAI的GPT-4、Meta的LLaMA、谷歌PaLM-2等大模型被相繼推出,并在多樣化和高難度的任務中表現出色。
在ChatGPT被推出后,中國本土廠商積極跟進,百度的“文心一言”、阿里云的“通義千問”、科大訊飛的“訊飛星火認知大模型”、百川智能的“Baichuan系列大模型”以及清華大學的“GLM系列大模型”等相繼被推出,并取得了出色表現。
繼語言模態之后,視覺大模型的研究也逐步受到重視。2020年,谷歌提出ViT模型證明了Transformer架構在計算機視覺領域的可行性,拉開了視覺大模型的序幕。之后,微軟亞洲研究院的研究團隊提出Swin Transformer視覺大模型,該模型是基于Transformer架構的一種變體,在圖像分類、目標檢測和語義分割等計算機視覺任務中展示了出色的性能。2023年4月,Meta開源了圖像分割模型—Segment Anything Model,簡稱SAM,SAM是一個提示型模型,其在1 100萬張圖像上訓練了超過10億個掩碼,實現了強大的零樣本泛化。2023年,谷歌宣布了他們最先進的圖像生成模型Imagen2,該模型不僅在參考圖片和文本的基礎上生成新圖片,而且在局部編輯和細節處理方面表現出強大的效果,Imagen2的推出進一步證明了AI技術在模擬和增強人類視覺能力方面的巨大潛力,標志著人工智能在視覺創造和理解方面又邁出了一大步。
國內方面,華為推出了盤古CV大模型,盤古CV大模型是基于海量圖像、視頻數據和盤古獨特技術構筑的視覺基礎模型,利用少量場景數據對模型微調即可實現特定場景任務,極大提升了AI開發效率。商湯科技與上海人工智能實驗室聯合發布書生2.5大模型,其中大規模視覺基礎模型InternImage是一種新的基于 CNN的大規模基礎模型,可以為圖像分類、對象檢測和語義分割等多功能視覺任務提供強大的表示。
繼語言模態和視覺模態的大模型研究之后,進一步地,單模態的大模型被統一整合起來,模擬人腦多模態感知的大模型出現。OpenAI的DALL-E、Google的Gemini1.5、OpenAI的Sora以及國內中科院的“紫東太初”等多模態大模型不僅在理論上具有創新性,而且在面對多模態或跨模態任務時,具有更強的靈活性和適應性,在實際應用中顯示出巨大的潛力和價值。
大模型具備良好的泛化能力,可支撐多種碎片化應用場景,大幅降低了人工智能的應用門檻。當前,大模型在各行業的應用邊界正在不斷拓展,相關技術和應用在多個行業領域初具成效。
(1) 南方電網“大瓦特CV大模型”
南方電網廣西電網公司輸電人工智能大模型(大瓦特CV)的發布標志著全國首個全棧自主可控電力生產應用場景大模型在廣西落地。該大模型致力于解決在生產運行、工程建設、客戶服務中面臨的智能化不足、人力資源緊缺、作業流程繁瑣、實時響應難等技術問題,通過持續夯實人工智能平臺算力能力,以人工智能技術解放生產力,賦能電網公司高質量發展。在輸電線路運行維護方面,算力、框架、算法全棧國產化適配的廣西輸電人工智能大模型,相比傳統小模型,在準確率、泛化能力、識別效率等方面都有更優越的表現。如圖2所示。

圖2 輸電線路運行維護
此外,大瓦特CV大模型,能夠更加精準地識別輸電線路缺陷類型和位置,相比傳統小模型,大模型的識別效率提升了5倍,準確率提升了15%,能夠更加精準地表述缺陷隱患類型和位置,解決模型碎片化問題,更好地處理未見過的電力業務場景缺陷。
(2) 山東能源“盤古礦山大模型”
盤古礦山大模型由山東能源集團、華為、云鼎科技聯手研發,該模型涵蓋采煤、掘進、主運、輔運、提升、安監、防沖、洗選、焦化9大專業場景應用。目前,山東能源集團已經實現AI大模型在人員誤入危險區域及關鍵崗位行為狀態監護、變電所巡檢合規性監測、采煤轉載裝運異常AI智能控制、防沖卸壓工程打鉆深度監管、介質桶跑粗智能監測、智慧配煤、煤倉運行異常狀態監控等場景的落地,在興隆莊煤礦、李樓煤業、濟二煤礦、鑫泰能源等煤礦完成試點建設。利用該模型,實現煤炭智能開采產量占比超過80%,減少井下作業人員1.2萬人,為煤礦行業乃至整個能源行業高質量發展注入了新動能。如圖3所示。

圖3 AI智能監控
(1)中國航信“千穰大模型”
中國航信旗下航旅縱橫團隊于2023年8月25日發布了首個民航領域垂直大模型“千穰”。千穰大模型是融合了視覺大模型、語言大模型、多模態大模型和計算大模型的圖文計算多智體,以強大的人工智能技術,賦能民航產業數智化建設和民航旅客智慧出行。面向旅客,千穰大模型不僅具備日常閑聊、百科常識等通用大模型的通識能力,還能垂直深入民航,給用戶提供專業、實時、準確、全面的民航信息。面向行業,千穰打造了數字機坪全景、保障節點感知、機位違規預警、智能機位分配、區域態勢感知、客群行為分析、風險行為識別等面向行業的解決方案,幫助工作人員監測、分析行業運行情況,提高決策能力。如圖4所示。

圖4 千穰大模型
(1) 吉利汽車“吉利星睿AI大模型”
2024年1月,吉利正式發布汽車行業全棧自研全場景AI大模型——吉利星睿AI大模型。星睿AI大模型包括語言大模型、多模態大模型、數字孿生大模型3大基礎模型,并由此衍生出NLP語言大模型、NPDS研發大模型、多模態感知大模型、多模態生成大模型、AI DRIVE大模型、數字生命大模型6大能力模型。不同于科技巨頭開發的通用大模型,星睿AI大模型深度聚焦汽車垂直領域,對車輛功能使用、常見車輛問題、交通法規、售后服務等海量知識庫進行大規模學習,擁有汽車行業最完備的專業知識儲備,僅星睿語言大模型訓練過程中就特別補充了汽車領域39類知識庫。未來,星睿AI大模型知識結構還將持續更新迭代,成為用戶趁手的“汽車百科全書”。
(1) 中國電信“星辰系列大模型”
星辰系列大模型是由中國電信完全自主研發的國內領先AI大模型,具備了語義、語音、視覺及多模態大模型的完備基礎框架。其中語義大模型于2023年11月份發布千億參數版本,在大模型知名榜單CSL排名第五、GAOKAO排名第七、AGIEval排名第八。視覺大模型賦能100多個城市治理下游任務,算法日均調用量達3.3億次。多模態大模型聚焦圖文生成和圖文理解能力,采集超過12億的風格數據,文圖檢索精度達到SOTA,支持20多種風格生成。語音大模型可實現高精度多方言的語音識別以及多語種、多風格、多音色的語音合成。2024年1月,中國電信星辰語義大模型TeleChat-7B版本宣布開源,開放1T高質量清洗數據集。之后,中國電信開源12B版本模型,為國產大模型的發展注入新動能。
(2)中國移動“九天AI大模型”
在2023年世界人工智能大會“大模型與深度行業智能”創新論壇上,中國移動正式發布“九天·海算政務大模型”和“九天·客服大模型”。其中,“九天·海算政務大模型”主要目標是對數字政府的全流程進行深層賦能,助力政府提供更加便捷和智能的政務服務。“九天·客服大模型”基于中國移動幾億用戶數據,把人工智能相關能力賦能客服領域多項任務,提升服務質量并降低服務成本。之后,以九天基礎模型為基礎,中國移動聯合通信、能源、航空等行業的骨干企業共建“九天·眾擎基座大模型”。目前,“九天·眾擎基座大模型”已得到中國遠洋、中智集團、中國鐵建、中國信科、中國航信、中國航油等多家龍頭及骨干企業支持。下一步,中國移動將深化產學研用合作,依托“九天·眾擎基座大模型”持續促進數字經濟與實體經濟深度融合,把人工智能技術的創造力轉化為促進經濟社會高質量發展的新質生產力,助力實現國家智能化水平整體躍升。
(3)中國聯通“鴻湖圖文大模型1.0”
2023年6月,中國聯通發布了“鴻湖圖文大模型1.0”,該模型目前擁有 8 億訓練參數和 20 億訓練參數兩個版本,支持以文生圖、以圖生圖、視頻剪輯等多樣化AI能力,是首個面向運營商增值業務的圖文雙模態大規模預訓練模型。“鴻湖圖文大模型1.0”立足文旅產業的真實需求和年輕用戶群的增值業務場景,主打國風水墨畫生成。該大模型已成功賦能文旅數字人的建設,實現了降本增效。
(1) Bloomberg“BloombergGPT”
Bloomberg依托其四十多年來積累的大量金融數據源,創建了一個包含3 630億token的金融數據集FinPile,又與公共數據集疊加成為了包含超7 000億token的大型訓練語料庫。基于該大型訓練語料庫,訓練了具有500億個參數的大規模生成式人工智能模型BloombergGPT。BloombergGPT能夠針對金融領域的專業術語、行業趨勢、經濟數據等為用戶提供專業的高質量的信息和分析服務。此外,BloombergGPT模型在金融領域取得好效果的同時,并沒有犧牲模型通用能力,根據Bloomberg公開的信息,在金融領域任務上,BloombergGPT與GPTNeoX、OPT、BLOOM、GPT-3等模型相比,綜合表現最好;在通用任務上,BloombergGPT的綜合得分同樣優于相同參數量級的其他模型,并且在某些任務上的得分要高于參數量更大的模型。出于行業安全性的考慮,BloogbergGPT模型未被公開。
(2)Broadridge“BondGPT”
2023年6月,Broadridge子公司LTX宣布,通過GPT-4打造了BondGPT,主要用于幫助客戶回答各種與債券相關的問題。為了增強ChatGPT的輸出準確性并滿足金融業務場景需求,LTX將Liquidity Cloud中的實時債券數據,輸入到GPT-4大語言模型中,幫助金融機構、對沖基金等簡化債券投資流程以及提供投資組合建議。BondGPT能夠根據用戶輸入的問題,回答符合需求的公司名字、利率、價格、發布日期、到期日期、債券評級等信息。同時支持連續、深度對同一個問題進行發問,使用方法與ChatGPT基本相似。目前,BondGPT已經投入使用。如圖5所示。

圖5 BondGPT產品展示
(1) 谷歌“Med-PaLM 2”以及“Med-PaLM M”
Med-PaLM 2由谷歌DeepMind的醫療健康團隊基于谷歌的基礎大語言模型PaLM 2微調得到的一款針對醫學領域醫療問題問答的醫療聊天機器人。Med-PaLM 2是第一個在美國醫師執照考試(USMLE)的MEDQA數據集上達到“專家”考生水平的大模型,其準確率達85分以上,也是第一個在包括印度AIIMS和NEET醫學考試問題的MEDMCQA數據集上達到及格分數的人工智能系統,得分為72.3分。此外,在用戶隱私方面,谷歌確保測試Med-PaLM 2的客戶能夠在加密設置中保留對其數據的控制權,科技公司無法訪問,并且人工智能程序不會攝取任何數據。
而谷歌的Med-PaLM M 是一個大型多模態生成模型,可以靈活地編碼和解釋臨床語言、醫學圖像和基因組學等各種類型的生物醫學數據,在醫學問答、生成放射學報告和識別基因組變異等任務中表現優異。Med-PaLM M是在谷歌的PaLM-E基礎大模型上進行微調得到的,為了評估Med-PaLM M在實際臨床環境中的效果,放射科醫生對由AI生成的不同規模的報告進行了評估。研究結果顯示,人工智能的錯誤率與放射科醫生的錯誤率相當,這表明了Med-PaLM M在臨床場景中的應用潛力。