

摘" 要:大模型的發展已賦能百行千業,為各行業帶來機遇的同時,也對政府的治理效能、工作路徑提出新的挑戰和要求,科研管理場景下的大模型應用亟待探索。根據實際的科研管理工作,拆解出情報信息感知、情報信息搜集、情報文本挖掘、情報信息組織和發展趨勢預測典型任務,對國內主流模型進行任務測試,分析模型在科研管理場景下情報的任務完成情況,為在工作中運用模型提出參考。
關鍵詞:大語言模型;生成式AI;科研管理;應用測試;情報信息
中圖分類號:TP18" " " 文獻標志碼:A" " " " " 文章編號:2095-2945(2025)09-0021-05
Abstract: The development of LLMs empowers numerous industries, presenting opportunities to all sectors. Simultaneously, it poses new challenges and demands on the governance efficiency and working approaches of the government. The application of LLMs in the management context awaits urgent exploration. Based on the actual work, typical tasks such as intelligence information perception, intelligence information collection, intelligence text mining, intelligence information organization, and trend prediction are decomposed. Task tests are conducted on domestic mainstream LLMs, and the completion of intelligence tasks by the models in the research management scenario is analyzed to offer references for the application of models in work.
Keywords: LLM; Generative AI; scientific research management; application testing; intelligence information
自谷歌2017年發布Transformer生成式預訓練模型架構以來,全球范圍內已發展出涵蓋各類技術架構、模態、場景的大模型技術群,其中大語言模型(Large Language Model,簡稱LLM)在大量的文本數據上進行訓練,能夠執行文本總結、翻譯、情感分析等任務,作為數據分析、智能客服、智慧營銷等服務工具在能源、金融、教育、醫療和交通等領域得到廣泛應用,同時大模型在數字政府的不同節點和運轉環節中,也將會產生一定的積極影響[1]。
科研管理工作作為政府工作的一部分需積極改變傳統工作方式,運用新技術新工具為工作流程賦能,情報任務以其獨特的信息優勢與決策支持功能,能夠監測前沿科技動態,深度挖掘科研信息,對產業進行評估,在科研管理的戰略規劃、資源配置、跨學科合作、風險防控及評價體系構建等方面發揮著重要作用,是推動科研事業持續健康發展的關鍵力量,大模型作為情報信息服務的新工具[2],美國情報高級研究計劃局[3]、美國國家情報總監辦公室和中央情報局[4]均重視大模型等人工智能技術在情報領域和決策支撐中的重要作用,而針對國內已有的大模型產品,形成科學合理的客觀認識并能夠掌握有效使用大模型的方法,為科研管理工作賦能是亟待解決的問題。
本文立足于實際工作中需研究的產業動態及政策文件,拆解出情報信息感知、情報信息搜集、情報文本挖掘、情報信息組織和發展趨勢預測典型任務,對國內主流模型進行任務測試,探究國內具有代表性的模型的優勢點與短板,為工作實際工作使用提出參考。
1" 大模型測評研究基礎
生成式大模型對社會形態、決策方式、管理模式及科研產生深遠的影響,隨著LLM在研究和日常使用中繼續發揮重要作用,對其評估和測試變得越來越重要。目前已有多角度研究LLM測評的成果[5],按研究方法,現有的研究可分為偏向于定量方面的大模型具體參數自動評估和偏向于定性方面的人工賦分評估研究,按領域,多是在已有學科劃分的基礎上進行單領域模型的測評。
1.1" 自動評估與人工評估
自動評估用標準指標和評估工具評估,減少了主觀因素影響,如Lin和Chen[6]提出了統一的多維自動評估方法LLM-EVAL,指標主要是準確性、一致性、公平性和穩定性;部分自然語言任務需要人工評估,人工評估更接近實際場景,可以給出更全面的反饋,Wang等[7]運用人工評估等方法評估了InstructGPT,chatGPT3.5、chatGPT4和Bing chat的內部知識能力,主要評級指標有信息準確性、主題相關性、語言流暢度、內容安全性、與人類相似性和推理透明性。人工測試適合需要高度靈活性和創造性,涉及復雜情感與語境理解的測試場景,自動化測試更為適合任務量較大、廣泛覆蓋的測試場景,為能夠對實際使用有參考性,本次測試選擇人工評估方法。
1.2" 測評領域
按研究領域,自然科學和社會科學方面均有LLM的評估研究,自然科學領域有數學[8]、化學[9]、物理[10]、醫學[10]和軟件工程[11-12]等方面的評估,總體結果表明LLM的泛化能力有限,常識性規劃任務表現不佳,可以勝任處理簡單工程任務,但在復雜任務上難以勝任;社會科學領域包括經濟、心理、政治、法律和教育等方面的評估,結果表明LLM可以幫助在社會科學領域處理相關任務,提高了使用效率,但難以處理專業性較強的方面,如法律案例判決等,并有實證證明提示工程可以提高LLM處理專業領域的能力。
1.3" 情報領域大模型測評探索
大模型在情報領域的應用得到了學者的廣泛探討,在情報領域的大模型測試上,有學者做了大模型在情報任務場景下的測試,趙浜等[13]分析了ChatGPT和ChatGLM大模型執行情報領域典型任務的測試分析,有學者立足于開發流程化的大模型測試框架,李曉松等[14]從科技情報角度建立了大模型測評結構,但當前未有立足于政府科研管理角度的大模型使用測試。
本研究立足于政府科研管理場景下的情報工作,使用人工評估方法,對國內生成式AI大模型中的代表針對情報任務進行測試,研究大語言模型的生成、檢索等功能在相關產業的情報實踐,以期考察其相關能力在具體業務中的應用,以分析生成式AI大模型應用于政府科研管理情報工作的有效性與可靠性。
2" 研究設計
2.1" 被試模型選擇
根據國家互聯網信息辦公室關于生成式人工智能服務備案信息,結合工作實際使用情況,選取大模型產品,即智譜清言、文心一言、訊飛星火、天工AI 、通義千問、秘塔AI搜索和KimiAI九款模型進行測試,詳情見表1。
2.2 科技情報典型任務
根據科研管理流程,拆解出典型的情報工作任務,將其分為情報信息感知、情報信息搜集、情報文本挖掘、情報信息組織和發展趨勢預測,針對每個任務設計問題,選取5名測試人員進行獨立測試,評估各大模型執行情報任務情況(表2)。
3 研究結果分析
3.1 情報信息感知分析
科研管理場景下,管理者需對科技相關新動態保持高度敏感性,如新出臺的國家、省市科技政策,各省市的先進經驗做法,以及國際、國內取得的新的科技突破,情報感知場景指對情報信息的敏感度和洞察力,即能夠迅速在海量信息中識別和捕捉到關鍵信息,對潛在有價值的信息保持高度警覺。在人工智能的輔助下,了解情報需求,并從海量信息中進行智慧情報感知給出相關信息對輔助決策有重要作用。
對被試產品進行提問,指令:給出當日關鍵的科技新聞。就時間來說,其中秘塔AI搜索和天工AI給出的新聞是于當日發布的新聞,KimiAI給出的新聞部分是當日新聞,還有部分是之前日期的新聞,智譜清言和訊飛星火無法給出當日最新科技進展,最接近當前時間的是4日前的新聞,文心一言給出自行整理的新聞,但日期距離檢索日期較為久遠。就給出內容相關度來說,秘塔AI 搜索的新聞涵蓋了太空天文和生物醫學領域,天工AI給出的更接近于科技產業界的行業新聞,KimiAI總結了2024年各個網站報道的相關科技進展,ChatGLM給出了航天相關信息,文心一言生成了有關量子、電池、機器人和氣象領域新聞,訊飛星火生成內容涉及航天和生物研究方面。
僅有內部數據的模型無法進行情報感知,與互聯網數據相鏈接的大模型具有篩選信息的能力,清晰具體的檢索指令能夠有效提升信息獲取效率。
3.2" 情報信息搜集分析
科研管理決策需要完備的信息進行支撐,為解決信息的不完備性,科研管理場景下最典型的情報任務就是情報信息搜集,在大模型的輔助下,搜集信息的效率得到提升,但其準確度、全面度和可信度有待檢驗,情報信息搜集直接關系到科研管理決策的質量。
對產品分別進行提問,“國家科學數據中心是什么,有幾個?”除天工AI和KimiAI沒有給出準確結論外,其余模型都答出了是20個國家科學數據中心,其中秘塔AI搜索、智譜清言和文心一言對國家科學數據中心的含義解答最為準確,訊飛星火對國家科學數據中心的認知不夠準確。智譜清言主動給出了20家數據中心名單,進一步詢問其他大模型,輸入給出名單命令,秘塔AI搜索給出了7個數據中心的名稱,在進一步要求下未給出更多名單,但每次回答皆給出名單相關網絡鏈接,訊飛星火均給出了10個名單,KimiAI首次給出18個,進一步要求下給出了20個,文心一言首次給出5個,在進一步要求下給出18個。經對比分析,給出的數據中心名單與官方網站檢索一致。
通過測試發現,使用大模型的信息搜集與搜索引擎不同,即大模型具有不穩定性和“幻覺”,多次檢索生成回答不同,并會產生不準確、不完整或誤導性的輸出,其反饋信息有待進一步核實查證,但模型給出的回答結構較為完整。在開放式問題和固定答案類問題上,在固定答案類問題上表現較好。
3.3" 情報文本挖掘分析
科研管理場景下,各類政策文件、產業報告等需進行摘要總結,據此拆解出情報文本挖掘任務,指對政策文件、產業報告等長文本數據進行挖掘分析,解析文本內容和提取關鍵信息,分析其主題、摘要和關鍵詞,以獲取有價值的知識,提升工作效率。
分產業報告和政策文本兩類長文本數據讓模型進行總結、關鍵詞抽取和詞頻分析。秘塔AI搜索不具有上傳文本入口,在產業報告總結上,智譜清言和文心一言能完成摘要、關鍵詞抽取、詞頻分析和共詞分析4方面任務,天工AI、訊飛星火和通義千問在詞頻分析和共詞分析上功能不完善,智譜清言、KimiAI和訊飛星火的摘要能力較強,對文本的總結條理清晰,文心一言和智譜清言在詞頻分析和共詞分析方面優勢較大。在政策文本總結上,訊飛星火、天工AI和智譜清言可以對政策文本按照一級標題和二級標題進行分類總結和內容凝練,KimiAI無法總結政策文本。
采用通用模型對文本進行分析具有可行性,相較于傳統文本分析軟件,使用模型操作方便,但并非所有的模型都具有文本挖掘的功能。
3.4" 情報信息組織分析
在信息日益繁雜的科研管理工作中,將信息用合理的方式組織起來,有利于信息的查找和利用,以及本地信息庫的構建,是指將已有信息按照一定的邏輯和結構進行整理、分類的過程,使信息組織對信息的檢索、管理和使用有重要作用,合理的信息組織有助于提高信息的可訪問性、可靠性和實用性。
在信息組織能力方面,秘塔AI不具備自動分類能力,其他被試大模型均具備自動分類能力。在產業技術領域分類上,智譜清言、KimiAI和天工AI的自動分類能力較強,能夠在沒有提示的情況下對給出的多個技術領域進行分類,在科技政策領域,智譜清言、天工AI和訊飛星火對科技政策文本的分類較為準確。對個體差距較大的領域來說,在沒有提示的情況下模型能夠很好地將其自動分類,對于模糊領域,各個模型的分類原則不一樣,但都具有一定的參考作用。
3.5" 發展趨勢預測分析
在掌握科技發展現狀的基礎上,對相關產業進行分析,研判未來的發展趨勢,是科研管理工作的任務之一,測試模型能否運用科學的情報分析方法對某產業領域的未來發展趨勢進行分析,并形成合理化的總結。
對大模型進行在給出發展建議方面,針對“山東省固態電池產業未來發展趨勢”每個模型的回答都具有完整的結構,有綜述、分論點和結尾總結,并且單個模型生成的分論點沒有交叉過多的部分,在分論點上,全部大模型都涉及政策引導和支持、人才引進與培養、產業鏈協同建設、加強關鍵技術研發突破4方面的意見建議,政策引導方面提出如制定專項政策、財政補貼、產業基金和稅收優惠等,人才引進培養方面集中于在高校設立相關專業,培養具備相關產業知識的人才和引進國內外優秀人才和團隊,產業鏈協同建設方面給出意見傾向于打造上中下游一體化的產業發展,并設立產業園區、研發中心形成產業集聚效應,總體的意見內容較為基礎,體現了大模型在一定程度上具有基本的寫作框架搭建能力,但大模型不具備科學的趨勢預測能力。
3.6" 小結
大模型能夠有效提升科研管理場景下的情報工作效率,在情報搜集和文本挖掘任務上完成度較好,基本滿足解決信息不完備性的需求,能夠基于給定的文本進行簡短的摘要、關鍵詞抽取和詞頻分析,在信息感知、信息組織和趨勢預測上大模型的表現不如情報搜集和文本挖掘,與搜索引擎即互聯網相連接的大模型不具備情報感知力,無法提供最新的科技信息,且其預測能力不是基于科學的分析而是文本的概率生成,已有資料與結論之間聯結不強,大模型表現出弱思辨力,因此在信息感知、信息組織和趨勢預測上大模型的功能還有待進一步探索。
4" 大模型應用啟示
4.1" 需根據任務場景選擇合適的模型
每個模型都有其特定的設計目標、訓練數據和限制條件,這些因素共同決定了模型的表現和適用范圍,在使用大模型時需要根據具體任務情況來選擇合適的大模型產品進行使用。如,秘塔AI搜索不具有分類、總結功能,但在檢索上具有較強的能力,查全和查準度較高,在檢索開放式問題上具有優勢,文心一言在檢索確定性問題上具有優勢,智譜清言可以對長文本進行詞頻分析和共詞分析,并給出共詞矩陣,360智腦的自分類測試結果較好。
4.2" 需要根據模型調整檢索策略
大模型產品往往能夠產生大量的輸出結果,在檢索時需要考慮大模型產品的處理速度、泛化能力等性能特點,選擇適合的檢索策略和參數設置。如,對處理速度較慢的模型,異步檢索方式可提高檢索效率,對準確度較高的模型,增加檢索的復雜性可獲取更精確的結果。深入了解各大模型的輸入要求、輸出格式、訓練數據、交互方式和應用場景有助于制定出更合適的檢索策略。
4.3" 實際應用中需綜合多個模型
大模型內部的工作原理并不完全透明,模型結果難以進行解釋和驗證。根據具體任務需求,綜合考慮多個模型,將其融合到一個系統中,以實現更優質的輸出和更高效的處理。除直接結合模型的結果外,也可以在模型之間共享信息或特征。如,可以使用一個模型的輸出作為另一個模型的輸入進行驗證,使用多個模型的優勢特征進行組合和融合,得到更全面、更準確的結果。
4.4" 對大模型的能力需要客觀判斷
深度學習模型雖然已經在多個領域取得了顯著的成就,如自然語言處理、圖像識別和語音識別等,但由于數據的不完整性和一些噪聲干擾,以及模型本身的簡化假設和計算能力的限制,大模型在處理某些復雜問題時會出現偏差或錯誤,還具有一定的局限性,對任務指令不能夠完成,使用大模型的結果要結合領域知識和實際經驗進行綜合判斷。
5" 不足與展望
一是由于大模型數量,在測試中選取了國內具有代表性的部分大模型進行測試,具有一定局限性,二是為提高結論的可靠性和一致性,采用多個工作人員進行獨立測試,并對測試結果進行交叉驗證,但因測試人員自身的背景和經驗差異,人工測試不可避免地具有主觀性。在之后的測試中,將繼續對更多的模型進行測試,并依據測試結果構建模型支撐的新型科研管理工作路徑。
參考文獻:
[1] 劉海軍.數字政府大模型場景應用:作用機理、現實挑戰及治理路徑[J].科學與管理,2025,45(1):40-47.
[2] 李廣建,潘佳立.人工智能技術賦能情報工作的歷程與當前思考[J].信息資源管理學報,2024,14(2):4-20.
[3] Office of the Directoe of National Intelligence.2023 National Intelligence Strategy[EB/OL].https://www.dni.gov/files/ODNI/documents/National Intelligence Strategy_2023.pdf.
[4] Office of the Directoe of National Intelligence.The IC OSINT Strategy 2024-2026[EB/OL].https://www.dni.gov/index.php/newsroom/reports-publications/reports-publications-2024/3785-the-ic-osint-strategy-2024-2026.
[5] CHANG Y P, WANG X, WANG J D, et al. A Survey on Evaluation of Large Language Models[EB/OL].https://arxiv.org/abs/2307.03109v9.
[6] LIN Y T, CHEN Y N. LLM-Eval: Unified Multi-Dimensional Automatic Evaluation for OpenDomain Conversations with Large Language Models[EB/OL].https://arxiv.org/abs/2305.13711.
[7] WANG C X, CHENG S, XU Z K, et al. Evaluating open question answering evaluation[EB/OL].https://arxiv.org/abs/2305.12421.
[8] DAN H, COLLIN B, SAURAV K, et al. Measuring mathematical problem solving with the math dataset[EB/OL].https://arxiv.org/abs/2103.03874.
[9] GUO T C, GUO K H, LIANG Z W, et al. What indeed can GPT models do in chemistry? A comprehensive benchmark on eight tasks[EB/OL].https://arxiv.org/abs/2305.18365.
[10] DAMAN A, HIMANSHU G S, MAUSAM. Have LLMs Advanced Enough? A Challenging Problem Solving Benchmark For Large Language Models[EB/OL].https://arxiv.org/abs/2305.15074.
[11] JASON H, LIU Z L, ZHANG L, et al. Evaluating large language models on a highly-specialized topic, radiation oncology physics[EB/OL].https://arxiv.org/abs/2304.01938.
[12] GIRIPRASAD S, RANJANI H G, SOURAV M. ChatGPT: A Study on its Utility for Ubiquitous Software Engineering Tasks[EB/OL].https://arxiv.org/abs/2305.16837.
[13] 趙浜,曹樹金.國內外生成式AI大模型執行情報領域典型任務的測試分析[J].情報資料工作,2023,44(5):6-17.
[14] 李曉松,李增華,趙柯然,等.科技情報研究領域的大語言模型測評工作思考[J].情報理論與實踐,2024,47(11):170-176,200.