摘 要 來自算法的建議并不總是由AI獨立給出的,還有可能是專家使用AI(即人機協同)給出的。而目前少有研究探討人機協同背景下決策者的建議尋求動機對建議采納的影響。本研究采用疾病預測材料探討人機協同背景下建議來源和建議尋求動機對建議采納的影響。研究1采用單因素(建議來源:專家/AI/人機協同)被試間設計,發現相對于AI給出的建議,決策者更多采納人機協同給出的建議,而對人機協同給出的建議和專家單獨給出的建議,建議采納沒有顯著差異。研究2采用2(建議來源:專家/人機協同)×3(建議尋求動機:關系動機/準確動機/控制組)被試間設計,發現決策者對人機協同的建議采納多于對專家的建議采納,關系動機條件下的建議采納多于準確動機條件下的建議采納。研究結果表明人們愿意采納人機協同給出的建議。
關鍵詞 人機協同;關系動機;準確動機;建議采納
分類號 B849
DOI:10.16842/j.cnki.issn2095-5588.2024.12.001
1 引言
日常生活中,人們做出決策時往往會參考他人建議以提高決策質量(Gino & Schweitzer,2008)。影響建議采納的因素很多,但很少有研究探討決策者的動機對建議采納的影響,尤其是當建議來源不同時,決策者的動機是否影響其對建議的采納?本文對此進行了探討。
Ji等(2017)通過質性研究探討了決策者尋求建議的動機,結果發現,獲取信息確實是尋求建議的主要動機之一,如解決手頭的問題、獲得替代視角或確認決定;同時,決策者還可能會為了建立、維持或改善關系而尋求建議。建議采納過程既是信息加工過程,也是人際互動過程,如果決策者期望獲得最優的解決方案或做出最佳決定(Jonas, 2005)而評估他人建議,或將自己的初始決策和他人建議進行比較分析,則說明其采納建議時是出于準確性動機或認知動機。如果建議者和決策者關注人際關系,說明在建議采納中存在關系動機或社會性動機,即采納建議是為了建立或維持積極的人際關系(Blunden et al., 2019)。Dreu和Boles(1998)發現,持親社會動機的談判者傾向于合作策略,易采納他人提供的信息。決策者基于準確性動機采納建議時,如果其不信任建議者,則多采用系統式加工,并對建議信息反復權衡,從而可能導致建議采納程度降低(Chen et al., 1996)。因此,本研究探討的第一個問題是決策者的建議采納程度是否因動機不同(準確vs. 關系)而存在差異。
在數字化時代,專家和AI都能給出建議,如醫療專家和醫療AI(杜秀芳等, 2023)。已有研究探討了人類專家與算法的建議對決策者的建議采納的影響,并發現存在算法厭惡(Dietvorst et al., 2015; Kaufmann et al., 2023)。人們不愿意采納算法的建議一方面是因為AI能力不足(Mahmud et al., 2022)。相比于人類給出錯誤建議的后果,人們對AI給出錯誤建議后的信任損失得更快(Bogert et al., 2021);另一方面涉及AI的責任主體性問題(Hakli & M?kel?, 2019; Parthemore & Whitby, 2014),即如果AI給出了錯誤的建議,人們無法追究責任。但現實情況是,往往只有少數人擁有并使用AI,尤其是一些高級的AI,普通人可能并不擁有也不會使用。也就是說,有一部分來自算法的建議并不是AI獨立給出的,而是專家使用AI后給出的,是人機協同的結果。對于這部分建議,人們的采納情況如何?前人對人機協同決策的研究(Sowa et al., 2021; Zhang et al., 2023)發現,相比與人協同,與高質量的AI協同所作出的決策表現更佳。我們推測,人機協同給出的建議一方面可以提高建議接受者對AI的信任,另一方面在一定程度上可以削弱人們對AI是否可以作為責任主體的疑慮。因此,決策者對人機協同的建議采納程度是否高于來自AI的建議或來自專家的建議,這是本研究要探討的第二個問題。
人機協同給出的建議類似集體商議的結果,決策者可能會認為它更準確,那么在準確性動機條件下是否會對其采納程度更高?而在人機協同中,專家和AI的責任都會降低,這是否會削弱關系動機條件下決策者的建議采納程度?因此,本研究要探討的第三個問題是不同動機條件下,決策者對來自專家和人機協同的建議的采納程度是否存在差異。
近幾年,醫療領域的AI技術得到了突破性發展。如2023年10月,科大訊飛的星火醫療大模型已經在全國400個縣區取得了規?;瘧?,并且該模型在國家執業醫師資格考試中的表現優于96%的參加考試的醫生。另外,被試對醫療情境均較為熟悉,該領域的研究成果較多,便于比較,如Bossen和Pine(2023)發現,在醫療健康領域中,在人類監督下提供醫療服務的AI更易被人們接受。因此,本研究將以醫療情境的疾病預測為實驗材料,首先探討當決策者出于準確性的建議尋求動機時,建議采納程度是否因建議來源(人機協同vs. AI vs. 專家)不同而存在差異。其次,動機(準確性vs. 關系)是否影響對不同來源建議(專家vs. 人機協同)的采納。實驗1采用單因素的被試間設計,探討人們對人機協同的建議采納程度是否高于專家或AI的建議采納程度;在此基礎上,實驗2采用3×2的被試間實驗設計,探討不同動機條件下對專家和人機協同的建議采納程度是否存在差異。
本研究的程序材料、數據、分析代碼已在https://osf.io/gbtw9/?view_only=b1ba0b5d9a9b46c791bf7946c8c7800f公開。
2 研究1 人機協同對建議采納的促進作用
2.1 研究方法
2.1.1 被試
使用G*power計算效應量f=0.25, α=0.05,1- β=0.8時的單因素方差分析所需樣本量,結果需要159名被試。本實驗在Credamo在線實驗平臺上招募259名被試,刪除六輪任務中建議采納程度(Weight of Advice, WOA)無效的被試67人以及3個標準差以外的極端值被試19人,最終有效被試為173人(男性78人, 女性95人, 年齡31.90±8.71歲)。
2.1.2 研究設計
采用單因素(建議來源:專家/AI/人機協同)的被試間設計,因變量是被試的建議采納程度,參照Yaniv(2004)的計算公式:WOA=|決策者最終估計-決策者初始估計|/|建議值-決策者初始估計|,WOA=0表示決策者完全不接受建議,WOA=1表示決策者完全接受建議,被試初始估計與建議值相同時,公式的分母為0,則WOA無效,數據被剔除。
2.1.3 材料
(1)疾病預測材料
改編自杜秀芳等(2023)的實驗材料,包括肺癌、特發性肺動脈高壓(IPAH)、前列腺癌、心臟病、糖尿病以及高血壓六種疾病患病概率的材料,每種材料給出了在特定人群中的患病概率以及檢出率,要求被試預測某項檢查異常的個體患該疾病的概率。如前列腺癌的材料:
曹爺爺,84歲,前列腺特異性抗原(PSA)測試的結果異常。PSA測試是檢測前列腺癌的一種手段。據統計,我國80歲以上的老人中每1000個有15人患前列腺癌。對這15人進行PSA測試會有11人結果異常;由于這種測試不是特別準確,其余985人進行該測試時也會有25人結果異常。如果曹大爺PSA測試結果異常,那么他實際患前列腺癌的概率是多少?
2.1.4 程序
被試被隨機分到三個實驗組。然后主試依次向其呈現六個情景,被試按照JAS范式完成建議采納任務。每個情景開始時,被試先獨立做出預測估計,然后呈現專家、AI或人機協同的預測結果,被試根據該結果再做一次預測,最初的預測可以修改,也可以保持。最后收集人口學信息。
2.2 結果
將被試在六種疾病預測材料中的建議采納程度平均值作為因變量,建議來源為自變量,性別作為協變量,采用單因素方差分析,結果發現,建議來源的主效應顯著,F(2, 169)=4.15,p=0.017,η2p=0.06,專家組(M=0.62, SD=0.25, t(110) =2.17, d=0.40, p=0.048)和人機協同組(M=0.64, SD =0.28, t(115)=2.51, d=0.46, p=0.040)的建議采納程度顯著高于AI組(M=0.50, SD=0.32)的建議采納程度,專家組和人機協同組的建議采納程度無顯著差異。
該結果說明,即使在AI技術得到大幅度發展的今天,算法厭惡仍然存在,而人機協同可以避免算法厭惡。鑒于與高質量的AI進行協同決策時的聯合表現優于單獨個體決策時的表現(Zhang et al., 2023),研究2將進一步探討不同動機條件下建議來源對建議采納的影響。
3 研究2 決策者動機與建議來源對建議采納的影響
3.1 研究方法
3.1.1 被試
使用G*power計算效應量f=0.25, α=0.05,1-β =0.8時的3×2方差分析所需樣本量,結果需要158名被試。本實驗在Credamo在線實驗平臺上招募400名被試,刪除答題不符合規范(如以文字而非數值進行答題)的12人、六輪任務中WOA無效(被試初始估計與建議值相同)的33人、動機操縱未成功的(準確性動機操縱條件下準確性動機檢驗得分低于關系動機檢驗的被試和關系動機操縱條件下關系動機檢驗得分低于準確動機檢驗的被試)28人以及3個標準差以外的極端值被試4人,最終有效被試為323人(男性110人,女性213人,年齡32.73±9.31歲)。
3.1.2 研究設計
采用3(建議尋求動機:準確性動機/關系動機/控制組)×2(建議來源:專家/人機協同)的被試間設計,因變量是建議采納程度(同研究1)。
3.1.3 材料
(1)疾病預測材料同研究1。
(2)動機操縱材料
準確動機操縱材料:“本研究的目的是探究采納他人建議時如何保持客觀的態度。建議互動過程是多方面收集信息,減少決策中不確定性的過程。采納他人建議的目的是作出準確的決策。建議互動過程越客觀,最終的決策越準確”。
關系動機操縱材料:“本研究的目的是探究采納他人建議時如何主動追求與他人之間的親密和良好關系,建議互動過程是建立與他人之間的聯系,并互相支持的過程。采納他人建議體現了對于人際關系的認知和重視。這個過程越和諧、越順利,雙方的關系也就越好”。
控制組動機操縱材料:“本研究的目的是探究采納他人建議時的行為特點。建議互動過程是決策者和建議者共同作出決策的過程。在下面的建議互動情景中,請按照指導語和主試的指引進行”。
(3)動機操縱檢驗材料
準確動機操縱檢驗題目是“請問在本次測驗中,你追求自己的決策結果準確性的程度是”。關系動機操縱檢驗題目是“請問在本次測驗中,你有意維持你和建議者的關系的程度是”。均為7點計分,1表示非常低,7表示非常高。
3.1.4 程序
基本同研究1。與研究1的不同之處在于在呈現情景之前,先對動機進行操縱,在完成六個情景任務后,進行動機的操縱檢驗和人口學信息測量。
3.2 結果
3.2.1 動機的操縱檢驗
不同的建議尋求動機組在兩種動機檢驗問題上的平均數和標準差如表1所示。
重復測量的方差分析結果發現,動機感知效果檢驗問題的主效應顯著,F(1, 320)=8.39, p=0.004,η2p=0.03;決策者動機的主效應不顯著;不同決策者動機誘發和動機感知效果檢驗問題之間的交互作用顯著,F(2, 320)=94.08, p< 0.001,η2p=0.37。進一步的簡單效應分析表明,準確性動機組在準確性動機檢驗問題上(M=5.39, SD=0.12)的得分顯著高于關系性動機的檢驗問題得分(M=4.21, SD=0.12), t(105) =9.85, p<0.001, d=1.03;關系性動機組的被試在準確性動機檢驗問題上的得分(M=4.01, SD=0.12)顯著低于關系性動機的檢驗問題得分(M=5.30, SD=0.11), t(109) =-13.37, p<0.001,d=-1.13;控制組的被試在準確性動機檢驗問題上(M=4.54, SD=0.12)的得分顯著低于關系性動機的檢驗問題得分(M=5.05, SD=0.11), t (106)=-3.06, p=0.003, d=-0.37。
換個方向來看,在準確性動機的檢驗問題上,準確性動機組(M=5.39, SD=0.99)高于控制組(M=4.54, SD=1.44, t(189)=5.00, p<0.001, d=0.68)和關系動機組(M=4.01, SD=1.28, t(205) =8.86, p<0.001, d=1.20),而且控制組也顯著高于關系動機組(t(211)=2.88, p=0.013, d=0.39);在關系動機檢驗問題上,關系動機組(M=5.30, SD=0.97, t(195)=6.97, p<0.001, d=0.95)和控制組(M=5.05, SD=1.26, t(211)=4.81, p<0.001, d=0.66)顯著高于準確性動機組(M=4.21, SD=1.28),關系動機組與控制組的差異不顯著。綜上,決策者動機的操作是成功的。
3.2.2 決策者動機與建議來源對建議采納的影響
被試在六種疾病預測材料中的建議采納程度平均值和標準差見表2。
以建議尋求動機、建議來源為自變量,性別作為協變量,建議采納程度為因變量,進行方差分析。結果顯示,建議尋求動機的主效應顯著,F(2, 316)=8.79, p<0.001,η2p=0.05。事后檢驗發現,關系性動機組(M=0.71, SD=0.27, t (213)=4.42, p<0.001, d=0.60)和控制組(M=0.65, SD=0.28, t(201)=2.54, p=0.035, d=0.35)顯著高于準確性動機組(M=0.55, SD=0.28);控制組和關系性動機組無顯著差異。建議來源的主效應顯著,F(1, 316)=4.86, p=0.028,η2p=0.016,被試對人機協同(M=0.67, SD=0.30)的建議采納程度顯著高于對專家(M=0.60, SD=0.29)的。決策者動機與建議來源的交互作用不顯著,F(2, 316)=0.79,p=0.456。
4 討論
研究1發現,建議來源對決策者建議采納具有顯著影響,決策者對專家和人機協同的建議采納程度顯著高于對AI的。有研究認為AI不能作為責任主體,因為他們缺乏自由意志和認知條件(Hakli & M?kel?, 2019),因此人們不愿意把重要任務指派給它們。在AI技術得到大幅度發展的背景下,盡管AI的確在很多方面表現優異,但人們仍然不愿意使用AI的建議(Schmitt, 2020)。算法的黑盒屬性也會阻礙算法的使用。Longoni等(2019)的研究認為醫療領域中出現算法厭惡是因為就醫者擔心算法不能考慮到個人的獨特情況。Bonezzi等(2022)的研究發現人們對人類決策的理解比對算法決策的理解容易,因為我們會更多把自己對決策過程的理解投射到人類給出的建議。然而專家使用算法為決策者提供建議則表明了專家對算法的信任,決策者會認為該建議具有較高的可靠度,降低了對AI能否作為責任主體的疑慮,因而采納程度更高。研究2雖然發現決策者對人機協同的建議采納程度高于對專家的,但差異的效應量很低。
研究2發現出于關系動機的決策者對他人的建議采納程度顯著高于出于準確性動機的決策者對他人的建議采納程度。這很可能是由于準確性動機的目的是了解問題的本質,作出正確的決策,重點在于建議本身的質量和可靠性程度。這導致決策者在決定是否采納時更加謹慎,甚至會對建議產生質疑,從而降低了對建議采納的程度。另外,如果決策題目太難,操縱準確性動機可能會使被試有意質疑專家或人機協同給出的建議,進一步降低準確性動機條件下的建議采納程度。而關系性動機的目的在于與他人建立或保持親密友好的關系,因此,作出決策時考慮的重點不在建議本身,而是與他人的關系,所以決策者對他人建議的質疑較少,并且傾向于通過采納建議以建立或維持與他人良好的關系。
此外,我們發現,在關系動機條件下,決策者對人機協同的建議采納程度顯著高于對專家的建議采納程度。我們認為,首先,基于關系動機尋求建議的人對關系更加重視,這能夠減少人們的防御性(Van Tongeren et al., 2014),進而增加對人機協同的接受程度;其次,建議由多位“專家”給出,體現了群體的智慧,使得建議更讓人信服。Mannes(2009)的研究發現人們認為多位專家給出的建議比一位專家給出的建議好。
本研究具有重要的理論意義和實踐價值。從理論角度來看,將動機與人機協同結合起來,拓展了決策領域的研究范疇。從實踐角度出發,本研究對促進人工智能建議的應用提供了指導意義。正如黨的二十大報告所指出的,要讓人工智能助力健康中國建設。高質量人工智能的使用可以極大緩解目前面臨的就醫壓力。然而,以往研究發現,醫療領域是算法厭惡最嚴重的領域之一(Jussupow et al., 2020)。因此,專家在決策過程中使用AI輔助工具,能夠顯著提高診斷的速度和質量,同時也更容易被患者接受。
本研究也存在局限。第一,研究采用醫療情景材料,未來可以在其他領域中驗證本研究的結果。第二,研究2中,對動機的操縱過于直接,有可能存在被試效應。因此,未來的研究,可以換一種動機操縱方式來驗證本結果的穩健性。第三,研究2將決策者的動機區分為準確性動機和關系性動機兩個維度,但是人們的決策過程是復雜的,不止受到這兩種動機的影響,還可以歸納出其他類型的動機。因此,未來可在本研究的基礎上,更加深入細致地探討動機對建議采納的影響。
參考文獻
杜秀芳, 王靜, 李方, 王亞婷(2023). 算法厭惡還是算法欣賞?——不同建議來源對個體建議采納的影響. 中國臨床心理學雜志, 31(1), 75-79, 95.
Blunden, H., Logg, J. M., Brooks, A. W., John, L. K., & Gino, F. (2019). Seeker beware: The interpersonal costs of ignoring advice. Organizational Behavior and Human Decision Processes, 150(3), 83-100.
Bogert, E., Schecter, A., & Watson, R. T. (2021). Humans rely more on algorithms than social influence as a task becomes more difficult. Scientific reports, 11(1), 8028.
Bonezzi, A., Ostinelli, M., & Melzner, J. (2022). The human black-box: The illusion of understanding human better than algorithmic decision-making. Journal of Experimental Psychology: General, 151(9), 2250-2258.
Bossen, C., & Pine, K. H. (2023). Batman and robin in healthcare knowledge work: Human-AI collaboration by clinical documentation integrity specialists. ACM Transactions on Computer-Human Interaction, 30(2), 1-29.
Chen, S., Shechter, D., & Chaiken, S. (1996). Getting at the truth or getting along: Accuracy-versus impression-motivated heuristic and systematic processing. Journal of personality and social psychology, 71(2), 262.
Dietvorst, B. J., Simmons, J. P., & Massey, C. (2015). Algorithm aversion: People erroneously avoid algo-rithms after seeing them err. Journal of Experimental Psychology: General, 144(1), 114.
De Dreu, C. K., & Boles, T. L. (1998). Share and share alike or winner take all?: The influence of social value orientation upon choice and recall of negotiation heuristics. Organizational behavior and human decision processes, 76(3), 253-276.
Gino, F., & Schweitzer, M. E. (2008). Blinded by anger or feeling the love: How emotions influence advice taking. Journal of Applied Psychology, 93(5), 1165.
Hakli, R., & M?kel?, P. (2019). Moral responsibility of ro-bots and hybrid agents. The Monist, 102(2), 259-275.
Ji, L. J., Zhang, N., Li, Y., Zhang, Z., Harper, G., Khei, M., & Li, J. (2017). Cultural variations in reasons for advice seeking. Journal of Behavioral Decision Making, 30(3), 708-718.
Jonas, E., Schulz-Hardt, S., & Frey, D. (2005). Giving advice or making decisions in someone else’s place: The influence of impression, defense, and accuracy motivation on the search for new information. Personality and Social Psychology Bulletin, 31(7), 977-990.
Jussupow, E., Benbasat, I., & Heinzl, A. (2020, June). Why are we averse towards algorithms? A comprehensive lite-rature review on algorithm aversion. Paper presented at the meeting of the Proceedings of the 28th European Conference on Information Systems (ECIS), An Online AIS Conference, Marrakech, Morocco.
Kaufmann, E., Chacon, A., Kausel, E. E., Herrera, N., & Reyes, T. (2023). Task-specific algorithm advice accep-tance: A review and directions for future research. Data and Information Management, 7(3), 100040.
Longoni, C., Bonezzi, A., & Morewedge, C. K. (2019). Resistance to medical artificial intelligence. Journal of Consumer Research, 46(4), 629-650.
Mahmud, H., Islam, A. N., Ahmed, S. I., & Smolander, K. (2022). What influences algorithmic decision-making? A systematic literature review on algorithm aversion. Technological Forecasting and Social Change, 175(49), 121390.
Mannes, A. E. (2009). Are we wise about the wisdom of crowds? The use of group judgments in belief revision. Management Science, 55(8), 1267-1279.
Parthemore, J., & Whitby, B. (2014). Moral agency, moral responsibility, and artifacts: What existing artifacts fail to achieve (and why), and why they, nevertheless, can (and do?。?make moral claims upon us. International Journal of Machine Consciousness, 6(2), 141-161.
Schmitt, B. (2020). Speciesism: An obstacle to AI and robot adoption. Marketing Letters, 31(1), 3-6.
Sowa, K., Przegalinska, A., & Ciechanowski, L. (2021). Cobots in knowledge work: Human-AI collaboration in managerial professions. Journal of Business Research, 125(24196), 135-142.
Van Tongeren, D.R., Green, J.D., Hulsey, T.L., Legare, C.H., Bromley, D.G., & Houtman, A.M. (2014). A meaning-based approach to humility: Relationship affirmation reduces worldview defense. Journal of Psychology and Theology, 42(1), 62-69.
Yaniv, I. (2004). Receiving other people’s advice: Influence and benefit. Organizational behavior and human decision processes, 93(1), 1-13.
Zhang, G., Chong, L., Kotovsky, K., & Cagan, J. (2023). Trust in an AI versus a Human teammate: The effects of teammate identity and performance on Human-AI coop-eration. Computers in Human Behavior, 139(1), 107536.