佟金鐸,郭鳳英,翟 興,李 巖,陳曉倩
(北京中醫(yī)藥大學(xué)管理學(xué)院,北京 100029)
隨著互聯(lián)網(wǎng)開始普及,信息技術(shù)水平不斷提高,社會(huì)各行各業(yè)信息化程度也隨之逐漸加深。醫(yī)療行業(yè)作為一個(gè)與健康密切相關(guān)的行業(yè),在信息技術(shù)改革的影響下,其醫(yī)療模式、醫(yī)療形態(tài)都有了巨大的改變,在傳統(tǒng)就醫(yī)模式的基礎(chǔ)上發(fā)展形成了“在線醫(yī)療”的新型就醫(yī)模式。患者可以足不出戶,通過在線醫(yī)療網(wǎng)站選擇合適醫(yī)生進(jìn)行問診,隨之產(chǎn)生了大量的就醫(yī)行為數(shù)據(jù),如醫(yī)生熱度、患者滿意度、患者評(píng)價(jià)等。這些數(shù)據(jù)信息通過在線醫(yī)療網(wǎng)站也呈現(xiàn)在患者面前,影響著患者的就醫(yī)選擇。在考慮自身經(jīng)濟(jì)條件和對(duì)癥的同時(shí),醫(yī)生所屬醫(yī)院、醫(yī)生職稱以及患者對(duì)醫(yī)生的評(píng)價(jià)等信息同樣對(duì)患者的就醫(yī)選擇有著巨大的影響。對(duì)于在線醫(yī)療網(wǎng)站的發(fā)展而言,分析影響患者就醫(yī)選擇的因素,進(jìn)而為患者提供更加符合個(gè)性化需求的在線醫(yī)療服務(wù),具有十分重要的意義[1]。本文主要通過分析患者就醫(yī)的數(shù)據(jù)信息,判斷患者就醫(yī)的傾向性以及影響患者就醫(yī)傾向性的因素,從而完善在線醫(yī)療網(wǎng)站的服務(wù)機(jī)制以提高患者的就醫(yī)體驗(yàn),為患者提供更加優(yōu)質(zhì)服務(wù)。
1.1 網(wǎng)絡(luò)爬蟲 網(wǎng)絡(luò)爬蟲是目前常用的網(wǎng)絡(luò)數(shù)據(jù)采集工具,通過一定的代碼程序?qū)崿F(xiàn)自動(dòng)檢索目標(biāo)網(wǎng)站網(wǎng)頁信息的功能[2]。它的廣泛應(yīng)用為快速便捷地采集大量網(wǎng)頁數(shù)據(jù)提供了工具和方法,取代了手動(dòng)采集網(wǎng)頁數(shù)據(jù),對(duì)大數(shù)據(jù)技術(shù)的發(fā)展有著巨大的推動(dòng)作用。
1.2 網(wǎng)頁數(shù)據(jù)抓取的實(shí)現(xiàn) 隨著爬蟲技術(shù)的發(fā)展和成熟,市場(chǎng)上出現(xiàn)了許多功能完善的爬蟲軟件。本次主要采用八爪魚爬蟲軟件,這款軟件有簡(jiǎn)易采集和自定義兩種采集模式,將數(shù)據(jù)采集過程簡(jiǎn)易化、智能化、可視化,極大地減輕了操作者的工作負(fù)擔(dān),提高了數(shù)據(jù)采集效率。本次選用自定義模式,共采集776名醫(yī)生的結(jié)構(gòu)化數(shù)據(jù)信息,主要包括以下字段:醫(yī)生姓名、職稱、所屬醫(yī)院、推薦熱度、主治疾病、就診費(fèi)用和患者評(píng)價(jià)。
2.1 原始數(shù)據(jù)集描述 從好大夫在線網(wǎng)站上采集到的原始數(shù)據(jù),存在著數(shù)據(jù)冗余、缺失值等問題,需要進(jìn)行數(shù)據(jù)清理。Azure Machine Learning 具有對(duì)數(shù)據(jù)集進(jìn)行可視化并從很大的數(shù)據(jù)集中抽樣的能力,可用來完成數(shù)據(jù)清理。在清洗和處理原始數(shù)據(jù)集之前,一般先要了解以下幾個(gè)方面:①數(shù)據(jù)集的記錄數(shù);②屬性的數(shù)量;③每個(gè)屬性的數(shù)據(jù)類型;④名義屬性有哪些值;⑤連續(xù)屬性的統(tǒng)計(jì)分布情況;⑥每個(gè)屬性有多少缺失值;⑦每個(gè)屬性有多少不同的值。通過創(chuàng)建實(shí)驗(yàn)可視化數(shù)據(jù)集里的原始數(shù)據(jù),見圖1。
通過這些圖表的內(nèi)容,對(duì)該數(shù)據(jù)集的整體情況有了初步的認(rèn)識(shí)和了解。在此基礎(chǔ)上,還可以添加Descriptive Statistics 模塊運(yùn)行實(shí)驗(yàn),進(jìn)一步了解該數(shù)據(jù)集。該模塊生成標(biāo)準(zhǔn)統(tǒng)計(jì)測(cè)量結(jié)果,描述數(shù)據(jù)集里的每個(gè)屬性,見圖2。觀察該結(jié)果可以發(fā)現(xiàn)數(shù)據(jù)集存在的問題,包括圖文問診費(fèi)存在15 個(gè)缺失值、電話咨詢費(fèi)存在22 個(gè)缺失值、部分字段重復(fù)等。

圖1 可視化數(shù)據(jù)集

圖2 標(biāo)準(zhǔn)統(tǒng)計(jì)測(cè)量結(jié)果
2.2 數(shù)據(jù)集的清洗 通過配置Azure Machine Learning 的Clean Missing Data 模塊,設(shè)定清洗規(guī)則,解決數(shù)據(jù)集中包含缺失值和部分重復(fù)字段。
3.1 用戶畫像概述 在大數(shù)據(jù)時(shí)代,互聯(lián)網(wǎng)的數(shù)據(jù)總量逐年激增,海量的數(shù)據(jù)信息聚集在互聯(lián)網(wǎng)上,蘊(yùn)含著巨大的能量和價(jià)值。人們可以通過研究互聯(lián)網(wǎng)上相關(guān)的數(shù)據(jù)信息,分析用戶的屬性和特征,從而有針對(duì)性地提供個(gè)性化服務(wù)。在充分利用大數(shù)據(jù)進(jìn)行研究分析的眾多工具和方法中,用戶畫像的應(yīng)用最為廣泛。用戶畫像通過從采集到的數(shù)據(jù)中提取特征化標(biāo)簽,挖掘和刻畫用戶的屬性以及特征,通過給用戶“貼標(biāo)簽”來構(gòu)建畫像模型,可以有效挖掘用戶的個(gè)性化需求,制定個(gè)性化服務(wù)方案,從而使資源利用效率達(dá)到最優(yōu)[3]。
3.2 用戶畫像構(gòu)建流程 一般來說,構(gòu)建用戶畫像大致分為以下三步:①采集數(shù)據(jù):通過訪談、問卷調(diào)查、網(wǎng)絡(luò)爬蟲等方式進(jìn)行數(shù)據(jù)采集;②提取特征:對(duì)采集到的數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘和文本分析,從中提取出不同維度的特征化標(biāo)簽;③呈現(xiàn)畫像:可視化特征標(biāo)簽,形成用戶畫像。本次通過網(wǎng)絡(luò)爬蟲來采集好大夫在線網(wǎng)站上的數(shù)據(jù),將醫(yī)生姓名、職稱、所屬醫(yī)院、推薦熱度以及收費(fèi)標(biāo)準(zhǔn)等特征信息標(biāo)簽化,對(duì)患者評(píng)價(jià)進(jìn)行文本分析,提取患者評(píng)價(jià)當(dāng)中的特征詞并分析該評(píng)價(jià)的情感傾向,歸納整理相關(guān)的特征化標(biāo)簽并將其可視化,最終形成該醫(yī)生的可視化用戶畫像。
3.3 畫像特征的提取 患者評(píng)價(jià)數(shù)據(jù)是非結(jié)構(gòu)化數(shù)據(jù),屬于特定的自然語言,遵循特定的語法和語義。自然語言是人類為滿足自身使用和溝通而形成并演變出來的語言,而不是像計(jì)算機(jī)編程語言那樣由人工創(chuàng)造和構(gòu)建的語言。語言的“自然性”導(dǎo)致了人們?cè)谶M(jìn)行文本分析的時(shí)候,不能只考慮文本數(shù)據(jù)本身,還要考慮到它背后的概念、它的本質(zhì)、意義和其中包含的情感。通常相比在客觀內(nèi)容上,情感分析能夠在患者評(píng)價(jià)這種主觀內(nèi)容上更好地工作。這是因?yàn)楫?dāng)一個(gè)文本擁有客觀的上下文或視角時(shí),文本通常描述一些正常的陳述或事實(shí)而不表達(dá)任何情感、感覺或情緒。好大夫在線醫(yī)療網(wǎng)站上的患者對(duì)醫(yī)生的評(píng)價(jià),包含了患者的就醫(yī)體驗(yàn)和情緒,對(duì)它進(jìn)行分析和挖掘找出患者最為關(guān)心要素,對(duì)于改善在線醫(yī)療服務(wù)意義重大[4]。
通過調(diào)用百度AI 平臺(tái)的自然語言處理API,對(duì)患者評(píng)價(jià)數(shù)據(jù)進(jìn)行情感傾向分析。利用client.sentimentClassify(text)命令,對(duì)命名為text 的文本進(jìn)行情感傾向分析。以text='感謝信:診斷準(zhǔn)確、快速!知性女醫(yī)生,讓病人感覺到溫馨!'為例,得到以下結(jié)果'positive_prob':0.991941,'confidence':0.982091,'negative_prob':0.00805927,'sentiment':2。該結(jié)果表示文本內(nèi)容屬于積極類別的概率為0.991941,屬于消極類別的概率為0.00805927,分類的置信度為0.982091,情感極性分類結(jié)果為正向。根據(jù)以上分析結(jié)果可以看出,本條患者評(píng)價(jià)表達(dá)的情感為正向情感且可信度很高,即該患者對(duì)其所評(píng)價(jià)的醫(yī)生很滿意,見圖3。

圖3 情感傾向分析部分結(jié)果
3.4 可視化畫像的實(shí)現(xiàn) 從情感傾向分析的角度出發(fā),根據(jù)患者對(duì)醫(yī)生所做的評(píng)價(jià)分析患者的就醫(yī)體驗(yàn),在此基礎(chǔ)上提取出該醫(yī)生的特征并形成畫像[5]。首先通過調(diào)用Python 的jieba 庫來進(jìn)行分詞和統(tǒng)計(jì)詞頻的操作。以某醫(yī)生的患者評(píng)價(jià)為例,從分析結(jié)果中可以發(fā)現(xiàn)在高頻詞當(dāng)中,耐心一詞出現(xiàn)了44次,感謝一詞出現(xiàn)了27 次,認(rèn)真一詞出現(xiàn)了20 次,熱情一詞出現(xiàn)了18 次,和藹一詞出現(xiàn)了10 次,仔細(xì)一詞出現(xiàn)了10 次。由此推斷,患者對(duì)該醫(yī)生提供的醫(yī)療服務(wù)很滿意,這是一次愉快的就醫(yī)體驗(yàn)[6]。將這些高頻詞提取出來,即可作為該醫(yī)生的特征標(biāo)簽,見圖4。再調(diào)用Python 的wordcloud 庫來生成詞云,在jieba 分詞的基礎(chǔ)上,生成該醫(yī)生的詞云,即醫(yī)生畫像,見圖5。

圖4 分詞和統(tǒng)計(jì)詞頻的部分結(jié)果
Microsoft Azure Machine Learning 的Filter -BasedFeature Selection 模塊中內(nèi)置了多種相關(guān)性分析算法,這些算法會(huì)計(jì)算數(shù)據(jù)集中的每個(gè)特征和目標(biāo)屬性之間的相關(guān)度,并據(jù)此給該特征一個(gè)分?jǐn)?shù)來表示二者間的相關(guān)度。本文選取的卡方檢驗(yàn)算法進(jìn)行患者就醫(yī)影響因素的相關(guān)性分析[7],選定“評(píng)分”列作為目標(biāo)屬性計(jì)算它和其他特征間的相關(guān)度。經(jīng)計(jì)算每個(gè)特征和目標(biāo)屬性之間的相關(guān)度如下:“所屬醫(yī)院”:937.940468,“2 年內(nèi)該疾病得票”:620.22737,“該疾病總票”:431.237631,“近兩周答疑數(shù)”:174.726116,“圖文問診費(fèi)”:141.400486,“電話咨詢費(fèi)”:128.346698,“職稱”:56.571225。由此可以看出,“所屬醫(yī)院”、“2 年內(nèi)該疾病得票”和“該疾病總票”三個(gè)特征和目標(biāo)屬性“評(píng)分”之間的相關(guān)度最大。即醫(yī)生所屬醫(yī)院和醫(yī)生口碑與患者就醫(yī)體驗(yàn)之間的相關(guān)性最大。

圖5 可視化醫(yī)生畫像
使用Power BI 可視化模型,將各個(gè)特征和目標(biāo)屬性“評(píng)分”之間的相關(guān)關(guān)系通過圖表的形式呈現(xiàn),見圖6~圖8。可知:①“評(píng)分”和“所屬醫(yī)院”之間的相關(guān)性很大,“評(píng)分”會(huì)隨著“所屬醫(yī)院”的改變而改變;②“評(píng)分”和“兩年內(nèi)該疾病得票”之間,整體上呈正相關(guān)趨勢(shì);③“評(píng)分”和“職稱”之間的相關(guān)性很小,“評(píng)分”基本不會(huì)隨著“職稱”的改變而改變;④“評(píng)分”和“圖文問診費(fèi)”之間,呈近似正態(tài)分布關(guān)系;⑤“評(píng)分”和“該疾病總票”之間,整體上呈正相關(guān)趨勢(shì);⑥“評(píng)分”和“電話咨詢費(fèi)”之間,呈近似正態(tài)分布關(guān)系;⑦“評(píng)分”和“近兩周答疑數(shù)”之間的相關(guān)性較小,“評(píng)分”在某水平線附近上下波動(dòng)。其中“評(píng)分”代表患者就醫(yī)體驗(yàn),“所屬醫(yī)院”代表醫(yī)生所屬醫(yī)院,“兩年內(nèi)該疾病得票”和“該疾病總票”代表醫(yī)生口碑,“職稱”代表醫(yī)生職稱,“圖文問診費(fèi)”和“電話咨詢費(fèi)”代表收費(fèi)標(biāo)準(zhǔn),“近兩周答疑數(shù)”代表醫(yī)生最近的回復(fù)率。

圖6 醫(yī)生口碑和評(píng)分間的關(guān)系

圖7 醫(yī)生職稱和評(píng)分間的關(guān)系

圖8 收費(fèi)標(biāo)準(zhǔn)和評(píng)分間的關(guān)系
通過對(duì)好大夫在線網(wǎng)站上的相關(guān)數(shù)據(jù)進(jìn)行分析發(fā)現(xiàn),影響患者就醫(yī)的因素主要包括:①該醫(yī)生所屬醫(yī)院在該疾病領(lǐng)域的專業(yè)性;②兩年內(nèi)該疾病得票數(shù);③該醫(yī)生的技術(shù)水平和服務(wù)態(tài)度;④醫(yī)生的收費(fèi)標(biāo)準(zhǔn)。醫(yī)生所屬醫(yī)院在該疾病領(lǐng)域的專業(yè)性越強(qiáng),兩年內(nèi)該疾病得票數(shù)越高,服務(wù)態(tài)度越好,收費(fèi)標(biāo)準(zhǔn)越合理,患者越傾向于選擇該醫(yī)生就診。當(dāng)醫(yī)生的收費(fèi)標(biāo)準(zhǔn)在200~400 元時(shí),患者對(duì)其評(píng)價(jià)最高。其中,醫(yī)生的服務(wù)態(tài)度對(duì)患者就醫(yī)體驗(yàn)的影響非常大,很大程度上決定了患者下次是否還會(huì)選擇該醫(yī)生。而在其他條件相同的情況下,患者對(duì)不同職稱醫(yī)生的評(píng)價(jià)基本相同,從側(cè)面說明了醫(yī)生的服務(wù)態(tài)度才是影響患者就醫(yī)體驗(yàn)的關(guān)鍵。
在線醫(yī)療網(wǎng)站可以將各個(gè)醫(yī)院按照在不同疾病領(lǐng)域的專業(yè)性進(jìn)行區(qū)分,有針對(duì)性地為患者進(jìn)行推薦。同時(shí)制定嚴(yán)格的獎(jiǎng)懲制度,對(duì)在同一疾病領(lǐng)域得票數(shù)高的醫(yī)生給予更多推薦和宣傳資源,對(duì)在同一疾病領(lǐng)域得票數(shù)低的醫(yī)生進(jìn)行限流。獎(jiǎng)勵(lì)服務(wù)態(tài)度好的醫(yī)生,懲罰服務(wù)態(tài)度差的醫(yī)生(情節(jié)嚴(yán)重者封號(hào))。通過激勵(lì)和約束平臺(tái)上的醫(yī)生,嚴(yán)格控制其收費(fèi)標(biāo)準(zhǔn),為患者提供更加優(yōu)質(zhì)的在線醫(yī)療服務(wù)。