, , ,
隨著生活水平的不斷提高,人們對疾病的關注逐漸轉變為對健康的關注。國內學者張馨遙認為,健康信息是指與健康有關的健康或疾病的知識、消息、數據、事實與資料[1]。
健康信息與公眾日常生活密切相關,公眾對其需求強烈,要求較高[2]。蘇格蘭鄧迪大學的學者Jeremy C Wyatt研究指出,用戶對健康信息合理有效的利用,有助于改善醫患關系,使醫生的決策與行動得到理解和支持[3]。
網絡時代,數據無處不在,越來越多的人開始利用網絡查詢與自身相關的醫學信息[4],而不必再通過新聞獲得過時的消息,不必再翻閱的厚重的紙質期刊來獲取相關信息[5]。但是面對海量網絡的信息資源,用戶如何才能夠快速、準確地獲取所需的健康信息又成為一個問題。
檢索工具是常用的信息檢索、獲取方式,通過采集、標引眾多的信息資源來提供全局性資源控制與檢索機制,方便用戶查找所需的信息。但是網絡資源檢索工具通常會給出大量的檢索結果,很難判斷其中有多少是與用戶所需主題相匹配的,因此人們越來越深刻地認識到對網絡資源進行準確描述與揭示的重要性。
目前的網絡資源絕大部分是HTML文檔,其中起到描述和揭示作用的是HTML文檔頭部的元數據標簽,通過這些標簽可以提高文件的易檢出性。一些研究調查了元數據標簽的使用情況及其在網頁資源描述中的重要性,建議更多的網絡資源檢索工具根據元數據標簽建立索引,提高資源的被檢出性。
一些英文搜索引擎(如Go,AltaVista和HotBot)聲明采用元數據標簽的網頁將優先被抓取并被排在檢索結果的前面。調查數據證實,在這些搜索引擎中,使用元數據標簽的網頁確實優先于未使用元數據標簽的網頁出現[6]。
本文選取Dublin Core中與檢索結果直接相關的題名(Title)、主題及關鍵詞(Subject and Keywords)和說明(Description)3項外部屬性描述項作為調查對象。其中Keywords和Description可提供關于網站內容的關鍵詞和描述片段,對檢索網絡資源比較關鍵,而且許多網絡資源檢索工具的抓取方式是直接從Title截詞。以上述3個標簽為調查對象,對4組健康信息網絡資源的描述進行調查,挖掘影響信息檢索質量的深層次原因,為提升網絡健康信息資源的描述質量提出建議,旨在改善用戶對健康信息的獲取效率及利用效果。
選取4組健康信息相關網站作為比較對象,通過查看其網頁的元數據標簽的使用狀況,對結果進行對比統計分析。
1.1.1 受試網站
根據2013年中國搜索引擎市場用戶訪問量份額數據[7]及百度數據中心2013年搜索引擎點擊量統計數據[8],選取以下網站作為研究對象:中文綜合性搜索引擎(百度、360好搜、搜狗)記為第1對照組(簡稱組1),英文綜合性搜索引擎(Google,Bing,Hotbot)記為第2對照組(簡稱組2),中文醫藥健康信息網站(39健康網、360良醫、好大夫在線)記為第3對照組(簡稱組3),英文醫藥健康信息網站(MedicineNet,Medscape,Medhunt記為第4對照組(簡稱組4)。
1.1.2 檢索詞
根據2013年生物醫藥行業的熱門關鍵詞數據[9],選取干細胞(stem cell)、H7N9、葛蘭素史克(GlaxoSmithKline)、轉基因(transgene)、霧霾(smog)作為檢索詞。
分別在4組12個網站主頁的檢索框中輸入檢索詞,在檢索結果頁面選取前10個有效網頁(不包括死鏈接、重復網頁、廣告推廣鏈接),共計中文網頁300個、英文網頁300個。
在瀏覽器選項菜單中選擇“工具”的“查看源代碼”,打開網頁源代碼,確定頭文件(HEAD)部分,查看Keywords、Description及Title標簽,根據檢索詞出現的情況賦予不同權重,沒有標簽或者標簽中沒有檢索詞記作0,標簽頁中出現部分檢索詞記作0,標簽頁中出現完整檢索詞記作1。
將4組調查對象的統計數據錄入Excel表格,應用SPSS 13.0進行整理和統計學分析,采用一般性統計描述和卡方(X2)檢驗,以P<0.05為差異有統計學意義。
組1的調查結果見表1。中文搜索引擎的Keywords標簽總分值82分,即描述完整的標簽82個,占54.67%;Title標簽的總分值139分,即描述完整的標簽139個,占92.67%;Description標簽的總分值95分,即描述完整的標簽95個,占63.33%。

表1 組1調查結果
組2的調查結果表2。英文搜索引擎的Keywords標簽的總分值64分,即描述完整的標簽僅64個,占42.67%;Title標簽的總分值125分,即描述完整的標簽125個,占83.33%;Description標簽的總分值67分,即描述完整的標簽67個,占44.67%。組1與組2元數據標簽使用情況對比見表3。

表2 組2調查結果

表3 組1和組2標簽使用情況對比
從表3可以看出,中英文搜索引擎的Title標簽使用情況均比較最好,中文搜索引擎的Keywords、Title、Description3個標簽的使用情況總體優于英文搜索引擎,差異具有統計學意義。
組3的調查結果見表4。中文醫藥健康信息網站的Keywords標簽總分值84分,即描述完整的標簽84個,占56%;Title標簽的總分值134分,即描述完整的標簽134個,占89.33%;Description標簽總分值116分,即描述完整的標簽116個,占77.33%。

表4 組3調查結果
組4的調查結果表5。英文醫藥健康信息網站Keywords標簽的總分值11分,即描述完整的標簽僅11個,占7.33%;Title標簽的總分值67分,即描述完整的標簽67個,占44.67%;Description標簽的總分值68分,即描述完整的標簽68個,占45.33%。組3與組4元數據標簽使用情況對比見表6。

表5 組4調查結果

表6 組3和組4標簽使用情況對比
表6可以看出,中英文醫藥健康信息網站Title標簽和Description標簽使用情況均比較好,但英文醫藥健康信息網站使用Keyword標簽的比例僅11%。總體上看,中文醫藥健康信息網站使用Keywords、Title、Description 3個標簽的情況優于英文醫藥健康信息網站,差異具有統計學意義。
通過2.1及2.2部分的調查結果,中文網站組1和組3的標簽使用情況優于英文網站組2和組4,Title標簽的使用狀況整體最優。相關研究表明,很多國際著名的搜索引擎并沒有完全支持“Meta Description”、“Meta Keywords”、“Meta Tag Refresh”等重要的元數據標簽,一些中文搜索引擎如新浪、搜狐、網易等也不支持這些元數據標簽[10]。
調查發現部分網頁存在標簽不完整的現象,組4中該情況相對較多,部分網頁標簽內容為空值,部分網頁標簽缺失。
相關研究表明,在搜索引擎新一輪的算法更新中,淡化了Meta標簽的Keywords和Description兩部分在排名因素中的權重[11]。這可能是一些網頁忽略Meta標簽質量的一個重要原因。
組1與組3元數據標簽使用情況對比情況詳見表7。

表7 組1和組3標簽使用情況對比
組1和組3中3個標簽的使用狀況整體上較好。從圖4可看出,組1的Title、Keyword 標簽使用情況優于組3,Description標簽的完整性組3優于組1。從表7可看出,Title標簽和Description標簽的差異具有統計學意義,Keywords標簽的差異不具有統計學意義。
組2與組4元數據標簽使用情況對比見表8。

表8 組2和組4元數據標簽使用情況對比
通過表8可以看出,組2的Keyword標簽和Title標簽完整性明顯優于組4。表7中這兩項統計分析結果P<0.05,差異具有統計學意義;Description標簽,P>0.05,差異無統計學意義。
從2.4及2.5部分的調查結果,組1和組3綜合類搜索引擎網站的標簽使用狀況整體上優于醫藥健康信息資源網站組2和組4。這可能是由于醫藥概念所具有的獨特的多樣性所致,簡單地說,它的形式包括主題詞、副主題詞、類名、款目詞、自由詞等多種專業及非專業類型。也就是說可能是由于在檢索時使用的詞匯形式與Meta標簽中標引的形式不同,導致了醫藥健康信息資源網站的得分偏低。在對健康信息資源進行描述過程中,使用的概念形式不同必定會影響到信息資源被用戶獲取和利用的效果。
通過對中英文搜索引擎、醫藥健康信息資源網站使用標簽情況進行對比分析,下面針對發現的問題提出建議。
完善Meta標簽并不是為了提升網頁在檢索列表中的排名,從商業的角度來說,“排名并不代表一切,流量和轉換是首要目標”[12]。從用戶的檢索行為看,用戶是通過瀏覽檢索結果列表中每個頁面的描述信息來確定是否點擊進入繼續瀏覽。
絕大多數搜索引擎顯示150個左右字符的Meta描述標簽,向用戶傳遞該網站包含的信息。Meta標簽是評定網頁質量的一個重要的因素。加強Meta描述標簽的完善,檢索結果列表中的描述信息能夠準確全面地概括出網頁及網站的內容信息,使用戶可以更快更準確地獲取所需信息,這才是最重要的目的。
醫藥概念表達形式的多樣性,導致了醫藥信息資源組織的復雜性。一些知名的醫藥專業數據庫為提高查全率和查準率,使用受控詞表對數據庫資源進行組織和標引,可以避免詞的多樣性對檢索效率的影響。但對于數量龐大的網絡信息資源來說,這種標引幾乎是不可能的。
本文調查網站的用戶有很大一部分并非醫學專業人員,對健康詞匯熟悉程度有限[13]。因此,在使用元數據標簽對健康信息網絡資源進行描述的過程中,對于醫藥概念表達形式的選擇,應盡量從非專業背景的用戶角度出發,選擇常用的自由詞形式,增加網頁文本的可讀性。如網頁的Title標簽內容為“抗壞血酸的副作用”,那么“Keywords”及“Description”應該使用“維生素C”、“VC”或“維他命C”等被用戶廣泛使用的自由詞形式來進行標引。
由于受網站選取、檢索詞選取等方面的影響,同時涉及賦值原則的設定及語種差異等方面的作用,文中對健康信息網絡資源描述的調查分析具有一定的局限性,在后續的研究中將進一步改進和完善。