〔摘 要〕文章介紹了一種新的適用于計算機的引文檢索和引文分析的方法——關系矩陣法,這種方法能更快速更方便地進行引文分析和引文檢索,并具有更強大的功能,例如計算文獻的耦合單位。
〔關鍵詞〕關系矩陣;引文索引;引文分析
DOI:10.3969/j.issn.1008-0821.2010.10.041
〔中圖分類號〕G254.36 〔文獻標識碼〕B 〔文章編號〕1008-0821(2010)10-0153-02
To compile Citation Index and Analyse Citation With Relationship MatrixWang Xiaofen1 Deng Dongning2 Zou Xiaoshun3 Xiao Xia1
(1.Library,Wuhan Sports University,Wuhan 430000,China;
2.Library,Zhongnan University of Economics and Law,Changsha 410000,China;
3.Library,Wuhan University of Science and Technology,Wuhan 430000,China)
〔Abstract〕The paper introduced the new algorithm of compiling citation index,it could be used in citation retrielval and citation analysis quicklier and conveniantlier.The algorithm also have more fuctions,such as counting the coupling number between papers.
〔Keywords〕relationship matrix;citation index;citation analysis
引文索引是從被引用文獻檢索引用文獻的索引(當然,我們也可以引用文獻檢索被引用文獻)。兩篇文獻具有引用與被引用的關系,那么它們的內容之間一般都具有某種聯系;在科技文獻中,這種聯系更加密切。另外,如果兩篇文獻引用了同一篇文獻,那么這兩篇文獻的內容或多或少也有聯系,不過這種聯系一般不像直接的引用和被引用關系那樣強烈。情報人員用這種聯系定量地描述文獻之間的相關關系:如果兩篇文獻共同引用了一篇文獻,稱這兩篇文獻具有一個“耦合單位”,耦合單位越多,說明兩篇文獻的相關性越強。美國的《科學引文索引》(SCI)和《社會科學引文索引》(SSCI)這兩種著名的引文索引正廣泛地應用于我國的學術界。
人們常常利用引文索引進行“滾雪球”式的檢索:從一篇文獻出發,找出引用它的所有文獻;再從檢索出的文獻出發,找出引用它們的所有文獻,……以此類推。這樣做雖然檢全率低,,但對于追溯一個科學家、一個課題產生的歷史淵源和學術思想的形成有著特殊的功用,因此引文索引正廣泛的應用于科學評價的領域。
顯然,所謂“滾雪球”式的檢索正是把引用與被引用關系當作一種傳遞關系來對待的,因此我們很自然地聯想到用關系矩陣來進行這種“滾雪球”式的檢索,因為用矩陣運算求間接的引用關系畢竟要方便得多。
首先介紹一下關系矩陣。
在一個有n個元素A1,A2,…,AN的集合Q中,如果任意兩個元素Ai,Aj之間具有R關系,那么我們可以用下面矩陣S表示它們之間的關系:
S=a11a12…a1n
a21a22…a2n
…………
an1an2…ann
令S中各元{aij=1,當Ai和Aj具有直接的R關系,
否則aij=0
則稱S為集合Q的R關系矩陣。
通過下面例子,我們可以發現用關系矩陣進行引文檢索可以非常方便快速地進行引文檢索,同時還可以得到一個副產品,就是兩篇文獻的耦合度很容易在關系矩陣中看出來。
例:已知文獻A被文獻B、C、I引用,文獻B被D、F引用,C被E、F、G、H、I引用,E被G、H、I引用,求:(1)與A相關的所有文獻;(2)A、B、C、D、E、F、G、H、I 9篇文獻中,哪兩篇文獻的耦合度最大(最小),因而它們的相關程度最大(最小)。
由A、B、C、D、E、F、G、H、I之間的被引用關系可列出它們的“被引用”關系矩陣S(當然也可列出“引用”關系矩陣),其中各元按各文獻發表時間的先后順序排列。
用關系矩陣編引文索引和進行引文分析Oct.,2010Vol.30 No.10
ABCDEFGHI
S=A
B
C
D
E
F
G
H
I011000001
000101000
000011111
000000000
000000111
000000000
000000000
000000000
000000000
由S,可以看出引用關系矩陣是上三角矩陣,因為引用文獻發表的時間一定遲于被引用文獻發表的時間。
由S+S2(S2=S×S,邏輯乘)可以看出,文獻A的引用相關文獻是B、C、D、E、F、G、H、I,因此我們要了解由A文獻產生的學術思想的發展狀況,可以從B、C、D、E、F、G、H、I等文獻中尋找線索。同樣,由S+S2可知C的引用相關文獻是E、F、G、H、I,E的引用相關文獻是G、H、I。
由S矩陣求任意兩篇文獻的耦合度顯然是很容易的。從左到右,S的行顯示的是“被引用”關系;因此從上到下,S的列顯示的就是“引用”關系。我們任意比較兩行(如i和k行)的第j個元(j=1,2,…,n),若有一對同時為1,就表示第i篇文獻和第i篇文獻有一個耦合單位,兩篇文獻的總的耦合單位A可由下面公式求得:
A=∑nj=1Si,j#8226;Sk,j,n是S的維數,即文獻的篇數。
在S矩陣中很容易求出A、B、C、D、E、F、G、H、I兩兩之間的耦合度。顯然G、H、I兩兩之間的耦合度最大,都是2,其次是F、G、D等,耦合度為1,最低的為0,即兩篇文獻沒有共同的引文。
如果把文獻-屬性相關矩陣C(見鄧珞華教授于《情報學報》2003年2期上發表的“概念空間——定義、意義與局限”一文)引進來,引文關系矩陣的功用就更多了:我們用引文關系矩陣S與文獻-屬性相關矩陣C相乘得到一個新矩陣R=SC,那么R(ij)=a就表示第i篇文獻的引文中有a篇是用第j個主題詞標引的。此外S與它的轉置矩陣S的乘積Z=S#8226;S的元Z(ij)表示第i篇文獻和第j篇文獻都引用了的文獻的數目,而S×S=Y的元Y(ij)則表示既引用了第i篇文獻又引用了第j篇文獻的文獻數目。
參考文獻
[1]鄧珞華.信息檢索系統數學模型的理論及其評價[J].大學圖書館學報,2002,(1):6-13.
[2]夏淑萍,鄧珞華.計算機信息檢索[M].武漢大學出版社,2005.
[3]鄧珞華.用矩陣編機內主題詞典[J].計算機與圖書館,1982,(2-3).
[4]G.Salton.Mathematics and information retrieval,Journal of Documentation,1979,35(1):1-29.
[5]鄧珞華.用關系矩陣顯示概念之間的關系[J].情報學報,1983,(1).
[6]鄧珞華,孫清蘭,范并思.圖書情報數學[M].長春:東北師范大學出版社,1983,(8).