張寧昳
(浙江傳媒學院 浙江杭州 310018)
個性化推薦系統(tǒng)在Web2.0時代成為一種很好的挖掘“暗文本”進行信息篩選的解決方案,這種解決方案越來越普遍的使用在目前的網絡現(xiàn)實中。Amazon、Google和IBM等互聯(lián)網應用服務商都已將這種個性化推薦系統(tǒng)融入到了自己的產品當中,也為這種個性化推薦系統(tǒng)的數(shù)據底層積累了越來越多的海量文本。個性化推薦系統(tǒng)輸出文本的組織結構是個性化推薦系統(tǒng)交付給用戶成果的最直接,也是最直觀的方式之一。文本的組織結構在一定程度上決定著人們是如何獲得這些文本的,將怎樣定位這些獲得文本的優(yōu)先級,甚至影響到人從文本中獲得的知識在腦中的組織結構。個性化推薦系統(tǒng)通過輸出的推薦文本間存在著怎樣的文本組織結構成為一個值得認真探究的問題。
Amazon是世界上最大的網上商店,其ALEX排名位列全球第八。每天有上千萬本圖書在Amazon被交易。Amazon有相當久遠的文本個性化推薦系統(tǒng)開發(fā)使用歷史,1997 年,Amazon的創(chuàng)始人杰夫·貝索斯(Jeff Bezos)決定開始嘗試根據客戶以前的購物喜好為其推薦具體的書籍。在此之前,個性化推薦系統(tǒng)才剛剛在1995年被提出,當時還只是一個實驗室理論級別的概念,而其它的互聯(lián)網公司則是直至2001年才開始在他們的服務中加入了個性化推薦系統(tǒng),如,2001年,IBM電子商務平臺Websphere中增加了個性化功能推薦功能;2007年,Google才在其AdWords添加了個性化推薦功能,雅虎推出了個性化推薦廣告方案 SmartAds;2009 年,美國著名的網上零售商Overstock才開始使用個性化推薦功能。由此可以看出1997年進入個性化推薦系統(tǒng)開發(fā)的Amazon可謂是這個領域的先驅了。
Amazon個性化推薦系統(tǒng)的發(fā)展史也可以說推動了個性化推薦系統(tǒng)的發(fā)展,Amazon最早的系統(tǒng)采用了準確度非常低的原始統(tǒng)計方法來處理大量的客戶數(shù)據,并以此為依據進行商品推薦,直至1998年,Amazon申請“item-to-item”協(xié)同過濾技術,并將這種技術在Amazon中推廣使用才使得個性化推薦系統(tǒng)變的開始完善起來?,F(xiàn)在,經過了很多的改進的Amazon推薦系統(tǒng)是目前運用最成功的推薦系統(tǒng)之一,Amazon2012年報顯示,其將近30%的圖書銷售量源自個性化推薦系統(tǒng)。Amazon個性化推薦系統(tǒng)中被相關關系連接起來的主要是文本,16年的發(fā)展也沉淀積累了海量的文本和相關信息,相關關系和文本組織結構也相對穩(wěn)定而成熟。
本文選擇Amazon的書籍個性化推薦系統(tǒng)作為主要的數(shù)據來源,對自然科學、人文社科兩個學科分類標準大類中的487個相關性聯(lián)接的文本樣本進行了統(tǒng)計分析。為了方便本研究的數(shù)據總結和分析,本文對所收集的數(shù)據進行了四層數(shù)據結構模型,即:
(1)一層:數(shù)據起始層,五個學科大類每個大類各隨機選取兩個文本作為起始數(shù)據;
(2)二層:一層文本經過個性化推薦系統(tǒng)推薦而得的文本集合;
(3)三層:由二層文本經個性化推薦系統(tǒng)推薦而得的文本集合;
(4)四層:由三層文本經過個性化推薦系統(tǒng)推薦而得的文本合集。
2.2.1 雙向可逆性的文本組織結構聯(lián)結方式
在數(shù)據分析的過程中,一個典型的個案引起了我們的注意,在對一層起始數(shù)據《大數(shù)據時代》及其二三層數(shù)據進行分析的過程中,研究者注意到這樣一個現(xiàn)象,一層數(shù)據《大數(shù)據時代》經過個性化推薦系統(tǒng)推薦了我們的二層推薦文本之一《第三次工業(yè)革命:新經濟模式如何改變世界 》。當研究者進一步觀察由《第三次工業(yè)革命:新經濟模式如何改變世界 》經推薦系統(tǒng)推薦的文本時,發(fā)現(xiàn)其中第一位的推薦文本就是《大數(shù)據時代》。經過個性化推薦系統(tǒng)組織的文本之間存在一種回歸現(xiàn)象,即從一個文本起始經過兩次上文本推薦,輸出的推薦結果中包含了起始文本。
為了研究這種現(xiàn)象,我們從總量為214個文本的二層數(shù)據中隨機抽取了40個文本進行調查,其中有36個文本出現(xiàn)了這種回歸現(xiàn)象,占到了總數(shù)的百分之九十。高達百分之九十的回歸現(xiàn)象發(fā)生率表現(xiàn)出了回歸現(xiàn)象在由個性化推薦系統(tǒng)聯(lián)系起來的文本之間。將這種組織結構直接可視化之后可以得到一個環(huán)狀的組織機構,但進一步歸納內在的邏輯我們能夠得到雙向可逆的組織結構(見圖1),而這種普遍存在的回歸現(xiàn)象起始,可認為是個性化推薦系統(tǒng)下文本的雙向可逆的組織結構聯(lián)結方式的外在表現(xiàn)。

圖1 回歸現(xiàn)象的可視化歸納示意圖
從推薦輸出的文本是否對使用者提供使用價值而言,雙向可逆文本在第二次經過個性化推薦系統(tǒng)推薦的過程中產生了重復性的無效信息。簡而言之,就是以A作起始文本,該文本經過個性化推薦系統(tǒng)的推薦輸出推薦文本B,推薦文本B經過個性化推薦系統(tǒng)推薦輸出結果為A的文本。此時的A文本對于基于B的文本推薦的結果就是一個重復性的無效信息。
這一冗余信息廣泛的分布在整個個性化推薦系統(tǒng)的每條推薦結果中,這種重復性的信息其實有很高的相關關系,但是對于個性化推薦系統(tǒng)的使用者而言還是太過機械,也許這是日后個性化推薦系統(tǒng)往更加智能精確方向改進、發(fā)展的一個突破口。
2.2.2 網狀的文本間組織結構
進一步擴展上述的回歸性研究的范圍,隨機的從214個二層文本中抽取24個文本,研究一個起始文本經過三次及以上的個性化推薦系統(tǒng)推薦,每次推薦輸出的結果。出現(xiàn)了一個有趣的現(xiàn)象。如,一層起始文本為《果殼中的宇宙》,經個性化推薦系統(tǒng),二層文本出現(xiàn)《相對論》,經個性化推薦系統(tǒng)再推薦,三層文本出現(xiàn)《物種起源》,再經系統(tǒng)推薦,四層文本中出現(xiàn)《果殼中的宇宙》,即為一層起始文本。在隨機選取的24個文本中,經過5次個性化推薦系統(tǒng)推薦后文本出現(xiàn)回歸現(xiàn)象的有16個,占到了總數(shù)的66.7%。
隨機抽樣顯示這種多邊形的文本組織結構廣泛的存在于個性化推薦系統(tǒng)輸出的文本中,且由于各個起始文本在個性化推薦系統(tǒng)推薦結構輸出的時候往往輸出不止一個結果,由此為每個多邊形的“節(jié)點”——文本提供了接向其他多邊形的接口。由于這種單個的多邊形結構可以疊加,而通過疊加后的個性化推薦系統(tǒng)輸出的文本間就呈現(xiàn)出了一種網狀的組織結構(見圖2)。

圖2 網狀文本組織結構疊加效果圖(局部)
2.3.1 文本學科間橫向組織結構緊密
不同學科的起始文本經過個性化推薦系統(tǒng)文本推薦后,輸出的文本學科門類傾向于和不同學科的文本在組織結構上建立起聯(lián)系,這種現(xiàn)象在所有的統(tǒng)計樣本中都有體現(xiàn),如,天文學的起始文本,系統(tǒng)推薦后有物理學、文學、歷史學、數(shù)學、生物學、哲學、力學、系統(tǒng)學及經濟學;以物理學為起始文本的系統(tǒng)推薦結果有天文學、物理學、文學、歷史學、數(shù)學、生物學、哲學、力學、心理學、林學和經濟學。比較突出的是天文學文本,其不光與自然科學領域的物理學、生物學、化學、力學等學科有著緊密關聯(lián),還與人文學科中的歷史學、文學、哲學、經濟學文本建立起了組織機構上的聯(lián)系。這種組織上的聯(lián)系使得單文本在組織結構中的獨立性得到了很大的提升,不需要依附于原有的學科分類組織結構形式。
2.3.2 層級間文本內容具有相對沿承關系
天文學起始文本經過一次個性化推薦系統(tǒng)推薦輸出的推薦文本共有50個,其中天文學文本13個、物理學文本12個、文學文本6個、數(shù)學文本5個、歷史學文本4個、生物學文本3個、哲學文本2個、力學文本2個、化學文本1個、系統(tǒng)科學文本1個、經濟學文本1個。按照比例劃分:天文學文本占推薦文本總數(shù)的26%、物理學文本占24%、文學文本占12%、數(shù)學文本占到10%、歷史學文本占8%、生物學文本占6%、哲學文本占4%、力學文本占4%、化學、系統(tǒng)科學、經濟學文本各占2%。
天文學起始文本經過一次個性化推薦系統(tǒng)推薦輸出的推薦文本共有38個,其中天文學文本6個、物理學文本10個、文學文本7個、數(shù)學文本2個、歷史學文本4個、生物學文本1個、哲學文本1個、力學文本1個、心理學1個、林學2個。按照比例劃分:天文學文本占推薦文本總數(shù)的15%、物理學文本占26%、文學文本占18%、數(shù)學文本占到5%、歷史學文本占10%、生物學、哲學、心理學文本各占3%、林學文本占5%。
可見,天文學起始文本經過個性化推薦系統(tǒng)推薦所得的文本中同為天文學的文本占到了最大的比重為26%,物理學為其實文本經過個性化推薦系統(tǒng)所得的文本中物理學文本占到的比重最大為26%。在人文學科這種沿承關系更加明顯,以文學為起始文本經過一次個性化推薦系統(tǒng)推薦輸出的文本學科統(tǒng)計表達到了80%。
2.3.3 文本組織結構更加開放
經過追蹤8組文本個性化推薦系統(tǒng)推薦后輸出的文本在3天內的變化情況,一一對比三天前和三天后8組文本經過個性化推薦系統(tǒng)輸出的文本,筆者得到了如下數(shù)據:1組文本的個性化推薦內容中出現(xiàn)了從前未出現(xiàn)過的新增文本內容。從統(tǒng)計學上來說這是一個非常不起眼的樣本量,可這個新增文本內容展現(xiàn)了開放的文本組織結構特征。
這從個性化推薦系統(tǒng)的原理上也可以得到證明,個性化信息系統(tǒng)通過相關關系來進行推薦,而這種相關關系是通過使用者行為建立起來的,使用者行為是一個動態(tài)的過程,這個過程適應著不斷出現(xiàn)的新文本。新的文本也在這個動態(tài)的過程中被與原有的文本建立起相關關系,并因為這種相關關系被納入系統(tǒng)當中。
2.3.4 文本組織結構相對穩(wěn)定
進一步研究8組文本個性化推薦系統(tǒng)推薦后輸出的文本在3天內的變化情況,筆者發(fā)現(xiàn)每組數(shù)據中個性化推薦系統(tǒng)輸出的文本在排序上每次都與上次略有不同。但其中七組經過推薦后的文本內容沒有發(fā)生改變。簡而言之,個性化推薦系統(tǒng)輸出的推薦文本結果只是在排序上發(fā)生了改變,而具體文本沒有發(fā)生太大的變化。體現(xiàn)出個性化推薦系統(tǒng)輸出的文本結構上具有相對的穩(wěn)定性。
Amazon的文本組織結構幫助文本的接受者建立文本間關系的初步認識,是一種最直接最直觀的接觸個性化推薦系統(tǒng)交付給我們成果的方式之一。文本的組織結構在一定程度上決定著人們是如何獲得這些文本的,將怎樣定位這些獲得文本的優(yōu)先級,甚至影響到人們從文本中獲得的知識在腦中的組織結構。這種組織結構特點對目前已開展大量個性化服務的圖書館而言,具有一定的啟示作用。
從以上可以看出,由于個性化推薦系統(tǒng)的影響,Amazon輸出的文本的組織結構學科橫向間的關系非常的緊密,這意味著從前相互關系松散的學科間的聯(lián)系也變的緊密起來。因此,用戶從一個學科的起始文本引向另一個嶄新學科的文本的步長變的相對較短。如從《量子世界:寫給所有人的量子物理》這個物理學的文本出發(fā)到獲得一個《三體》這個文學文本需要經過的途徑變的非常的短,只需要通過兩次或更少次數(shù)的信息篩選。對圖書館來說,一方面,學科間的緊密聯(lián)系,使得圖書館的信息資源相互間的聯(lián)系也進一步緊密,如何根據個性化推薦實現(xiàn)資源的導購、實現(xiàn)資源的緊密一體化,以為用戶特別是需要專業(yè)化信息的用戶提供基于用戶學科文本知識需求的知識推薦服務,將是資源建設中無法避免的一大問題。另一方面,跨學科資源獲取的路徑變短,將為圖書館的信息服務人員,特別是為用戶提供信息服務的書目推薦人員、信息咨詢館員、學科館員等提出了挑戰(zhàn),合理配置館員的學科背景,通過培訓等教育手段實現(xiàn)館員學科知識的均衡化與合理化,以為用戶提供所需的跨學科資源信息,也必將成為未來圖書館館員建設的一大考慮因素。
個性化推薦系統(tǒng)在表述上從來不強化其影響下內在的文本內容組織結構關系,個性化推薦系統(tǒng)輸出推薦文本的時候,表述上一般使用“其他的用戶也購買了”、“猜你喜歡”等類似說法。這些說法有很弱的組織結構關系、邏輯關系,使得原始文本和被推薦文本之間很難快速的在人腦中被組織進原有的知識體系。這種注重推薦輸出文本結構而不重視推薦文本推薦原因和內在邏輯的文本獲得習慣日益養(yǎng)成,弱化了人們對文本間邏輯組織,結構組織的需要,呈現(xiàn)出弱化邏輯關系的特征。這些信息獲取習慣的養(yǎng)成,也將影響到民眾到圖書館獲取信息的行為和需求,圖書館傳統(tǒng)的編目、分類可能對用戶來說他們并不掌握,甚至都不曾在資源的檢索中應用,進一步弱化圖書館所藏文獻文本間的學科關系。Worlcat等一站式資源發(fā)現(xiàn)服務系統(tǒng)的應用,已說明圖書館注意到了用戶的這些需求,進而通過資源的知識關聯(lián)去實現(xiàn)圖書館的資源組織、資源檢索與資源提供方式。圖書館只有實現(xiàn)資源的語義開發(fā)與數(shù)據關聯(lián),通過知識的關聯(lián)去建立館藏資源、網絡資源與共享資源的組織結構,進而為用戶提供基于知識組織的知識服務,才有可能保持社會信息存儲中心、服務中心的社會地位。
海量的數(shù)據使得人力的篩選變的有點力不從心,于是信息篩選從復雜的計算法和數(shù)據模型中找到信息篩選的捷徑。兩個典型的例子就是美國的《郝芬頓郵報》和《高客網》在采編新聞時通常將數(shù)據作為重要的參考因素,而非編輯的新聞敏感度。這種趨勢意味著人力在海量信息的沖擊下有時已經無力承擔守門人的角色,開始向算法和數(shù)學模型尋求解決方案。這意味著守門人的權利開始下放給算法。信息篩選原則被革新。個性化推薦系統(tǒng)是一種基于海量數(shù)據模型和復雜算法的信息篩選系統(tǒng),它與它具有同類性質的數(shù)據系統(tǒng)的使用正在一點點改變信息篩選的原則。而圖書館目前提供的個性化推薦服務,還并未真正達到完全的智能化與系統(tǒng)化,根據用戶的信息定制,通過E-mail、RSS等途徑或技術來實現(xiàn)是圖書館個性化服務的主要實現(xiàn)方式,而這些方式明顯遠遠落后于Amazon長期堅持的計算機智能化管理平臺,因為這種管理平臺一方面可以積累大量的文本數(shù)據、用戶習慣等大量的結構化數(shù)據與非結構化數(shù)據,同時還可以通過算法及文本關聯(lián)模型的改進來實現(xiàn)對個性化服務的效果提升。
個性化推薦系統(tǒng)是一種基于海量數(shù)據和計算機算法的信息篩選方式,并在文本選擇與提取領域得到了廣泛利用,盡管如本文選取的Amazon個性化推薦系統(tǒng)經過了十余年的發(fā)展與改進,已具有了廣泛的成功實踐經驗,但隨著社會計算機技術的發(fā)展與用戶信息行為的變化,個性化推薦系統(tǒng)還將進一步得到發(fā)展,并在文本的組織結構等方面表現(xiàn)出新的特征。圖書館界需注意到這些個性化推薦系統(tǒng)所表現(xiàn)出的特征,以改進自己的個性化推薦系統(tǒng),并通過對這些互聯(lián)網企業(yè)的個性化推薦系統(tǒng)特征的分析,去提升、改變自己的館藏建設、人才建設與服務建設,進而推動圖書館事業(yè)的發(fā)展。
[1]Web2.0 時代我們需要什么樣的閱讀 [EB/OL].[2012-06-29].http://www.bookdao.com/article/41363/?type=98.
[2]劉友林.基于網絡結構的個性化推薦系統(tǒng)的研究[D].上海:東華大學2012年碩士畢業(yè)論文,2012.
[3]Amazon[EB/OL].[2012-06-29].http://www.amazon.cn/.
[4]從亞馬遜公司的發(fā)展看電子商務[EB/OL].[2012-06-29].http://www.360doc.com/content/08/1231/12/43201_2233494.shtml.
[5]Alysis全面支持 IBM WebSphere電子商務平臺[EB/OL].[2012-06-29].http://news.chinabyte.com/240/1247740.shtml.
[6]谷歌AdWords添加關鍵字搜索 可看月搜索頻率 [EB/OL].[2012-06-29].http://news.ccidnet.com/art/1032/20080711/1503165_1.html.
[7]雅虎推SmartAds定制工具提高網絡廣告競爭能力[EB/OL].[2012-06-29].http://www.cnetnews.com.cn/2007/0703/415547.shtml.
[8]話說精準營銷[EB/OL].[2012-06-29].http://www.a-wa ys.cn/news/content-30.html.
[9]亞馬遜公司(Amazon):世界上銷售量最大的網上書店[EB/OL].[2012-06-29].http://wiki.mbalib.com/wiki/AMAZON.