●楊 威 (武漢軟件工程職業學院 軟件技術系,武漢 430205)
電子圖書館具有占地小,容量大,維護方便,占用人工少,易管理等諸多優點,其成本也因此而很低。但即便如此,成本問題還是不能完全不考慮。例如圖書館所能容納的圖書總容量是有上限的(倉位問題),每本電子書的版稅是按查閱次數計算的(版稅計算問題),引入一本書的起始資金(初始投入問題)等。在圖書的引進和管理工作中,時常需要進行這樣一類決策:在一定的倉位、初始投入、維護人員限制下,引進哪幾種圖書?拷貝引進量為多少?當圖書引進來之后,在管理過程中還要遇到:在人員一定、服務器數量一定、運轉維護資金一定的條件下,每個服務器配備多少個拷貝、多少管理人員,才能獲得最大的收益?尤其是每本書的查閱數量并不是正態分布的,無法通過計算得出精確的數值,而只能對其進行基于歷史數量的預測。也就是說,整個優化的決策過程實際上是具有博弈性質的。在這種情況之下,又該如何作出最優化決策?
雖然現代存儲方式已經做到了占地面積小,海量存儲,但是畢竟做不到無限存儲。另一方面,由于載體的現代化,與傳統的紙質媒介相比,電子圖書館承載的資料也呈多元化趨勢。即使是普通文字資料,為了適應研究需求,也不能僅錄入其文本部分。
2.1.1 傳統書籍電子版的空間占用問題
傳統圖書館的館藏絕大多數都是書籍、字畫等資料,當中的文字部分可以文本形式存儲,磁盤占用很小。但是對于各種研究者而言,往往還需要文字以外的信息,尤其是古籍研究,很多時候涉及到字體研究、題跋、批注、紙質、版本演繹等方面,這就需要采用高清掃描件電子書,而這種格式的電子書的容量非常可觀。目前的專業掃描儀一般都能達到19200線水平,幾乎可以算纖毫必現,但是其文件也非常巨大,一本書的容量都在幾十G。而一本58頁的《模型世界》普清掃描版,一般僅需要60多M。假設某電子圖書館80萬冊藏書全是普清掃描版,平均每本書150頁,全部裝下則需要約117188G容量的硬盤,使用目前市面上流行的1T硬盤需要145塊。這還僅僅是將書裝入,沒有擴展余地。此外圖書館必須能提供連續完整的服務,一般還需要做RAID鏡像,于是需要額外再加上145塊1T硬盤。以上僅僅只考慮到普清版本,一個好的圖書館,肯定會有相當數量的高清、超高清書籍,如果再考慮到為可持續發展所預留的空間,顯然290塊硬盤是遠遠不夠的。
2.1.2 多媒體文件的空間占用問題
多媒體文件除了有的非常巨大,還有一個特點就是大小不均勻。有幾十G的電影,也有幾K的小文件。限于現在的電腦技術,存放大文件的磁盤的格式有限,一般好的管理方法應該是將大小差不多的文件存放在一處,然后通過索引技術對其進行邏輯分類。但圖書館管理中一般卻是以內容為基本分類依據。這個問題在讀者方面雖然可以通過電子索引技術解決,但是對于管理員卻并不方便。一個存放4G左右文件的磁盤可能含有電子書、音頻、程序標本等。一旦此硬盤被移動或由于物理原因掛起,則會影響到這些文件各自所在的邏輯群。
電子圖書館引入一本書的成本是很復雜的,這首先應該歸咎于目前電子出版物的知識產權保護相關法律法規尚處于起步階段這一事實。電子在線閱讀作為一種新興傳媒有其特殊性。
對于傳統紙質圖書,一般稿費的計算有幾種模式,如按字數付費、版稅制等。具體的模式和比例由作者和出版商協商。由于紙質圖書的碼洋是一個實體,因此比較好計算稿費。而電子圖書因為文件可以復制,所以管理一直是個大問題。目前世界上還沒有一個比較好的方法能實施完全版權保護。電子圖書館由于是借閱經營,因此一般都采取會員制度和有效期制度,按照不同級別的會員身份在規定的時間內給予其不同的借閱權限,并依次或計時收費。
由于網絡出版物傳播速度遠遠高于傳統媒體,因此出版時對于作品字數等要求則會更高一些。一般來說10萬字以上才有可能簽約出版,也才有可能進入圖書館的收藏范圍。圖書館為了保證其書籍的合法性并兼顧可操作性,一般會和出版社簽訂買斷協議,即付出一定費用,獲得書籍的出借權(具體的協議會在操作中有所不同),這是目前最流行、也是最合理的做法。這個買斷的費用,也就是引入成本。
維持成本包括人工費用、設備維護費用、場地維護費用等。人工費用主要是付給工作人員的傭金,設備維護費用包括了設備維修、升級、擴展、耗材等方面,而場地費用則是由地租、場地修繕等費用組成。
一般來說,圖書館是公益性質的,由政府撥付資金和場地。但是電子圖書館現在很多是由私人企業構建,有營利性,因此會收取讀者的費用。在核算成本時,一般都把維護成本折算成時間軸上的一個常量以便于計算。
線性規劃是運籌學中十分常用的一種方法,但普通線性規劃并不能滿足電子圖書館的需求,因為普通線性規劃存在以下幾點問題:(1)所謂線性規律,其反映的模型是靜止的,即約束條件是靜止的,不隨時間和環境而變化。這就是很多決策過程中雖然應用了普通線性規劃仍然導致失敗的根本原因。(2)即使時間和環境并不影響約束方程,但是約束方程中含有灰數,則普通線性規劃方法就無法處理這些情況,只能導致失敗的結果。(3)雖然定義在凸集上的凸函數理論有解,但在實際工程應用中由于模型的不同而導致的計算技巧、技術存在巨大差異,因此并不是每一個凸函數都一定能將求解過程完成,從而使耗費大量人力物力構建的模型失去其應用價值。
正是由于普通線性規劃存在以上這些問題,使其實用性大大降低,只能作為一種理論指導,所以本文試圖引入灰色線性規劃中的預測型線性規劃。
選擇預測型線性規劃而不是漂移型線性規劃的原因是基于對圖書館這一行業的特殊性考慮:讀者的借閱種類是多樣化的,且其興趣會隨時發生改變,但是不同的行業、教育背景、地域的讀者,其借閱趨勢又是可統計并預測的。所以預測型線性規劃能更好地適應圖書館文獻資源優化工作。
預測型線性規劃解決的是這樣一類問題,如有矩陣約束:
AX≤b,其中A為系數矩陣,X為決策變量,b為約束值。如果b是以時間序列進行描述,則可以對b建立GM(1,1) 模型。這個模型就可以用來對約束值的發展變化進行預測。當對沒有發生的約束值進行線性規劃求解,則一組約束值就對應一組線性規劃解,也就是決策需要的依據。
下面將以一個實例,簡單介紹將預測型線性規劃法在電子圖書引入策略上的應用。
環境說明:某圖書館經商議,決定2010年引入兩本書B1和B2。其中,B1每個拷貝需4元,B2每個拷貝需5元;B1有多種不同文件格式,每個拷貝占用磁盤1—9G不等,B2每個拷貝占用磁盤4G。每年人力成本平均到每個拷貝上,B1為3個單位,B2為10個單位。B1每個拷貝預計能產生700元效益,B2每個拷貝預計能產生1200元效益。現在該圖書館有倉位360G,人力資源300個單位,其前4年在引入同類兩本書的初始成本見表:

表 初始成本序列
現在需要規劃2010年對于B1和B2兩本書的引入策略,使圖書館的收益達到最大化。
這個問題是一個最簡單的實例,顯然一個圖書館每年引入的圖書不會只有兩本,這個例子只是為了向讀者說明規劃的方法。引入更多的書籍拷貝只需要在這個基礎上加以遞歸即可。將目標收益以100元為單位以便于閱讀,設f為兩種書最后產生的總收入,則:
f=7B 1+12B 2
由上可知,影響決策的約束條件有4項:倉位、人力資源、拷貝引入成本和對每年初始成本的預測。上表可以對每年的初始成本進行灰色預測。倉位約束可以寫成:○B 1+4B 2≤360;人力資源約束可以寫成:3B 1+10B 2≤300;而拷貝引入成本約束則可以寫成:4B 1+5B 2≤b(0),其中,○∈[1,9]。
顯然,第一步要做的就是預測2010年在這兩本書上的預算值b(0)。這在上表中已有,記做b(0)。對 b(0)做AGO可得b(1)。然后建立GM(1,1) 模型,得約束值 預 測 模 型 為 :b(1)(k+1)=3829.125e0.0442k-3661.125。于是可以得到2010年的預算預測值:b(0)=197.95717≈198(元)。
這個值就是通過灰色理論預測的,帶有不確定性。接下來在倉位約束條件中取○~=9,即最大值(每個拷貝占用最大空間)。于是倉位約束就可以表述為9B1+4B2≤360。到此為止進入灰色系統,上述不等式實際上都是灰色的,如拷貝引入成本就沒有能表明精確的引入成本,僅僅只是一個通過預測函數得到的上限。顯然需要加入松弛變量,從而上述不等式可化為等式:
9B1+4B2+B3=360……①
3B1+10B2+B4=300……②
4B1+5B2+B5=198……③
為了求得f=7B1+12B2的最大值,應增加式中系數較大的決策變量(這里為B2)。根據上面3個不等式可知,在B1≥0條件下,當不考慮B1時,B2滿足約束條件,則此時得到的B2肯定為最大值。于是令B1=0,根據上述3個不等式分別可得:
B2≤90;B2≤30;B2≤39.6。顯然只有 B2≤30同時滿足3個不等式。而B2≤30對應的關系式為3B1+10B2+B4=300,可得B2=30-0.3B1-0.1B4。帶入到其他約束方程中可得:
B3=240-7.8B1+0.4B2;B5=48-2.5B1+0.5B4;f=360+3.4B1-1.2B4
我們的任務就是使f盡量大,所以應該增大B1。B1有約束條件,例如上面的B2表達式。由于B2是松弛變量,是灰數,且B4≥0,于是可得:0.3B1+B2≤30。為了使B1盡可能大,于是令B2=0,于是有B1≤100。又根據B3=240-7.8B1+0.4B2可知:B3≥0.4B4。將這個B3-0.4B4看成松弛變量,則最大可能的B1就滿足7.8B1≤240,即 B1≤30.76。
這里要說明的是,雖然B3和B4都沒有確定,但是我們仍然可以假設B3≥0.4B4,然后在最后的決策中去驗證。事實上,B3=B4=0是最優解(當然滿足B3≥0.4B4),下面將會看到。
再次考慮B1的約束方程,根據B5=48-2.5B1+0.5 B4,仍然假設B5≥0.4B4,可得B1≤19.2。再將這個條件帶入到表達式中,可得f=425.28-0.52B4-1.36B5。顯然B4=B5=0可使f最大。在B4=B5=0的條件下,B1=19.2,B2=24.24。
于是可得結論:2010年的B1和B2的初始預算為198元,在這個前提下,最優決策為B1購入拷貝19.2個,B2購入拷貝24.24個。因為拷貝數量為正整數,所以可取B1=19,B2=24。當然也可根據其他因素考慮,各增加1個拷貝。而最大收益則為f=425.28(百元) =42528元。
因為B4=0,所以說明人力成本得到充分利用,沒有浪費。又由于B5=0,則說明每個拷貝的引入成本都產生了價值。但是如果將B1=19.2,B2=24.24代入倉位的約束方程,則有:
9B1+4B2=269.76<360(G)
這說明還有磁盤空間沒有用完。這其實是一件好事,多余的空間可以劃給其他書籍儲藏使用。
從上面的結果看的出來,當每個拷貝的價格增加的時候,應允許B1增大,而B2減小。不過總收益確實是隨拷貝單價一起上漲的。
這個例子圓滿解決了本文預設的問題,但畢竟是一個簡化模型,還有很多約束條件沒有涉及到。例如前面提到過的文件大小分類等。而且出于簡明目的只考慮了兩本書的情況,而實際上很多圖書館一年的進出數量都是上萬冊,那時只能依靠計算機對約束矩陣進行計算。約束矩陣的列法及解法與本論文并無二致,可直接使用。
本文所使用的方法在沒有過多人為干擾情況下能很好的完成規劃任務。但需要注意的是:方法是死的,情況是多變的。約束條件列得再詳細,也可能還是會被具體發展中的變數所擊敗,從而無法達到預期目標。預測型線性規劃本身就是灰色的,可以作為參考,但不能作為絕對的決策依據。預測型線性規劃模型的最大優勢在于可以根據已有條件對未來的不確定作出一個最穩妥的預測,但其在電子圖書館的文獻資源優化中也有局限性:首先,預測型線性規劃作出的決策都偏向保守。這是因為其決策依據是建立在對已有數據的線性分析上的,是通過對已有數據的發展趨勢來預測未來時刻的情況,然后再將這種預測值作為已知量代入,從而最終決策。但事物的發展趨勢未必總是線性的,采用這種方法得出的結果和實際情況還是會有一定的誤差,有時甚至會偏離實際曲線很多,造成決策失誤。其次,預測型線性規劃在分析初期所需要的約束條件越多則決策越精確,成功率越高。但對約束條件本身的分析會加大決策難度。簡單來說,事先考慮越細,則約束條件越多,相對應的分析量和計算量則會呈幾何級數上升。雖然現在有計算機作為輔助工具,但根據約束條件編制程序的過程本身的難度,已經遠遠高于計算本身。于是就形成了一個悖論:分析越細則決策越難得出,分析越粗則決策越不可靠。因此只能在分析約束條件時取一個平衡。
本文提出的方法是為了電子圖書館在信息時代能更好地發展。這種新的借閱模式很快將會成為業界的主流,對于其經營者,應該從多個方面細致地考慮館藏圖書的引入和管理。
[1] Panos Constantopoulos,Ingeborg TSolvberg.Research and Advanced Technology for Digital Libraries[M].New York:Springer Publishing House,2001.
[2] Saul IGass.Linear P rogramming[M].New York:Courier Dover Publications,2003.
[3] Lenore Blum,etc.Complexity and real computation[M].NewYork:Spinger-VerlagNewYork,Inc,1997.
[4]白國仲.線性不可微規劃:基于可持續發展的決策技術[M].北京:中國社會科學出版社,2008.