備受爭議的谷歌圖書掃描主要指“谷歌圖書館項(xiàng)目”(Google LibraryProgram),即谷歌與一些著名的大學(xué)和公共圖書館合作,經(jīng)這些圖書館許可,將這些圖書館的藏書數(shù)字化。作為交換,這些圖書館免費(fèi)獲得一套電子圖書館藏,而谷歌得以將這些館藏并入“谷歌圖書”電子書庫。這個(gè)“谷歌圖書”電子書庫與谷歌搜索引擎連起來,公眾在網(wǎng)絡(luò)上搜索時(shí),有關(guān)的圖書便會(huì)顯示在搜索結(jié)果里面。這等于將圖書館的目錄系統(tǒng)放到公眾的手指邊,極大增加了圖書與讀者見面的機(jī)會(huì)。讀者一旦發(fā)現(xiàn)感興趣的圖書,如果該書仍在版權(quán)保護(hù)期,那么谷歌只顯示有限的內(nèi)容,如書名、作者、圖書簡介等;如果圖書已經(jīng)進(jìn)入公有領(lǐng)域,那么谷歌就顯示全部內(nèi)容。一些中國作家的圖書被收入“谷歌圖書館項(xiàng)目”,正因?yàn)槟切┡c谷歌合作的圖書館收藏了這些中文圖書,谷歌才得以掃描。現(xiàn)在,修改后的谷歌圖書搜索和解協(xié)議規(guī)定,“谷歌圖書館項(xiàng)目”將只包含在美國版權(quán)辦公室登記的圖書,或在英國、加拿大和澳大利亞出版的圖書。所以中國作者的圖書將從“谷歌圖書館項(xiàng)目”中撤出,聲稱谷歌侵權(quán)者可以松一口氣了。但是,與占美國網(wǎng)絡(luò)搜索市場(chǎng)60%的谷歌絕緣,對(duì)那些想“走出去”的中國作者而言是福是禍,恐怕又是一個(gè)公說公有理,婆說婆有理的難題。
在討論谷歌圖書掃描的時(shí)候,一個(gè)密切有關(guān)的問題是:谷歌掃描的到底是些什么圖書?了解這些圖書的特點(diǎn),或許有助于人們辯論谷歌圖書搜索的利弊。
2009年11月/12月號(hào)的《電子圖書館雜志》(D-Lib Magazine)上,兩位來自美國“圖書館聯(lián)機(jī)計(jì)算機(jī)中心”(OCLCOnline Computer Library Center)的作者Brian Lavoie和Lorcan Dempsey發(fā)表了他們的分析結(jié)果。他們的數(shù)據(jù)來源是全球圖書館聯(lián)合目錄WorldCat(WorldCat收錄了來自全球112個(gè)國家71 000個(gè)圖書館的館藏信息)。
截至2009年4月,WorldCat里面共收錄了1.353億個(gè)文獻(xiàn)記錄(bibliographicrecords),其中,1.041億為書籍,而印刷本圖書為8480萬種。WorldCat書目里所說的“—種書”,并不是指書架上具體的一冊(cè)書或復(fù)本(item或copy),而是指特定的—個(gè)“版本”(impression),例如,英國的Short Books出版社和美國的Perigee Books出版社分別出版了《Walking Ollie》這本書,盡管這兩個(gè)版本在各個(gè)圖書館可能有上千個(gè)復(fù)本,它們?cè)赪orldCat里只算兩種書。在這8480萬種印刷本圖書里面,美國出版的圖書有1550萬種,它們受美國版權(quán)法保護(hù)(下面對(duì)這1550種統(tǒng)稱為“美國圖書”)。
這1550萬種“美國圖書”分布在全球71000個(gè)圖書館里,加上這些圖書館的復(fù)本,這些美國圖書的總冊(cè)數(shù)達(dá)6.558億冊(cè),它們占了這些圖書館館藏的45%,可見美國圖書是這些圖書館的重要資源。
這1550萬種“美國圖書”在71000家圖書館里的分布如下:大學(xué)圖書館55%,公共圖書館33%,學(xué)校圖書館3%,專業(yè)圖書館3%,政府部門圖書館2%,國家圖書館1%,其他類別圖書館1%,不詳1%。
“美國圖書”里,有名有姓的作者達(dá)370萬人,這些人是美國圖書的版權(quán)所有人,他{門有權(quán)(或部分有權(quán))決定是否允許谷歌或其他機(jī)構(gòu)掃描圖書。如果谷歌需要先申請(qǐng)?jiān)S可再掃描,那么谷歌必須分別與這370萬個(gè)人交涉。
將“美國圖書”按出版年月劃分,1923年前出版的占14%(根據(jù)美國版權(quán)法,這些書進(jìn)入公有領(lǐng)域),1923年至1963年出版的占17%(這類圖書有些可能進(jìn)入公有領(lǐng)域,取決于版權(quán)^是否重新申請(qǐng)版權(quán)),1963年后出版的占65%(仍受版權(quán)保護(hù)),出版年不詳:4%。也就是說,仍受版權(quán)保護(hù)的部分占82%,即1250萬種圖書,其中,92%為非小說類圖書,達(dá)1150萬種,小說類圖書只有約100萬種。
1160萬種非小說類圖書中,歷史類8%,工程與技術(shù)類7%,工商經(jīng)濟(jì)類7%,語言與文學(xué)類6%,哲學(xué)與宗教類5%,衛(wèi)生與醫(yī)學(xué)類5%,藝術(shù)與建筑類3%,法律類3%,教育類3%,其他3%,分類不詳35%。
谷歌掃描的書源主要來自美國大學(xué)圖書館,因此,作者進(jìn)一步分析了WorldCat里面美國大學(xué)圖書館的藏書。作者挑選了美國東海岸、西海岸和中西部三所大學(xué)圖書館為代表,將這三家圖書館在WorldCat里的藏書集中起來,剔出重復(fù),得出了190萬種圖書,占上述“美國圖書”的2A。這代表了谷歌圖書掃描的主要內(nèi)容。
190萬種圖書中,i923年以前出版的占15%,1923年至1963年出版的占20%,1963年以后出版的占64%,出版年不詳者為2%。可見,仍在或可能仍在版權(quán)保護(hù)期的圖書占83%,即150萬種。1923年以后出版的圖書占93%,即150萬種是非小說類圖書,其中,歷史類12%,語言文學(xué)11%,醫(yī)學(xué)衛(wèi)生9%,工商經(jīng)濟(jì)9%,工程技術(shù)7%,哲學(xué)宗教5%,藝術(shù)建筑5%,社會(huì)科學(xué)5%,法律4%,教育4%,其他23~/~,分類不詳7%。按讀者對(duì)象分:青少年圖書1%,大眾圖書21%,學(xué)術(shù)圖書78%。也就是說,谷歌所掃描的圖書,四分之三是針對(duì)學(xué)者學(xué)生的學(xué)術(shù)圖書。
(本文作者系紐約佩斯大學(xué)出版系兼職教授,本刊特約撰稿人)