前言:尋找寫(xiě)作靈感?中文期刊網(wǎng)用心挑選的古騰堡計(jì)劃電子圖書(shū)的校對(duì)方法,希望能為您的閱讀和創(chuàng)作帶來(lái)靈感,歡迎大家閱讀并分享。
1引言 “古騰堡計(jì)劃”是全球最具影響力的免費(fèi)電子書(shū)網(wǎng)站之一。它由美國(guó)的邁克爾•哈特(MichaelHart)創(chuàng)建于1971年。經(jīng)過(guò)多年的發(fā)展,它已擁有超過(guò)38000種精校圖書(shū)向全球讀者提供免費(fèi)服務(wù),既可以在線閱讀,也可以下載mobi、epub等格式的文件在亞馬遜、蘋(píng)果等廠商生產(chǎn)的移動(dòng)設(shè)備上閱讀。2012年2月,其Alexa全球排名已進(jìn)入前5000位。“古騰堡計(jì)劃”采用了分布式建設(shè)的模式,其圖書(shū)大多由來(lái)自世界各地的眾多志愿者進(jìn)行加工。由于志愿者在能力、素質(zhì)以及工作熱情等方面存在著諸多差異,為保證古騰堡圖書(shū)的質(zhì)量,加強(qiáng)校對(duì)的精度顯得日益重要。在這個(gè)背景下,2000年,CharlesFranks建立了“分布式校對(duì)”系統(tǒng),以支持“古騰堡計(jì)劃”圖書(shū)的數(shù)字化文本建設(shè)。最初,這個(gè)“分布式校對(duì)”系統(tǒng)從屬于“古騰堡計(jì)劃”。2002年,它有了自己的官方網(wǎng)站。2006年,它成為單獨(dú)的法人實(shí)體,但依然與“古騰堡計(jì)劃”有著密切的聯(lián)系,由這個(gè)系統(tǒng)產(chǎn)生的電子書(shū),是“古騰堡計(jì)劃”圖書(shū)最重要的來(lái)源[1]。 2“古騰堡計(jì)劃”電子圖書(shū)制作流程 “古騰堡計(jì)劃”的電子圖書(shū)之所以受到廣泛歡迎,是因?yàn)樗仁敲赓M(fèi)的,又是高質(zhì)量的。它的圖書(shū)制作遵循著一個(gè)非常嚴(yán)格的流程:(1)使用在線的軟件和數(shù)據(jù)庫(kù)創(chuàng)建圖書(shū)館。(2)世界各地的內(nèi)容提供者將圖書(shū)掃描,并將掃描件上傳到圖書(shū)館。“古騰堡計(jì)劃”根據(jù)美國(guó)版權(quán)法對(duì)電子書(shū)進(jìn)行版權(quán)驗(yàn)證,只有版權(quán)過(guò)期者才可以添加到計(jì)劃的列表中。(3)參與校對(duì)的志愿者選擇一本圖書(shū)進(jìn)行校對(duì)。(4)這時(shí)候,網(wǎng)站會(huì)顯示給校對(duì)者一個(gè)網(wǎng)頁(yè),內(nèi)容包括掃描文件和通過(guò)文字識(shí)別軟件產(chǎn)生的文本文件,校對(duì)者通過(guò)兩者的比對(duì)進(jìn)行校對(duì)。這極大地減少了校對(duì)者的工作量。(5)除了修正文字識(shí)別軟件所產(chǎn)生的文本中的錯(cuò)誤,校對(duì)者還需標(biāo)注原著中的粗體、斜體字以及腳注等內(nèi)容。(6)校對(duì)是協(xié)作式的,來(lái)自世界各地的志愿者通過(guò)互聯(lián)網(wǎng)可能對(duì)同一本書(shū)的不同頁(yè)進(jìn)行校對(duì)。校對(duì)者在完成了對(duì)某本圖書(shū)一頁(yè)的校對(duì)后,可以再申請(qǐng)新的校對(duì)頁(yè),也可以退出校對(duì)。有意思的是,“古騰堡計(jì)劃”并不鼓勵(lì)校對(duì)者一天校對(duì)太多的頁(yè)數(shù),他們的建議是“一天一頁(yè)”。他們認(rèn)為,每個(gè)人每天對(duì)校對(duì)工作貢獻(xiàn)的綿薄之力,最終會(huì)形成生產(chǎn)數(shù)字圖書(shū)的強(qiáng)大力量。2004年,“古騰堡計(jì)劃”的管理者自豪地宣布:平均每天有300~400個(gè)志愿者參與校對(duì)工作,平均每天完成校對(duì)頁(yè)數(shù)4000~7000個(gè),這意味著每分鐘完成校對(duì)4個(gè)圖書(shū)頁(yè)。實(shí)際上,2004年以后,志愿者數(shù)量和校對(duì)頁(yè)數(shù)總量等數(shù)據(jù)每年都有相當(dāng)大的增長(zhǎng)[2]。(7)校對(duì)過(guò)的圖書(shū)頁(yè)會(huì)保存在網(wǎng)站的數(shù)據(jù)庫(kù)中,等待下一輪的校對(duì)。“古騰堡計(jì)劃”的校對(duì)會(huì)有2輪,以盡量避免錯(cuò)誤的發(fā)生。(8)當(dāng)所有的圖書(shū)頁(yè)都經(jīng)過(guò)2輪校對(duì)后,“古騰堡計(jì)劃”的處理軟件會(huì)將其整合成一本完整的數(shù)字圖書(shū),并且再進(jìn)行一次錯(cuò)誤檢查。由于一本書(shū)的校對(duì)很可能是由多人完成,因此這時(shí)的重點(diǎn)在于一致性的檢查上。(9)通過(guò)檢查后的圖書(shū)會(huì)被歸檔,并上傳到全球各地的鏡像站點(diǎn),向全世界提供免費(fèi)閱讀和下載[3]。可以看出,“古騰堡計(jì)劃”的數(shù)字圖書(shū)制作,奉行“質(zhì)量?jī)?yōu)先”的原則。雖然它的圖書(shū)數(shù)量并不太多,但涵蓋了莎士比亞、列夫•托爾斯泰、馬克•吐溫等著名作家的經(jīng)典作品,另外也包含了許多非文學(xué)類(lèi)的名家名作,而且這些都是相對(duì)可靠的電子文本,為世界各地的讀者進(jìn)行閱讀、欣賞和研究提供了極大的便利。 3分布式校對(duì)的幾個(gè)關(guān)鍵環(huán)節(jié) 3.1分布式校對(duì)與集中化管理 “古騰堡計(jì)劃”的圖書(shū)校對(duì)和制作雖然是由各地的志愿者采用分布式的方法完成的,但其基礎(chǔ)卻是集中化管理。在版權(quán)認(rèn)定、決定哪些圖書(shū)可以進(jìn)行掃描、校對(duì)與提交以及圖書(shū)的整合、等方面,都不是由志愿者自由和隨意地進(jìn)行,而是由“古騰堡計(jì)劃”的核心小組統(tǒng)一安排。“古騰堡計(jì)劃”的管理者會(huì)在廣泛搜羅圖書(shū)的基礎(chǔ)上對(duì)未加工的圖書(shū)進(jìn)行審查和鑒定。作為非贏利性組織,“古騰堡計(jì)劃”準(zhǔn)備加工圖書(shū)的來(lái)源非常龐雜,很多圖書(shū)來(lái)自圖書(shū)拍賣(mài)會(huì)、圖書(shū)館的剔舊以及各類(lèi)捐贈(zèng)。志愿者會(huì)將這些圖書(shū)的封面、封底和版權(quán)頁(yè)掃描,送交“古騰堡計(jì)劃”的版權(quán)小組進(jìn)行審查。版權(quán)小組由熟悉知識(shí)產(chǎn)權(quán)領(lǐng)域法規(guī)的專(zhuān)家組成。只有通過(guò)審查的圖書(shū),才會(huì)被允許進(jìn)行數(shù)字化加工。這一舉措,有效地避免了可能出現(xiàn)的知識(shí)產(chǎn)權(quán)糾紛。一旦通過(guò)了版權(quán)審查,相應(yīng)的紙質(zhì)圖書(shū)會(huì)被送交個(gè)別志愿者,他們將書(shū)脊拆散后掃描,在得到掃描圖像的同時(shí),用文字識(shí)別軟件產(chǎn)生與圖像文件對(duì)應(yīng)的文本,然后將這些文件上傳到服務(wù)器。這一工作過(guò)程也是相對(duì)集中的,僅由少數(shù)較為可靠的志愿者完成,這樣可以保證掃描與文字識(shí)別的精度。上傳到服務(wù)器的文件進(jìn)入“分布式校對(duì)”系統(tǒng),在互聯(lián)網(wǎng)上。這時(shí)來(lái)自世界各地的眾多志愿者就可以利用該系統(tǒng)進(jìn)行分布式校對(duì)。在所有的工作環(huán)節(jié)中,項(xiàng)目管理員(ProjectManager)、后期制作員(PostProcessor)發(fā)揮著重要作用。項(xiàng)目管理員負(fù)責(zé)監(jiān)控?cái)?shù)字圖書(shū)的制作過(guò)程,后期制作員負(fù)責(zé)在校對(duì)完成后整本圖書(shū)的整合工作,包括確定圖書(shū)的題名是否正確、圖書(shū)結(jié)構(gòu)是否完整、是否有缺頁(yè)等[4]。可以看到,“分布式校對(duì)”系統(tǒng)的設(shè)計(jì)針對(duì)的是在電子書(shū)制作中工作量最大的校對(duì)環(huán)節(jié),它運(yùn)用Web2.0的思維,利用眾多志愿者的合力突破了圖書(shū)數(shù)字化工作中的瓶頸。同時(shí),在電子圖書(shū)的制作過(guò)程中堅(jiān)持嚴(yán)格的質(zhì)量控制,在目標(biāo)確認(rèn)、工作流程制定、質(zhì)量監(jiān)測(cè)、圖書(shū)等環(huán)節(jié)均由專(zhuān)家進(jìn)行集中化管理,遵循嚴(yán)謹(jǐn)?shù)囊?guī)范。 3.2校次的管理 為了防止疏漏和失誤,“古騰堡計(jì)劃”電子圖書(shū)的分布式校對(duì)并非一次成型,而是堅(jiān)持多次交叉校對(duì)。他們把不同階段的校對(duì)文本分為“銅文本”(Bronzee-texts)、“銀文本”(Silvere-texts)和“金文本”(Golde-texts),這與中國(guó)古代校讎的“三校”制有異曲同工之妙[5]。“銅文本”指那些處于最初校對(duì)階段的文本,任何注冊(cè)后的志愿者都可以在上面展開(kāi)工作,主要任務(wù)是清除用軟件進(jìn)行文字識(shí)別所產(chǎn)生的錯(cuò)誤。新加入的志愿者只能從事這一階段的工作,整本圖書(shū)的后期加工與合成則由富有經(jīng)驗(yàn)的資深志愿者完成。“銀文本”指那些已經(jīng)經(jīng)過(guò)校對(duì)并按照規(guī)定的編排格式整合成型、處于后期加工階段的圖書(shū),這一階段的主要任務(wù)是進(jìn)行一系列準(zhǔn)確性和一致性的檢查。“金文本”指那些完成了一系列校對(duì)、格式編排、后期加工等程序,提交到古騰堡網(wǎng)站供讀者下載使用的圖書(shū)。當(dāng)然,這類(lèi)圖書(shū)的文本也并非不可更改。考慮到數(shù)字圖書(shū)生產(chǎn)的復(fù)雜性,各個(gè)環(huán)節(jié)的工作稍有疏忽都可能造成錯(cuò)誤,“古騰堡計(jì)劃”建立起了強(qiáng)大的報(bào)錯(cuò)機(jī)制。志愿者和普通讀者都可以向古騰堡的管理者報(bào)告其正式的圖書(shū)中的錯(cuò)誤。對(duì)于報(bào)錯(cuò),“古騰堡計(jì)劃”也有一套自己的流程和標(biāo)準(zhǔn),例如對(duì)目錄錯(cuò)誤和文本錯(cuò)誤的報(bào)告區(qū)別對(duì)待,對(duì)如何報(bào)告缺字、排印錯(cuò)誤等,都有具體的要求[6]。嚴(yán)格的校次管理,保證了數(shù)字圖書(shū)的質(zhì)量。強(qiáng)大的報(bào)錯(cuò)機(jī)制,使得“古騰堡計(jì)劃”的圖書(shū)始終處于不斷自我完善的過(guò)程之中。#p#分頁(yè)標(biāo)題#e# 3.3“閱讀校對(duì)”環(huán)節(jié) “古騰堡計(jì)劃”的電子圖書(shū)制作,有一個(gè)“閱讀校對(duì)”(smoothreading)的環(huán)節(jié),用來(lái)發(fā)現(xiàn)校對(duì)容易忽略的錯(cuò)誤,他們歡迎更多的志愿者作為閱讀者(SmoothReaders)參與到校對(duì)工作中來(lái)。這與中國(guó)古代強(qiáng)調(diào)的讀校法有幾分相似。讀校法是重要的校對(duì)方法,對(duì)充分調(diào)動(dòng)各感官的功能,避免生理和心理疲勞,實(shí)現(xiàn)優(yōu)質(zhì)高效的校對(duì)目標(biāo),很有作用。當(dāng)然,對(duì)于閱讀時(shí)是否必須出聲朗讀,“古騰堡計(jì)劃”并沒(méi)有硬性的要求。“古騰堡計(jì)劃”將經(jīng)過(guò)對(duì)校之后的文本放在一個(gè)專(zhuān)門(mén)的數(shù)據(jù)庫(kù)中,供閱讀校對(duì)者使用,每個(gè)文本之前都有對(duì)這些文本性質(zhì)的描述以及閱讀校對(duì)的具體要求,志愿者可以方便地查詢(xún)自己感興趣的文本。志愿者下載了文本后,就可以進(jìn)行閱讀。在閱讀過(guò)程中,無(wú)論是發(fā)現(xiàn)影響流暢表達(dá)還是使自己感覺(jué)困惑的段落,志愿者都可以添加標(biāo)注。當(dāng)然,一些明顯的錯(cuò)誤,志愿者也可以直接進(jìn)行修訂。“古騰堡計(jì)劃”建立了一個(gè)機(jī)制,使閱讀者和進(jìn)行圖書(shū)的后期加工的志愿者能夠很好地協(xié)同工作。當(dāng)志愿者選擇朗讀某個(gè)文本時(shí),可以通過(guò)網(wǎng)站發(fā)送信息給從事圖書(shū)后期加工的志愿者,讓他知道目前是誰(shuí)正在對(duì)文本進(jìn)行閱讀校對(duì)。而閱讀校對(duì)的成果,無(wú)論是有根據(jù)的改正還是無(wú)把握的存疑,又都可以通過(guò)網(wǎng)站及時(shí)地反饋給進(jìn)行圖書(shū)的后期加工的志愿者[7]。 3.4尋求更大的用戶(hù)參與度 “古騰堡計(jì)劃”電子圖書(shū)的生產(chǎn),工作量是巨大的。因此,如何召喚更多的志愿者參與其中,是保證“古騰堡計(jì)劃”活力的關(guān)鍵因素。“古騰堡計(jì)劃”在其網(wǎng)站上專(zhuān)門(mén)設(shè)置了“志愿者之聲”的欄目,讓志愿者代表現(xiàn)身說(shuō)法,解釋他們?yōu)槭裁丛敢饣ㄙM(fèi)那么多業(yè)余時(shí)間進(jìn)行免費(fèi)電子書(shū)的制作,從中能夠得到怎樣的樂(lè)趣,從志愿工作中如何能夠?qū)ふ业缴膬r(jià)值和意義,從而彰顯網(wǎng)站“創(chuàng)造和分享知識(shí)”的核心價(jià)值觀。榜樣的力量是無(wú)窮的,“古騰堡計(jì)劃”希望通過(guò)這種方式,吸引更多的人參與到網(wǎng)站建設(shè)中來(lái)[8]。“古騰堡計(jì)劃”非常重視網(wǎng)上宣傳,尤其重視反向鏈接的數(shù)量。為此,他們專(zhuān)門(mén)制作了官方的按鈕和廣告橫幅,植入了網(wǎng)站的鏈接,以HTML代碼形式,鼓勵(lì)各類(lèi)網(wǎng)站和博客插入這些代碼。這些按鈕和廣告橫幅有80×15、104×40、104×90、104×104、468×60等不同像素大小,有的是靜態(tài)的,有的有動(dòng)畫(huà)效果,以適應(yīng)不同網(wǎng)站和博客的不同需求。隨著“古騰堡計(jì)劃”的影響力的不斷增大,其反向鏈接數(shù)量不斷增多,據(jù)Alexa的分析已經(jīng)超過(guò)了3.1萬(wàn)個(gè)。眾多的反向鏈接不但為網(wǎng)站帶來(lái)了大量的讀者,同時(shí)也帶來(lái)了更多的志愿者[9]。此外,F(xiàn)acebook、Google+、Twitter等社交網(wǎng)絡(luò)應(yīng)用也被用于擴(kuò)大網(wǎng)站的影響。“古騰堡計(jì)劃”善于將大的工作任務(wù)分解細(xì)化,以適應(yīng)不同志愿者的能力、素質(zhì)和興趣的差異。除了校對(duì)工作外,志愿者還可以承擔(dān)提供紙質(zhì)圖書(shū)、燒制電子書(shū)光碟供沒(méi)有互聯(lián)網(wǎng)接入地區(qū)的人們使用、在網(wǎng)絡(luò)上宣傳等不同性質(zhì)的任務(wù)。讓人們做自己擅長(zhǎng)和感興趣的事,這種理念也有助于志愿者數(shù)量的增長(zhǎng),有利于用戶(hù)參與度的提高[10]。 3.5詳盡的幫助文檔和協(xié)作者社區(qū)的建立 由于參與電子書(shū)制作的志愿者是一個(gè)非常龐大的群體,為有效地協(xié)同工作,“古騰堡計(jì)劃”提供了非常詳細(xì)的幫助文檔,建立了一個(gè)FAQ中心,內(nèi)容包括入門(mén)性質(zhì)的概況介紹、分布式校對(duì)、格式編排、圖書(shū)后期加工、項(xiàng)目的創(chuàng)建和管理、如何指導(dǎo)新手、建議、報(bào)錯(cuò)與開(kāi)發(fā)、郵件列表等諸多方面。以分布式校對(duì)為例,幫助文檔內(nèi)容涵蓋校對(duì)的指導(dǎo)方針、摘要、細(xì)則、為新手準(zhǔn)備的教程與測(cè)試以及校對(duì)軟件的使用指南。標(biāo)準(zhǔn)版和加強(qiáng)版軟件的使用指南分別列出,以方便志愿者的查詢(xún)[11]。“古騰堡計(jì)劃”為參與分布式校對(duì)的志愿者提供了一個(gè)BBS論壇,為大家的交流提供了一個(gè)網(wǎng)絡(luò)平臺(tái)。論壇分為新手入門(mén)、站務(wù)、活動(dòng)、項(xiàng)目、社區(qū)、軟件使用、基金會(huì)等子版塊。如果志愿者在校對(duì)過(guò)程中遇到疑問(wèn),在幫助文檔中又無(wú)法找到,可以在論壇中發(fā)表論題,尋求幫助,展開(kāi)討論。論壇的活躍程度較高,共擁有超過(guò)10萬(wàn)的注冊(cè)用戶(hù),發(fā)表了超過(guò)70萬(wàn)的論題。協(xié)作者社區(qū)不但是志愿者答疑解惑的平臺(tái),也是志愿者凝聚力的重要保證[12]。 4古騰堡模式的借鑒意義 實(shí)踐證明,由眾多用戶(hù)參與內(nèi)容建設(shè)的Web2.0方式,比閉門(mén)造車(chē)要有效率得多。目前國(guó)內(nèi)有許多失去著作財(cái)產(chǎn)權(quán)保護(hù)時(shí)間限制的圖書(shū),包括大量有價(jià)值的古籍,并沒(méi)有進(jìn)行數(shù)字化加工。許多圖書(shū)館和其他機(jī)構(gòu)想要進(jìn)行這一工作,因?yàn)辇嫶蟮墓ぷ髁坑譀](méi)有充足的經(jīng)費(fèi)和人員支持從而裹足不前。如果我們能夠參照“古騰堡計(jì)劃”分布式校對(duì)的工作模式,動(dòng)員大批志愿者參加圖書(shū)數(shù)字化工作,并讓成果能被全社會(huì)所用,無(wú)疑是社會(huì)文化建設(shè)的一大盛事。 “古騰堡計(jì)劃”以其嚴(yán)謹(jǐn)踏實(shí)的作風(fēng)為人稱(chēng)道。這提醒我們?cè)趫D書(shū)數(shù)字化的過(guò)程中必須奉行質(zhì)量?jī)?yōu)先的原則,保證數(shù)據(jù)的完整性、真實(shí)性與可靠性。協(xié)作與分布式的工作,離不開(kāi)工作流程的標(biāo)準(zhǔn)化與規(guī)范化。我們的數(shù)字圖書(shū)館建設(shè)工作,也應(yīng)當(dāng)注重頂層設(shè)計(jì),理清各工作環(huán)節(jié)之間的邏輯關(guān)系,優(yōu)化協(xié)調(diào)與控制機(jī)制,加強(qiáng)質(zhì)量監(jiān)控。這對(duì)于提高電子圖書(shū)的質(zhì)量,具有非常重要的意義。 “古騰堡計(jì)劃”自創(chuàng)建至今,歷經(jīng)40年,卻歷久彌新,風(fēng)采依然,其運(yùn)作模式與工作思路,值得我們學(xué)習(xí)和借鑒。