上海图书馆古文献资源数字化建设探索

2020-03-03 21:22:23 来源:范文大全收藏下载本文

上海图书馆古文献资源数字化建设探索

摘要

上海图书馆是国内最早开始古文献全文数字化的图书馆之一,本文对上海图书馆1996年以来的古文献数字化工作历程与内容作了介绍,其中包括了家谱、民国图书、稿本抄本等古文献,着重介绍了数字化流程、内容管理与元数据、长期保存等技术方案,以及检索与全文浏览等服务的现状;本文后半部分介绍了上海图书馆的古文献数字化系统的特色,有对古文献数字资源长期保存的研究,融入web2.0技术的历史文献统一平台,以及统一管理各种古文献全文数字资源的资源调度平台。

关键词:古文献 数字化 数字资源长期保存 web2.0

一.上海图书馆古文献数字化的介绍与历程 1. 上图古文献的介绍、背景

上海图书馆是我国大型的综合性研究型公共图书馆,在其丰富的馆藏资源中,历史文献的收藏尤具特色。目前收藏有古籍、碑贴等各类古籍文献170余万册。其中古籍善本29636种,178025册,包括碑帖2182种,3142册、尺牍2121种,3969册又140卷1841叶、图书25333种,170914册,俱为年代久远,极具学术史料研究价值和艺术鉴赏价值的稀世罕见之本。其中作为馆藏特色之一的古籍善本、稿抄本、家谱更因藏品的数量和质量于国内外庋藏机构中名列前茅,具举足轻重之地位,素为海内外专家学者所称道。

古文献是中华文明悠久历史的重要象征,是中国传统文化积淀的瑰宝,也是祖先遗留给我们的宝贵财富。公共图书馆属于社会公益性质的机构,向社会公众提供全方位的优质服务是公共图书馆的职责所在。但古籍由于特有的历史背景,属于不可再生性资源,许多古籍除内容具有史料研究价值之外本身已成为珍贵的文物和艺术品。为了保护古文献,以往各图书馆都对阅览古籍的对象与查阅方式作出了严格的限制和规定,重藏轻用现象普遍,严重制约了古籍的开发利用。由此产生了“保护”与“利用”这对矛盾。随着中国传统文化研究的不断深入和普及,读者阅览利用古籍的需求量越来越大,古文献的保护与开发利用的矛盾越来越突出,多年实践证明传统方式已无法从根本上解决这对矛盾。由于古籍历时久远,屡经水火兵燹,不少已成为世间孤品、珍品,其文献价值越来越凸现,也需要更有效的保护方式。现代化技术的介入使我们看到了解决问题的契机。随着计算机技术和网络技术的飞速发展,特别是近年来数字化技术的进步为古籍善本的再生性保护和利用提供了新的途径。古籍数字化,不啻为一种保存古籍原件,解决古籍的保护与利用矛盾的十分有效的手段。所谓古籍数字化,是指利用扫描、摄像、数码照像等现代信息技术与计算机技术相结合,将传统纸制文献资源转化为可以永久保存和利用的电子资源的处理方式,通过光盘、磁带和网络等介质保存和传播。古籍数字化是当今古籍保护的主流方向和大趋势,必将从根本上解决图书馆古籍保护与利用的矛盾。通过古籍的数字化,可以方便读者检索与阅览古籍,为读者提供多方面的服务,满足读者的不同需要,极大的扩大古籍资源的利用范围,这对古籍研究工作将产生巨大的推动作用。

2. 上图古文献数字化的历程与内容

上海图书馆对古籍的再生性保护工作始终高度重视和大力支持。自1996年9月开始启动古籍数字化建库项目工作,经过十多年的努力,古籍数字化历经书目数据库、全文影像光盘数据库和全文影像网络数据库三个阶段,迄今已经初步建成“馆藏古籍书目数据库”、“馆藏家谱书目数据库”、“馆藏善本古籍全文影像光盘数据库”、“馆藏善本古籍全文影像网络数据库”及“馆藏家谱全文影像网络数据库”、“馆藏稿抄本数字化项目”、“盛宣怀档案数字化”、“历史文献统一平台”。

1996年,上海图书馆与长江计算机集团合作, 启动重点科研项目──“古籍影像光盘制作及检索系统”, 拟将馆藏古籍善本全部数字化,并分期实现上网服务。该项目首开中国大陆古籍数字化从书目数据走向全文服务之先河。

该系统采用扫描方式将古籍善本以图像格式保存在光盘中,此种方法既可以保存古籍文献的原始风貌,又可以保证文献内容的真实性与可靠性,方便专家学者的研究。 该项目自1996年9月开始试制,至2000年9月二期工程结束。总共扫描古籍共3223种,1275717拍。其中一级品416种,二级品1345种(除特殊规格及涉及文物保护暂时技术无法解决者外一二级藏品已全部完成)。此外另有一般善本462种,合计占上图古籍善本的16%(不包括复本及特殊藏品),初步建成“馆藏善本古籍全文影像光盘数据库”,其中有海内外稀见的珍品善本20种19794页,包括宋代刻本17种、元代刻本1种、稿本2种已进入国际互联网向全社会开放,以满足海内外读者一览中国古籍善本的需要。

该系统提供书号、分类、书名、著者四种检索途径。读者检索到书目信息后,可调出原书影像。影像显示具有放大、缩小、反转、旋转、翻页及指定页数、打印等功能。

由于当时技术上的限制,“馆藏善本古籍全文影像光盘数据库”系统只在古籍阅览室对读者开放阅览,使用范围较小。2004年上海图书馆启动“馆藏善本古籍全文影像网络数据库”项目,目标是向全社会开放,实现真正的资源共享。2006年一期工程基本建成提供馆内读者阅览。

1999年上海图书馆启动馆藏古籍书目数据库建设项目,2001年初步建成馆藏古籍书目数据库提供读者使用。该数据库将上海图书馆原来割裂的善本、普本,新影印古籍三大块书目整合为一,收录上海图书馆收藏的中文古籍,包括刻本、活字本、抄本、稿本、校本、民国年间出版的石印本、影印本、珂罗版印本及普通古籍阅览室开架陈列的影印本,共计129660条。其中普通古籍87938条,丛编子目28357条,善本古籍13365条(其中开架陈列的影印古籍10678条)。著录项为文献题名、责任者与责任方式、出版地、出版者、出版年、版本类型、丛书名、批校题跋、存佚、配补情况、馆藏号、分类等。编目规则参照中国国家图书馆编《汉语文古籍机读目录格式使用手册》,著录采用繁体字,分类采用四库分类法。数据库检索系统采用Web界面,提供题名、责任者、分类、丛书四个检索途径。其中题名、丛书两个字段支持全文检索;责任者、分类字段为整词索引字段,可输入检索词实行完全一致或前方一致检索。

2004年年初上海图书馆启动“馆藏善本稿抄本数字化项目”,计划将全部馆藏稿抄本采用扫描方式进行数字化保存,并在完成数字化工作后将数字化产品提供读者使用。一期工程至2006年第三季度已扫描完成稿本1914种,6840册,417846拍。

家谱是博大精深的中华传统文化的一个重要组成部分。家谱与方志、正史构成了中华民族历史大厦的三大支柱,家谱除了具有独特的教化功能和寻根问祖、增进民族凝聚力的作用外,其记载的人物、经济、移民、文化、民俗、地名、教育、军事、械斗、人口等资料对于历史学、考古学、经济学、人口学、社会学、民族学、民俗学、教育学以及地方史等多门学科的学术研究有着重要价值。上海图书馆馆藏的家谱资料17000余种,12万余册,是世界上收藏中国家谱原件最多的公共藏书机构,其收藏数量几乎是全国各公藏机构所藏中国家谱之和。上海图书馆收藏有中国335个姓氏的家谱,其中张姓、陈姓、王姓、李姓、刘姓、吴姓均在500种以上,而周、朱、徐、黄、杨、胡等姓氏也达数百种之多,冷僻姓氏有90余种。地域涵盖全国20余个省市,其中以浙江、湖南、江苏、安徽省为多,其次是江西、上海、福建、湖北、广东、河南、四川、山东、河北等省。浙江家谱主要在金华、余姚、上虞、慈溪一带,安徽家谱则以徽州地区最为集中。上图收藏最早的家谱为宋内府写本《仙源类谱》(残页),另有近三百部明刊本、明抄本,稿本及纂修底本也不少见。此外,还有相当一部分上海开埠后外省来沪发展人士的家谱,这部分家谱对于研究中国及上海近代史有重要的史料价值。

1998年上海图书馆启动馆藏家谱书目数据库建设项目,2000年初步建成馆藏家谱书目数据库提供读者使用。该数据库收录17000种上海图书馆馆藏家谱,数据条目按照SO2709数据结构,著录项为文献题名、责任者、版本、居地、堂号、先祖/名人、摘要、馆藏号等。编目规则遵循中国机读目录格式(CNMARC)编制。数据库检索系统采用Web界面,提供题名、著者、姓氏、居地、堂号、名人、丛书七个检索途径。2006年该数据库与“馆藏家谱全文影像数据库”整合。

2003年上海图书馆与美国My Family公司合作启动“馆藏家谱数字化项目”,计划将全部馆藏家谱实行数字化。在该项目中上海图书馆首次采用无接触式扫描仪进行扫描,这种扫描方式减少了在扫描工作中对原件的损害。至2006年第三季度已扫描完成家谱4004种,30550册,2853835拍。2006年9月起对馆内读者开放阅览,第一期提供读者阅览共3000余种家谱,以后将随着家谱数字化的进程逐年增加品种,直至提供全部馆藏。为了方便了读者的使用,该数据库不再单独为影像数据库制作简单的标引数据,而是实现与馆藏家谱书目数据库的完全整合,检索途径与馆藏家谱书目数据库相同,读者在检索家谱书目数据的同时即能直接阅览家谱全文影像。影像显示具有放大、缩小、反转、旋转、翻页、指定页数、翻白及打印等功能。

2006年上海图书馆启动了《盛宣怀档案元数据库技术平台》的研发,2007年在前一个项目的基础上建立了《盛宣怀档案全文数字化服务平台》,项目首先建立了元数据著录加工平台把原有卡片目录,进行前期预输入和处理后构建了《盛宣怀档案元数据库》,同时与盛宣怀档案的专家一起形成相应的《盛宣怀档案》元数据规范、著录规范、和应用发布规范。随后的全文数字化服务平台以元数据库为基础,提供了更加人性化的检索,以及提供了基于PDF的全文浏览,使全文浏览更加快速、方便,同时对系统增加了各种安全处理,使原始图片的安全得到了保证。目前盛宣怀档案的数字资源还在不断的制作增加中,已有178633档,559151拍图片。

2007年随着稿抄本、善本、家谱、盛宣怀档案进行了数字化,而且还将有更多的古文献进行数字化,伴随着这些资源的数字化,每个资源都有了自己的应用系统。虽然这些系统能够很好的将各自的资源提供给读者服务,但也存在着资源分散,无法统一管理,不能统一检索,读者重复登入等问题。因此我们馆开始建设《历史文献数字资源服务平台》的项目,利用统一的平台将各个应用系统整合在一起。统一的平台可以带来很多好处,一是提供统一资源调度平台,统一规范的管理资源,使古文献数字资源更有益于长期保存;二通过融入最新的web2.0技术,大大的提升了服务效果;三提供一站式的登录,接入到读者统一认证的平台中;四提供接口使系统能够方便的加入以后新增的古文献数字化资源;目前平台已经整合了稿抄本、家谱、古籍善本、盛档等多个古文献数字资源服务系统,相信经过若干年的建设,将成为国内最大的古文献数字化服务平台,取得良好的应用效果。也对馆藏古文献资源的保护意义重大。本文后半段将着重介绍《历史文献数字资源服务平台》中较有特色的地方。

二. 我馆在古文献数字化系统建设中的探索与实践

1. 古文献数字资源长期保存方面的探索 当古文献数字化证进行的如火如荼的时候,人们享受着古文献数字化带来的种种便利的同时,伴随着数字技术的威胁与挑战也产生了。我们意识到生产和储存古文献数字资源也许还不是个大问题,但随着时间的推移,软件系统的更新换代,许多信息也许在不久便会无法读取;并且随着记录信息的方法、存储格式及所使用的技术的不停更改,使古文献数字资源的寿命也受到了限制。所以古文献数字资源的长期保存应该是当前古文献数字化的重点。从上所知,我馆很早就开始了古文献数字化,在这方面也进行了不少研究和实践,下面是在古文献数字资源长期保存方面的一些探索的解决方法。

我们为了避免重复的数字化,节约数字化的成本,使数字资源保存时间长,具有可用性、真实性、完整性和可靠性。我们主要包括三个部分来实施:首先,与古文献管理部门专家讨论建立一个古文献通用的元数据标准,我们基本参照DC作为参考标准;其次,将古文献数字化内容运用内容管理方案进行管理,并对每一种古籍赋于一个唯一的数字标识。我们采用了类似DOI语法对数字对象进行管理;第三。用XML技术将古籍数字化对象与元数据封装在一起,这样这些内容以后就可以装载到各种各样的应用系统中去。我们采用mets格式来封装,简单来说就在mets的filesec标签中封装入对象文件,在structmap标签中封装对象结构。

总的来说,古文献数字资源的长期保存在策略方面,首先是媒体的保存,虽然数字信息媒体目前还不是十分稳定,对存储环境有一定要求,但从目前来看,也仍不失为一种策略。我们主要使用了磁带以及RAID硬盘来作为媒体。磁带用于备份数据,因为现在数字化的量非常大,cd-rom和dvd相对容量较小,在做备份时需要频繁更换光盘,而磁带拥有较大的容量而且导入导出的速度也较快;在在线应用数据的存储,我们采用RAID硬盘,我想这也是大多数应用系统的选择,它读取速度较快,成本不高,而且能够提供有效数据备份策略。 其次,数字资源的更新,随着数字资源的迅猛发展,新的设备、软件以2-5年一个周期进行更新换代,最明显的是技术的淘汰更新;数字资源也要相应的更新,面对这种情况我们需要紧跟相关技术的发展,把握好技术更新的时机,对数字资源进行升级;例如我们原本直接使用TIFF文件提供服务,但随着PDF日趋成熟,我们果断的换成PDF图片进行服务;虽然目前DJVU也比较流行,但综合考虑djvu还不是很普及加上转换的成本,我们还是选择了PDF。因此要使更新顺利进行,还有赖于平时的分析与支持。

2. 建立统一的可扩展的古文献数字资源服务平台

平台的主要特点有融入了web2。0的理念与技术、平台的可扩展性、统一检索。在提供的服务中,我们以用户为中心,而不是以信息为中心;用户可以选择组合自己所需的古文献来进行查询、全文浏览,并且增加了与读者的互动,使服务更加灵活。在界面设计上我们使用ajax技术,让系统使用更加高效。在平台的扩展中,我们留有不少标准的接口,用于和其他系统连接,以及对不断增加古文献数字化资源的接收。平台通过简单的配置,既可方便的新增新的古文献数字资源,并提供服务;同时平台也可使用LDAP等协议,与我馆的用户认证系统相连接。在资源的检索方面,通过分析各种类型古文献的元数据,我们抽取共有的属性,提供统一的检索,提供最简单快速的途径来检索平台中的资源;当然古文献都各有特点,统一检索并不能完全准确的找到资源,所以我们还提供高级检索与专家检索,针对各个类别的古文献的单一检索,提供最全面的检索途径。

3. 统一管理调度数字资源

随着古文献数字资源的不断增加,资源的存放和使用也成了问题,不同的资源存放在不同的存储设备上,而且各资源的命名标识都不同,这给使用这些资源带来了很大的麻烦,不仅难于管理也影响效率。所以我们开发了资源调度平台,首先对资源进行统一的管理,每一个对象赋予一个唯一的标识,标识类似DOI的标准,可以通过解析标识就能得到资源的所在位置供系统调用。其次在调用资源时不管资源的物理存储在哪里,平台都将通过该资源的注册在平台中的信息,去读取资源并拷贝到临时目录中,然后让用户访问临时目录中的对象,这样既提高了资源浏览的速度,也使原始资源的安全性得到了保障。

下图为资源调度平台工作流程

发送请求生成临时地址提供服务应用服务器进过标识解析找到资源存放的位置资源调度平台COPY至临时目录中进行标识解析COPY至临时目录中资源存储设备1资源存储设备2资源存储设备3

三. 结语

虽然古文献数字化还有不少困难,但只要我们对可能遇到的困难,做好充分的准备和行之有效的解决办法,大家分享各自的实践经验和成果,以建立完善的古文献服务平台为目标,随着技术的不断发展,相信一定会使古文献数字化越来越完美。

数字化资源平台建设

深入探讨数字化图书馆建设发展

数字化教学资源建设方案

数字化资源规划与建设

图书馆数字化与现代化服务探索论文

基层图书馆资源建设杂谈

图书馆资源管理中心建设方案

数字化资源建设情况及建议

数字化资源建设和应用情况

数字化资源规划与建设心得体会

《上海图书馆古文献资源数字化建设探索.doc》
上海图书馆古文献资源数字化建设探索
将本文的Word文档下载到电脑,方便收藏和打印
推荐度:
点击下载文档
下载全文