古籍文献数据库存在的问题与突破的方向
我们知道,一个古典文献数据库实际上是两大部分组成的,一是古典文献数据库内容,即数据库所包括的文献文本,二是对这些数据进行管理的文献检索服务系统。其实目前所见有关古典文献数据库都是“两者合一”,即既包含一些文献数据内容,又有具体的操作服务系统。事实上,这些古典文献数据库在功能上明显存在缺陷的。就目前古典文献数据库管理形式来说,一是网络管理,一是个人管理。前者是网络数据库,一般是单位所拥有的数据库,即我们所说的网络版,后者是安装在个人电脑中的个人版。就功能来说,网络版没有必要具有卡片、文本修订、书签等个性化的功能,个人版应该具有做卡片、文本修订、书签、文献管理等个性化的功能。就文献数量来说,网络版自然力求文献内容丰富,尽可能包罗文献文本,而个人版实际所需要的文献数量是根据各自研究需要而定的,因而强行“规定”使用所有文献内容并不值得肯定。就文献内容来说,网络版与个人版都应该允许不断地增加其数据库文献内容,但不同的是,网络版应该是只增不减,而个人版应该允许用户根据研究需要自由增减文献内容。
在笔者看来,应该从单纯的文本内容竞争的思维中解脱出来,进入以文献检索服务系统竞争为主,文本竟争为辅的体系,或许是解决古籍文献数据库的出路。也就是说,擅长计算机技术的开发者(开发商)应该注重文献检索服务功能的开发与完善,而具体文本的整理可由研究学术的专业人士来完成。这样,开发者就可能开发出比较成功的文献检索服务系统,而数据库中的文本也由于专业人士的加入而能大大提高文本的准确率,然后合成为一个规模较大的公共古典文献数据库。当然,输入和整理古典文献文本可以采用投标(或以申报项目形式)来确定,规定统一格式,要求保证文本的正确率达到一定比例,完成后再分别导入这一公共古典文献数据库中;经过若干年努力,最终能形成一个规模巨大、适应于学术研究的公共古典文献数据库。我想,采取这种措施不但节省了大量重复投资,真正做到人尽其才,物尽其用,而且一旦建立起这个规模巨大的公共古典文献数据库,可以解决了目前数据库泛滥、文本错误太多、重复劳动等弊病,而且真正能做到广大学者对古典资源“共享共有”。
在此基础上,各个开发商可以力求开发学者们个性化的文献检索服务系统,它无须考虑文献文本内容,但必须功能强大、操作方便,并与公共古典文献数据库完全兼容,学者们通过“购买”文本或其它方式来方便地组建自己的数据库,这样或许会给学术研究带来真正的方便。
还须补充的是,我国的古典文献中有大量表格与图片,而由于技术原因,目前所有古典文献数据库都没有导入原著的表格与图片,极个别数据库有少量图片也是不能检索,这是目前众多古典文献数据库的重大失误之一。其实只要真正化力气去探索,这个问题是不难解决的。因为笔者曾作过设计并反复试验,只要设计合理,图片与表格不但可以导入数据库,而且都是可以在数据库中进行检索。
其三,加速确定字库方案,以利数据库健康发展。当然,要真正解决公共古典文献数据库问题,还必须解决字库问题。目前,国家虽然组织专家在论证有关字库问题,然而由于进程不快,远远落后于当今计算机技术发展的需要。按照笔者的看法,应该建立一个以Unicode字库为基础的、适应汉语古籍需要的、并与国际接轨的真正有中国特色的字库。这就需要抓紧工作,迅速落实扩展字库B的内码。同时根据我国汉字的具体特点,对自定义区域的6400字的内码配置也应该有所规范,这样才能使汉语字库统一问题落实到实处。如果真能做到如此,那么就能真正解决目前古典文献数据库之间字库互不兼容问题。
与字库相关联的是字体问题。古典文献数据库应该考虑到古代文献对文字的特殊需要,笔者以为凡是古代文献数据库中的文本应该保留繁体字,以防繁简不分而导致文义偏差。就目前计算机技术来说,解决这一问题是毫无困难的。其实用繁体字输入文本早已不是问题,而扫描古籍文本再转换成文字的技术也十分成熟,如北京书同文公司的“数码翰林”OCR识别系统,应该说是极有价值的识别软件,对绝大多数繁体文字能够正确识别。如果能再进一步加以改进,使扩充字库数量并与Unicode字库兼容,那么古代文献的文字识别问题是可以得到解决的。应该强调的是,古代文献以繁体字导入数据库,但应该允许在数据库中自由进行繁简转换,换句话说,若需要使用繁体字时,文本可以保留繁体字,而需要简体时,可以十分方便地转换成简体,这样就适应用户对繁简体的不同需要了。
转贴于:范文网(www.fanwenchina.com)
共6页: 上一页 [1] [2] [3] [4] 5 [6] 下一页