四月青年社区

 找回密码
 注册会员

QQ登录

只需一步,快速开始

查看: 9156|回复: 69

令中国人汗颜 美国老人开发程序将甲骨文搬上网络

[复制链接]
发表于 2011-2-4 11:32 | 显示全部楼层 |阅读模式
本帖最后由 凉夜清 于 2011-2-4 19:15 编辑

在家乡美国田纳西州,理查德·希尔斯是个完完全全的小人物。离婚、失业、独居,甚至过去的一个月里,因为花光了所有的积蓄,他一度陷入深深的绝望。可在过去的半个月,在地球另一端的中国,这位头发花白的美国老人,突然成为被网友们讨论的热门人物。他所创办的汉字字源网站,在网络上被广为传播。

  在这个界面简陋的网站上,随便输入任何一个汉字,人们都能找到它的字形在历史上如何演变小篆、金文,甚至还包括回溯几千年,它被刻在甲骨上的模样。

  “这个外国人的工作让每个中国人汗颜。”一位网友评价说。

  60岁的希尔斯可从没想到自己会成为一个“名人”,事实上,尽管为了创建那个网站,他花费了20年的时间和全部的存款,可身边的朋友和家人却几乎没有人觉得,那是一件有意义的工作。

  38年前,当希尔斯突发奇想开始学中文时,这个物理系的大学生只是希望了解,那些说别的语言的人会如何思考、交流。他来到了台湾,在街头拼命跟人聊天,并且在那里结识了自己后来的妻子。

  口语练好了,希尔斯又开始张罗着学认字。可是那些毫无逻辑的汉字笔画总是让他一头雾水。于是,这个已经步入中年的男人再一次“突发奇想”,研究起了古汉字。

  可在英文书籍里,关于汉字古文字的书籍只有一本。并且,关于词源的解释,不同的书籍也不相同。希尔斯又琢磨着把不同的解释都输入电脑,这样自己就可以很方便地从中挑选出最符合自己的词源。为此,他先开发了一个小程序,到了2003年,又把它们搬上了互联网。

  几十年过去了,这位美国人已经能够顺利地用中文阅读、写作,可关于说中文的人“如何思考、交流”,他仍然没有完全理解。希尔斯曾经向中国的朋友展示自己的网站,可很少有人真的感兴趣。有些人会“出于礼貌”地赞扬几句,还有人直截了当地评价他“浪费时间”。15年前,当他来到中国拜访一些古文专家时,这些专家甚至觉得,眼前的这位美国人在“异想天开”。

  “那些古旧、愚蠢的甲骨文,我们早就不用了。”一位中国朋友告诉他,“这个网站根本挣不来钱的。”

  希尔斯一次又一次地发现,金钱似乎才是人们的兴趣所在。这让这个美国老人在十几年后还连连叹气:“中国人总是忙着挣钱,可总有些东西比金钱更加重要。”

  现实里的希尔斯,是一位电脑工程师。年轻的时候,他在硅谷的一家IT公司拿着一份不错的薪水,也就是那个时候,他雇用了一位中国妇女,教她用电脑,并且从几百本书里把汉字不同的字形扫描到电脑里。但现在,这个曾经满身黝黑肌肉的帅小伙儿,已经身材发福、头发花白,失业三年。

  “也许是因为那些公司不想雇用一个像我这样上了年纪的人,何况,我也并没有那么认真地去找工作。”希尔斯笑了笑说,“我喜欢学习,我觉得这比工作有趣多了。”

  为了寻找那些古代的汉字字形,他跑遍了中国大陆和台湾几乎所有大学的图书馆,查阅了几百本书。看得多了,他甚至还能提出自己的解释。比如汉字 “金”,说文解字形容它字形的来源是“金在土中”,可希尔斯觉得,它的象形文字应该来源于“钟”的形状,因为这样才能让人立刻明白“金属”的概念。

  身边的人们几乎没人能理解他的坚持,其中也包括他最终选择离婚的妻子。只有网上一些学习中文的人会写信给他,夸赞他做了一项“伟大的工作”。这些人并不知道,希尔斯已经连租用服务器所需要的每年47美元都快付不出来了。但现在,来自中国的关注总算给他带来了一点好消息。当来自中国网友的鼓励和赞扬突然间蜂拥而至的时候,希尔斯正在加利福尼亚州给自己92岁的母亲过生日。这个两年前才退休的中学数学老师,是唯一没有抱怨过希尔斯工作的家人。

  1月24日,坐在田纳西州诺克斯维尔市自己租来的小房间里,这位美国老人觉得内心又一次充满了希望。“感谢上帝。这么多年过后,那些中国的朋友终于让我的母亲相信,我做了一件正确的事情。”他笑着说。

  注:大家可以访问:http://www.chineseetymology.org 这个网站,在这里你可以输入不同的汉字,然后点击“etymology” 那个按钮来查看这些汉字的字形。

来源: 中国青年

评分

1

查看全部评分

发表于 2011-2-4 11:54 | 显示全部楼层
正常人谁看得懂,谁会去看这玩意
回复 支持 反对

使用道具 举报

发表于 2011-2-4 11:56 | 显示全部楼层
一看就知道假新闻   现在的汉字有多少个   甲骨文又有多少个?   说什么在这个界面简陋的网站上,随便输入任何一个汉字,人们都能找到它的字形在历史上如何演变小篆、金文,甚至还包括回溯几千年,它被刻在甲骨上的模样。??????????????还被人拿来当宝,绝对的智商问题。
回复 支持 反对

使用道具 举报

发表于 2011-2-4 12:07 | 显示全部楼层
一看就知道假新闻   现在的汉字有多少个   甲骨文又有多少个?   说什么在这个界面简陋的网站上,随便输入 ...
拓拔玉 发表于 2011-2-4 11:56


这应该不是假新闻。我看了那个网站。的确是那样的。

希望你在出口之前,能先调查一下。

现在的汉字,每个都是有其演化来历的。最终都可以回溯到甲骨文去。有些现代字是简化来的,有些是变形来的,有些是组合来的。

那位老人的确做了大量的工作。
回复 支持 反对

使用道具 举报

发表于 2011-2-4 12:13 | 显示全部楼层
这应该不是假新闻。我看了那个网站。的确是那样的。

希望你在出口之前,能先调查一下。

现在的汉字,每 ...
袭明 发表于 2011-2-4 12:07



    你在说话之前也先调查一下   目前甲骨文学术研究是多么艰难   一个甲骨文就能写一篇很有影响力的学术论文  有这么轻松么?网站在不一定科学    古文字研究是一项很严谨的工作   好心未必办得了好事    那个网站的确存在   但是存在又能证明什么呢?
回复 支持 反对

使用道具 举报

发表于 2011-2-4 12:36 | 显示全部楼层
其实我很反感一种人,开口闭口,一看就是假的!那么艰难,绝对不可能!科学的进步和学术的发展总是在各种艰难险阻中前进。
回复 支持 反对

使用道具 举报

发表于 2011-2-4 12:38 | 显示全部楼层
即便如此,有何令中国人汗颜之处? 美国人就不能研究甲骨文了么,非要中国人来研究不可?荒谬
回复 支持 反对

使用道具 举报

发表于 2011-2-4 14:03 | 显示全部楼层
看到了 中国青年报 五个字

如果,想查从甲骨文,金文到现代文字的发展过程。拿2本字典就可以了。

建议老人设计 通假字,古音转注,上古音、中古音等等的程序,再请中国青年报来报道。
回复 支持 反对

使用道具 举报

发表于 2011-2-4 15:42 | 显示全部楼层
给楼上的找2本字典,自己建个拉丁文或者楔形文字的溯源网站试试?
回复 支持 反对

使用道具 举报

发表于 2011-2-4 16:05 | 显示全部楼层
问题是国内根本没人想到做这种工作,别说建网站了,就是数据库都没有。
回复 支持 反对

使用道具 举报

发表于 2011-2-4 16:06 | 显示全部楼层
这就是我们对传统文化的态度——没有钱,什么都别谈。
回复 支持 反对

使用道具 举报

发表于 2011-2-4 16:09 | 显示全部楼层
给楼上的找2本字典,自己建个拉丁文或者楔形文字的溯源网站试试?
Armand 发表于 2011-2-4 15:42



    我有字典就够用了
回复 支持 反对

使用道具 举报

发表于 2011-2-4 16:24 | 显示全部楼层
问题是国内根本没人想到做这种工作,别说建网站了,就是数据库都没有。
abeltian 发表于 2011-2-4 16:05




http://www.cssn.cn/news/136630.htm
浅谈古籍书目数据库建设中的主题标引


张洪茹

内容提要 从古籍、主题标引、古籍主题标引的概念;目前我国古籍主题标引的状况;对古籍进行主题标引的必要性和利用《中国分类主题词表》对古籍进行主题标引的可行性等方面,阐述了古籍书目数据库建设中有关古籍主题标引的相关问题。

关键词 古籍,主题标引,古籍主题标引,中国分类主题词表



古籍是中华民族丰厚文化积淀的载体,它博大精深的内涵是我们研究传统文化、弘扬民族精神取之不尽用之不竭的宝库。为更好地利用这一宝贵资源,建立馆藏古籍书目数据库,是方便读者查询、提高古籍利用率的一个重要手段。但目前我国大多数图书馆的古籍书目数据都未进行主题标引,笔者认为编制古籍书目数据时进行主题标引非常重要。本文就此谈点粗浅认识,以抛砖引玉。

1古籍、主题标引、古籍主题标引的概念

国家图书馆副馆长陈力先生在《中文古籍数字化的再思考》一文中说,古籍是一个非常模糊和难以定义的概念。但是,他认为大家公认的古籍是内容反映中国古代传统思想、学术与文化的,主要产生于民国以前的文献。这也是古籍与现代文献最根本的区别所在。

主题标引是通过对文献内容的分析,把文献所论述的对象(或事物)概括出来,再使用规范化词汇———主题词,将其按照一定的规则加以组织,使之成为文献检索入口的过程。

古籍主题标引是在古籍编目的过程中,标引人员对古籍所论及或涉及的事物进行概括,选用正式主题词,将其按照一定的规则加以组织,使之成为古籍检索入口的过程。

2我国图书馆实施古籍主题标引的现状

主题标引是深入揭示文献内容,提供多途径检索的一个重要手段。然而,包括国家图书馆、上海图书馆等在内的国内大多数图书馆的古籍书目数据都未进行主题标引。其主要原因可能是因为没有一部专用的古籍主题词表。笔者认为,古籍主题词表的缺失确实给古籍的主题标引带来一定的困难;但是,我国目前规模最大的分类主题一体化的情报检索语言———《中国分类主题词表(第二版)》(以下简称《中国分类主题词表》)可作为古籍主题标引的主题词表,该词表收录主题词及主题词串21万条,包括哲学、社会科学和自然科学所有领域的主题概念。虽然古籍内容五花八门,其传统分类也与现代科学分类大相径庭,但其学科范畴和论述主题大多在《中国分类主题词表》有所反映。天津图书馆在建设影印古籍《四库全书》系列书目数据库的过程中,尝试进行主题标引,依据的就是《中国分类主题词表》。

3古籍主题标引的必要性

3.1古籍书目数据的完整性、规范化的要求

CNMARC包括0-9十个功能块。其中6———为主题分析功能块,包括:600(个人名称主题)、601(团体名称主题)、602(家族名称主题)、604(名称和题名主题)、605(题名主题)、606(论题名称主题)、607(地理名称主题)、608(形式、体裁或物理特性标目)、610(非控主题词)、615(主题范畴)、616(商标主题)、620(出版地/制作地检索点)、675(国际十进分类法分类号)、676(杜威十进分类法分类号)、680(美国国会图书馆分类法分类号)、686(国外其他分类法分类号)、690(中国图书馆分类法分类号)、692(中国科学院图书馆图分类法分类号)、696(国内其他分类法分类号)等多个字段。虽然本功能块中的字段均为选择使用,但对于一条完整、规范的MARC数据而言,无论从深入揭示文献的主题内容,还是向用户提供文献论述事物和学科属性的检索入口,主题标引和分类标引都是不可或缺的。目前,各大图书馆的古籍书目数据大多数只有分类标引,没有主题标引,这样的古籍书目数据显然是不完善的。

3.2读者检索与利用古籍的实际需求

“一切为了读者”是图书馆服务工作的出发点和归宿。把满足读者的需求放在首位,同样是图书馆文献整序工作的出发点和归宿。读者在图书馆通过有效的检索获得自己需要的文献,这是每个馆员的共同心愿。文献标引的目的就是通过标引人员的工作,在检索语言中选取最适合文献内容特征的检索词语或号码,把文献和读者的检索需求联系起来,使读者能在浩瀚的文献海洋中全面、准确、迅速地查到自己需要的特定文献。文献标引是建立文献检索系统和提供文献检索途径的关键环节,也是整个文献整序工作的重要基础。在编制古籍书目数据库时,实施主题标引就是为读者提供最接近自然语言的古籍文献检索点,它比分类检索更专指、更实用。

3.3古籍文献语言特点的需要

由于古籍普遍使用古汉语,读者单从书名是很难了解图书的具体内容的。如《吹景集》,十四卷,(明)董斯张撰。如果只看书名就会误以为该书是作者的一个别集,其实该书的内容多为考证经史短章,有“朝玄阁杂语四十则”、“合疏董彦远启”等,书名虽似集部,内容却实为子部杂家类里的杂说。再如《郝定公集》,五卷,(清)郝惟讷撰。此书内容为作者在督察院时的奏疏八篇、在刑部时奏疏四篇,属史部诏令奏议类,也非集部文学作品。对于那些对古籍不是很了解的读者,如果为每部古籍做了主题标引,那么,读者输入自己需要查找的古籍论述的主题事物,这方面的书籍便能被检索出来。主题检索途径是读者(特别是对古籍不太熟悉的读者)查找古籍的好帮手、好途径。

4古籍主题标引工作的实践

4.1利用《中国分类主题词表》对古籍文献进行主题描述

四部书目分类体系是我国古代书目分类体系的精华,即将所有的典籍分为经、史、子、集四大部类,经部主要收录儒家经典及其传、释和文字学方面的著作;史部主要收录历史及地理、时令、政书、目录等方面的著作;子部主要收录哲学、军事、天文、算法、医学、农业、艺术、工商等方面的著作;集部主要收录总集、别集及其他文学方面的著作。中国古代典籍的分类编列从《隋书经籍志》正式采用经、史、子、集四部类目名称后,四部分类法就成为古代文献的主要分类法,清代所编具有深远影响的《四库全书》对收录典籍的编列采用的就是四部分类法,故四部分类体系又称“四库法”。

按照四部分类体系比对以《中国图书馆分类法》为代表的当代科学知识分类体系,不难发现,经部的著作涉及:B哲学、宗教类,H语言、文字类等;史部的著作涉及:D政治、军事类,K历史、地理类,P天文学、地球科学类(P193季节、时令类),Z综合性图书(Z8图书目录、文摘、索引)类等;子部的著作涉及:B哲学、宗教类,E军事类,F经济类,J艺术类,P天文学、地球科学类,R医药、卫生类,S农业科学类等;集部的著作大多涉及:I文学类。

使用《中国分类主题词表》就可以找到相对应的主题词及词串进行古籍的主题标引。如《晋政辑要》,(清)刚毅修,(清)安颐纂。此书按四部书目分类体系它应收在史部政书类,在《中国分类主题词表》D691.5政书类,对应的主题词串为:“政书-中国”。当然,像本例直接从主题词表中查到适用主题词或主题词串的情形不是很多,但是只要熟练掌握《中国分类主题词表》和主题标引技术,利用《中国分类主题词表》对古籍文献进行主题标引在理论上是可行的;笔者在完成天津市市级社科课题——天津图书馆影印古籍“四库全书系列”书目数据库建设过程中,实施主题标引的尝试,也表明了其实践层面的可操作性。

4.2利用《中国分类主题词表》对古籍文献进行主题标引

笔者在影印古籍《四库全书》系列书目数据库的建设中,对每条子目都做了分析著录,并依据《中国分类主题词表》进行了主题标引。如《金佗稡编》,(宋)岳珂撰。此书被收在史部传记类,从此书的四部分类我们最多也就了解到此书是传记类的书籍,要了解具体某个人的传记,必须对此书进行仔细阅读。利用《中国分类主题词表》,对此书进行主题标引为:600#0@a岳飞@f1103~1142@x生平事迹(#表示空格,以下同)。这是一个个人名称主题,对文献具体内容的揭示显然更专指,更直观。

又如《栖碧先生黄杨集补遗》,(元)华幼武撰。此书收在集部别集类元代,按照四部分类的揭示,我们只知道此书是一部元代的个人的文学作品。利用《中国分类主题词表》,对此书进行主题标引为:6060#@a古典诗歌@x诗集@y中国@z元代。不难看出,该书文学作品的体裁信息清晰、明了。

笔者认为,在古籍书目数据库的建设过程中,利用《中国分类主题词表》对古籍进行主题标引非常有必要,实践上也是可行的。古籍主题标引的目的是建立古籍主题检索系统;以古籍主题标引为基础的主题检索是读者查找、检索古籍文献的重要途径;主题检索以其直观、专指以及特性检索之特点必将在古籍资源的开发中发挥越来越大的作用。



[参考文献]

[1]陈力.中文古籍数字化方法之检讨[J].国家图书馆学刊,2005(3).

[2]熊伟华.中小型图书馆如何建立古籍书目数据库[J].图书馆论坛,2004(3).

[3]梁桂英.利用SulcmisⅢ建立古籍书目数据库的实践和体会[J].图书馆学刊,2006(4).
回复 支持 反对

使用道具 举报

发表于 2011-2-4 16:25 | 显示全部楼层
这就是我们对传统文化的态度——没有钱,什么都别谈。
abeltian 发表于 2011-2-4 16:06



三十年来中国古籍数字化研究综述(1979-2009)

耿元骊(辽宁大学历史学院)

学术的新发展和新进步,端赖新材料和新方法。学人常常引用的陈寅恪先生的名言"一时代之学术,必有其新材料与新问题"[1]来说明材料和问题的重要性,不过新材料和新问题又绝离不开新手段的应用,"取用此材料,以研求问题"的过程就是新方法、新手段的应用过程。可以说,没有新手段的应用,新材料和新问题就得不得恰当的梳理和总结、分析。随着计算机软硬件的水准提升和互联网的高速发展,学术研究呈现了新的面貌--人文社会科学也不例外--计算机和互联网同样在大显身手。而人文学科的一个极小分支--古籍整理与研究也随之全面进入了数字化阶段。应该说,古籍数字化正在逐步迈向独立的学科建置。回顾古籍数字化30年所走过的历程,更有助于我们认识古籍数字化的真正价值,内中学术意义不言自明。
  据笔者的初步统计,古籍数字化方面论文大约有800余篇,按年图示如下。如果以10%-20%的遗漏率计算,则内地发表的相关文章将近1000篇,再约略估计海外、日本、欧美等国有关论文数与之相同,则全部论著数量或可超过2000篇之数,已是蔚为大观。下面笔者综合所见论著(多数为内地用中文发表),并参考其他学者的分析,简单回顾和讨论古籍数字化30年来所走过的学术发展之路,以整理材料,俟之高明。




 一、起步、探索、介绍阶段(1979-1994)
  古籍数字化在早期亦多称电子化或者计算机化,与计算机及信息技术发展密不可分。1979年,力一向国内学术界介绍了苏联学者把计算机技术应用于人文科学,其中特别提到已经取得了成果的领域就包括历史学:"对史料、考古学资料及民族志资料的信息加工"[2],这应该说是在国内最早关于可以在古籍方面使用计算机的介绍。1980年,江小平介绍了法国在人文社会科学方面使用电子计算机的情况。[3] 也许是在这2篇文章的启发下,到1981年,就有学者使用计算机软件来处理史料中记载陨石陨落周期,[4]张叔媛和于志钧可能是内地使用计算机来统计史料的第一人。另外,该文预言:"今后利用电子计算机开发我国古史料的科研工作必将蓬勃发展",将近30年后,我们很高兴的看到预言成真。
  1983年召开的全国语言学学科规划会议上,邀请了中文信息电子化的专家与会,专门介绍了电子计算机在语言学上的应用,同时确立在《论衡》、《朱子语类》、《儿女英雄传》三部汉语史专书中用计算机编制引得。[5]彭昆仑先生尝试用电子计算机来分析统计《红楼梦》中的时间进程和人物年龄问题。1984年,栾贵明、李秦尝试从理论上阐释古文献数字化:"随着微型机数量的增加、功能发展以及分布的扩大,其信息的贮存量会愈来愈多,并在一定范围,从一个地区到全国以及世界各地组成网络,形成一个巨大的资料库,所有信息资源便可共享。实现了这个目标,我国几千年来汗牛充栋而又星罗棋布的古文典籍,可尽行收入方寸之地,召之即来。使用微型机对这些古籍进行版本研究、文句校勘、文字订正、字义诠释、篇章会注、作品编年、古语今译,乃至标点、分段等等都将成为现实。"[6]
  1987年,深圳大学组织人力,在输入《红楼梦》全文并建成多功能检索系统之后,[7]把全唐诗输入了电脑。这是古籍数字化工作是比较早的。[8]大约与此同时,中国社会科学院在栾贵明先生的带领下,也从《全唐诗》入手,陆续建成汉字库、全唐诗歌数据库、诸子集成数据库等。[9] 到1988年,更有条理和系统化的分析由曹书杰先生做出,他首先提出了"机整"的概念,并从整理研究对象的确定;各项功能指标和古籍文献研究、标识工作方案的形成;程序设计和文献标识;文献信息库和必要辅助知识库的建立;综合运行等五个方面讨论了"机整"工作的方法与步骤。[10] 武汉大学在陈光祚教授带领下,也开始从事地方志全文检索系统的研究工作,并取得了一定成果。[11] 1987年6月,哈尔滨师范大学李波等建成《史记全文检索系统》,北京师范大学建成了中国年历日历谱微机检索数据库。[12] 而李岩的目光不仅仅局限于古籍的电子化,他提出了计算机在古籍整理工作各个方面的应用前景。[13]
  这一时期的古籍数字化工作特色主要是建立了若干文本的索引,很多初涉此道的专家学者都谈了这方面的体会,感受到了计算机索引的巨大威力。于曼玲等认为,计算机索引简便、快速、可靠。[14]而这也是诸多人文学研究者的共同感受。张普在1989年指出"一个计算机与古籍整理相结合的新局面正在形成,更大规模的更加完善的古籍资料库和数据库正在筹划",因而"从总体上规划建立计算机存储介质上的汉语古典文献库,建立各种检索系统,筹划资源共享、联机检索等问题已经应该提上国家有关机构的议事日程了"。[]1993年召开了"海峡两岸中国古籍整理研究现代化技术研讨会",台湾学者演示了二十四史语料库,十三经语料库,红楼梦多媒体系统,大陆学者演示了大汉字中文平台等。诸多学者认为,计算机整理古籍的理论和技术尚未完善。[16]
  这一时期还起步了古籍书目的数字化工作,有学者指出:中国古籍著录可以采用国际文献著录标准和方法,并应该在其基础上编制机读目录;为编辑联合目录并合条目所需的条件,不能仅是提供行格字数,应该建立一套每种书的版式描述、版本特征记载、序跋的标题、撰人和撰写年代、确定版本的具体依据等的版本档案,构成《版本志》;计算机有宽广的检索与组合功能,贮入的资料可随时调整、修正,陆续积累。[17]1993年柯单介绍了中美两国联合编制中文古籍善本书机读目录的进展情况。[18]何小清在列举90年代中期以前完成的《史记索引》等工作后,认为:"机编索引将逐渐主导索引编纂领域,"家庭手工业"模式将一去不复返了"[19]。
  从上文的介绍可以看出,1979-1994年间,古籍数字化工作的各个领域工作均已展开,也取得了一定的成绩。当然更要看到,这个期间,每年的文章数目均为个位数,13年间累计发文30多篇,内地发表20多篇。公允的说,古籍数字化研究工作仍然是处于介绍、起步和探索阶段。
  二、提高、建设、初步发展阶段(1995-2001)
  1995年以后,古籍数字化工作开始高速发展起来。当年7月召开的"中国古籍整理研究出版现代化国际会议"起到了极大的号角作用。本次会议由中国中文信息学会、国家古籍整理出版规划小组办公室等联合主办,一百多位学者出席,共发文35篇。内容涉及大汉字集平台、古汉语语料库、古典文学CAI教学、古籍自动照排、多媒体和估计出版、古籍OCR技术、全文检索、辅助校勘等诸多方面,[20] 这是古籍数字化工作的一次重大集中讨论。
  姚松指出,当前前亟待解决的问题是需要一个古籍整理计算机通用平台,以便解决字符集、字型、输入、输出问题;同时还要解决输入方法问题,建设大字符集的扫描识别,辅之文本校对系统;还要做好通用软件,也就是随机工具的研究和制作工作。[21]这也受限于当时的计算机发展水平,随着计算机和网络技术水准的提高。这些问题也逐步得到了解决。姚俊元认为,缺乏支持古籍整理研究的中文平台,特别是字库问题,是当前的突出问题。因此他建议尽快确定大汉字库标准。同时建设语料库和汉字属性字典。[22] 与此同时,随着windows操作系统的开始流行,王涵撰文指出windows和mac系统能较好地解决古籍整理研究工作中的多元混合作业问题。特别以mac机所附带的Hyer Card多媒体软件为例说明,这种软件可以把多种文字信息、图像信息贴合起来,微机可以利用多种媒体进行古籍研究整理的多方面工作。作者特意指出即将来临的windows时代会淘汰很多已经有的工作,所以建议要有超前意识,尽可能利用最先进的技术手段。[23]
  1996年,一项庞大的电子典籍工程提上了日程,就是大藏经电子文库的制作。当年4月在国家宗教局的主持下,发起了新修《大藏经》的工作。与会的电脑技术专家和文献研究专家认为,大藏经的电脑化可以提供一个文献整理的全新的视野,在录入、校对、断句、出版等工作中提供一个广泛参与的机会和最现代化、最有效的手段与方法。可以大大提高典籍文献的查询检索速度,提高资料使用效率,简化资料收藏保管工作。[24]这是一项非常庞大的计划,同时拟定了《关于制作大藏经电子文库的工程技术方案》和《关于制作大藏经电子文库的技术经济背景概述》等详细说明文件。[25]
  这一阶段,古籍书目的数据库建设得到了较快发展,这方面主要是图书情报界的学者和图书馆实务界的专家在进行研究。刘刚认为,古籍书目数据应该纳入到统一综合书目数据库中,在机读格式上则应使用北京图书馆提出的CNMARC格式,在著录标准上应采用GB3792。7《古籍著录规则》,数据库应该使用繁体。[26]周秦指出,古籍书目数据库建设八年来一直未见有影响的数据库的问世。作者认为,古籍书目数据库应该与普通图书合库处理,同时更要做好建设与利用、维护工作。数据的规范控制,主要是主题规范,特别是主题词表仍有待于开发。[27] 朱岩从信息处理角度对《中国古籍善本书目》的数据作出了分析,以便于检索的角度对数据进行切分,使之单元化,使之能成为信息系统数据结构设计的依据。[28] 秦淑贞认为,规范化的古籍书目数据库,是指在各种编目软件支持下做出的在格式、内容、标引依据以及字体等方面都按国家标准作出的一致的古籍书目数据库。应该在机读目录格式、著录规则、分类法、主题标引依据,字库、普通图书库等方面完全统一。[29]李荣慧也认为,古籍书目数据库建设仍存在没有统一完善的古籍分类法,著录标准欠妥善、未普及,主题词标引难实施,从业人员知识结构不合理,没有权威组织协调机构等问题。[30]陈美亚在自建古籍书目数据库还是以后套录古籍书目数据库、本馆所建书目数据库是否能达到规范化要求、古籍丛书子目怎么建库等方面进行了思考。[31]
  关于古籍数字化的一些基础数据工作也得到了关注。胡海帆等根据拓片元数据的著录对象、著录单位、关系等要素特点,把元数据从结构上分为描述性、管理性、地理信息等类。[32]郭小武讨论了简体和繁体的电子文本转换工作。[33]
  在这一时期,古籍全文数据库建设也取得了突飞猛进的进展。上海图书馆启动古籍善本全文光盘工程,1996年底初步建成"中国古籍善本查阅系统",主要提供全文影像,少部分提供全文检索。[34] 辽宁省图书馆利用IBM的TDI数字相机对古籍进行数字化加工,形成了古籍精选、历史存照等内容。[35] 1998年启动的国家图书馆"中国数字图书馆工程"其中数字方志资源库、石刻拓片资源库、甲骨文献资源库、馆藏各类文献书目数据库、永乐大典资源库等六个子项目均是古籍项目。[36]其他的古籍全文类项目估计约有20余项,其中较为知名的有商务印书馆的百衲本《二十四史》电子版光盘、中国地方志宋代人物资料管理系统、续资治通鉴长编全文检索系统、全唐诗电子检索系统等。而其中最有代表性的古籍全文软件当属迪志公司开发的《文渊阁四库全书》和两种《古今图书集成》,尤其是前者,在文史研究学者,国学爱好者当中的影响和作用极为广大,特别是由于广泛传播所造成的"普及"直接使广大普通人得以享用饕餮盛宴,当然这对迪志公司相当不公平。
  《文渊阁四库全书》电子版也标志着中文信息处理技术实用化有了重大的突破。使用了unicode编码下的大文字平台,通过超大数量和种类繁多的特定人手写文字光学识别,联机无纸快速准确的校队软件技术,形成了跨平台和跨语境全球版产品制作技术、全文检索技术、词典工具书挂接等高新技术。作为该项目的技术负责人的张轴材在《电子出版》连续4期发表文章,分析了项目的开发技术。[37] 刘博认为,"《文渊阁〈四库全书〉电子版》综合地运用着古籍数字化技术的前沿成果,同时在一定程度上又推动了新的技术的开发,取得了宝贵的经验,该产品的面世,标志着我国古籍数字化处理技术取得了重大突破,为我国大规模的古籍数字化奠定了良好的基础,同时。该项目也是建设大规模中文数字图书馆的重要尝试。"[38]
  广西金海湾电子音像出版社和广西师范大学出版社出版的《古今图书集成》电子版也是这一时期出版的较为重要的古籍数字化成果。[39]该系统请曾经编制《古今图书集成索引》的广西师大林仲湘教授重新编制了电子版数据库索引。在充分把握原著分类特点和电子检索功能的基础上,建立了36个数据库索引,有36万条记录,共约1200万字。索引与正文联通,可直接调用相应的正文。特意标注了纸本页码,便于查找。较为可惜的是,由于建立的windows98平台上,随着windows操作系统的快速更新,已经非常不便于利用,这是一个非常遗憾的事情。
  这一时期,有更多的文史学者加入了古籍数字化的应用行列,也发表了一些关于应用古籍数字化成果的论述。如罗凤珠曾讨论过红楼梦网络数据中心如何对红学发展产生了影响。[40]郁默介绍了台湾"中央研究院汉籍全文资料库"的主要构成和使用办法,[41] 诸如古籍电子化、数据库对于文学、古汉语、十三经、古代史等方面的影响都有学者进行表述和介绍。[42]而史睿试图从理论上阐释古籍数字化与人文学术研究的关系,认为古籍数字化是现代学术研究的基础,而古籍数字化的理论比技术更为重要,提出了古籍数字化的解决方案。[43] 另外,在很多具体学科门类也出现了应用成果。楼宇烈介绍了日本、韩国、美国以及香港、台湾等地的电子佛典建设工作,并对内地电子佛典建设提出了建议。[44]中国第一历史档案馆为加快信息化建设的步伐,实现明清档案整理、编目、编研、流通、信息发布的自动化和网络化面向外界招标,清华紫光中标。[45] 裴丽则探讨了医古籍文献资源数字化建设若干原则。[46]
  总的看来,古籍数字化的各项工作已经全面铺开,在这一时期发表的150余篇文章中,已经涉及到古籍数字化的各个方面。说明古籍数字化的理论和实践正在逐步成熟,特别是以文渊阁四库全书电子版为代表的一批全文数字化成果至今仍然在广泛使用,对学术研究仍然发挥着无比巨大的影响力。
  三、基本完善、商业应用、网络化阶段(2002- )
  2002年以后,古籍数字化工作突飞猛进,在诸多方面都取得了长足的进展,先后出现了多种总结和综述。作为著名的古文献专家,祝尚书分析了古籍整理研究数字化、信息化的现状,并指出版权、重复劳动、盗版、市场化、数字化图书馆和专业古籍出版社如何结合等是困扰当时古籍数字化的主要问题。[47]李弘毅把古籍数字化划分为准备阶段、自动化实施的过渡阶段、自动化发展的高级阶段。[48]陈立新认为,古籍数字化的当前问题是缺乏统一的古籍机读目录,汉字平台,古籍文献规范文档,影像处理标准,适合古籍的Metadata。[49] 岳占伟介绍了多种古籍数字化产品后认为,特殊古籍的检索系统需要开发特定的原字检索技术,针对特殊古籍的新录入技术,特殊古籍的文字环境一并录入,电子出版物与数字化图书馆等是古籍数字化工作面临的巨大挑战。[50] 陈力的总结则视角更广,也更系统。他认为,古籍数字化关注焦点过于集中于少数常用特别是丛书类的古籍,而一些学术界需要的古籍鲜有顾及。数据库封闭,在技术上很难与其它数据库融为一体,造成知识体系的割裂。不少机构并不采用通行的工业标准,而是自行设定相关的数字化加工与组织标准。不过这些仍然是表面现象,古籍数字化如何定位,特点如何才是深层次问题。陈力指出,古籍数字化是数字图书馆建设的重要组成部分,应该是开放的。古籍数字化应该根据古籍的特点来进行,数字化的过程是一个信息重组并上升为知识的过程。图书馆、读者、同行,用户都应该是古籍数字化的参与者。[51]吴家驹把古籍数字化的成果进行了初步的统计。[52]
  这一时期的显著特点之一,就是关于古籍数字化理论和学科建设的深入讨论,逐步完善,成熟起来。李明杰认为,古籍数字化最主要的就是实现知识关联的全文检索,是实现了语义关联和知识重组的数字化信息的过程。并讨论了什么样的古籍适合数字化,由谁来实现数字化,并介绍了如何实现数字化的四方面关键点。[53] 毛建军在2006年指出,古籍数字化属于古籍整理的范畴,代表着古籍整理的未来方向。古籍数字化研究中存在着古籍整理学界参与少,理论研究相对滞后的特点。构建古籍数字化系统理论可以为古籍数字化出版提供基础理论,开拓古籍整理和古典文献学专业的新视野,为文史研究者提供新思维和新工具。[54] 博客如舸斋指出,传统文献学是数码文献学的基础,数码文献学是传统文献学的延伸;传统文献学是治学门径,数码文献学是治学利器;传统文献学是求真的学问,数码文献学是有效的工具。[55]而代表了学科成熟度的教科书出现,说明古籍数字化理论已经较为成熟。毛建军主编的教科书在分析了学术诸多关于古籍数字化的定义之后认为:古籍数字化就是从利用和保护古籍的目的出发,采用计算机技术,将常见的语言文字或图形符号转化为能被计算机识别的数字符号,从而制成电子索引、古籍书目数据库和古籍全文数据库,用以解释古籍文献信息资源的一项系统工作。[56] 教科书的出现,说明古籍数字化工作开始了系统化的梳理,理论建构初步成熟,学科体制已经形成,这是古籍数字化方向的重要成果。
  马少平等介绍了古籍全文数据库的几种类型:完全图像、目录文本和正文图像、全文本、全文图文对照,并设计了古籍数字化的系统流程图和识别子系统流程图,对于大型中文古籍的数字化系统提出了自己的解决方案。[57] 古籍数字化工作中的基础工作建设也得到了空前的重视,国家层面上提出了建设《国家数字图书馆标准规范》,并由中国科技信息研究所、中国科学院文献情报中心和中国国家图书馆联合发起于2002年启动了相关工作,得到科技部科技基础性工作专项资金重点项目资助。主要针对数字图书馆系统的数字资源建设与服务,制定我国数字图书馆标准规范发展战略与标准规范框架,制定数字图书馆核心标准规范体系,建立数字图书馆标准规范开放建设与开放应用机制。项目一期从2002年10月开始,到2005年9月结束。二期从2006年开始。其中设定了子项目《我国数字图书馆标准规范专门数字对象描述元数据规范》,试图通过对国内外已有的专门数字对象的元数据标准进行研究,同时针对中文数字资源的特点,选取不同类型的资源对象,以及具有中国文化特色的文献资料类型(如古籍、拓片、舆图等),通过试验研究,最终确定揭示和描述这些对象内容及其特性要采用的元数据标准,建立元数据格式及其扩展和互操作规则等,并提出初步的操作规范与应用指南。其中制定了古籍数字化方面需要遵循的22项数据规范或著录规则。[58]
  古籍书目数据库建设也是这一时期的重点建设内容,徐清回顾了1995年到2006年间的古籍书目数据库建设工作,认为古籍书目数据库建设研究以建库的标准化、规范化为重点进行了一系列的探讨,取得了值得关注的成果。虽然在具体的问题上尚存在诸多分歧,甚至可以说还处于起步和实验阶段。但在古籍联合目录数据库的建设问题上,也达成了一定的共识:编制古籍联合目录数据库是进一步保存保护和开发利用古籍文献的基础,它对于学术研究和传播传统文化具有重要意义,古籍联合目录数据库的建置需在统筹规划、合作协调的基础上,借助于科学的可操作的统一规范来完成。[59] 毛建军对古籍书目数据库加以定义,认为其是指在统一的机读目录格式下按照相应的标准和规范加工而成,并最终以计算机网络系统形式向用户提供相关古籍数据资源检索的大型目录数据库。并列表统计了海外、港台的古籍目录库。[60] 熊伟华介绍了国内古籍书目检索网点的总体状况,并进行了列表统计。认为存在的问题主要是网络较差,古籍书目检索时有时无;缺乏对本馆古籍资源情况的介绍和对检索方法的说明;大多数合库者对古籍书目数据库并入综合书目数据库都未作说明,不便利用;缺乏主题标引,各检索系统在机读目录字段设置、繁简字使用和分类法使用上也极不统一。[61]
  古籍数字化的专题工作也得到了迅猛发展,特别是在农业古籍、民族古籍、中医古籍、敦煌学等方面表现突出。南京农业大学是农业古籍数字化研究的最优秀者,有多部博士论文论文涉及农业古籍的数字化问题,[62]并由侯汉清主持,获得了国家社科基金2008年的资助项目《文化典籍整理与开发的智能技术研究》。2005年,常春讨论了农业古籍数字化项目的建设意义,并应用竞争情报的SWOT分析法,分析了农业古籍数字化项目的发展策略。[63] 盛玲玉指出,建立农业古籍书目数据库,并建立图文版的农业古籍库,是最适合的数字化方式。[64] 2004年批准由农业信息研究所承担的国家科技基础性工作专项"农业古籍珍藏及全文数字化研究与建设"项目,于2006年12月23日通过验收。该项目重点完成了基于图像的数字化农业古籍全文检索技术研究;国家农业图书馆古籍数字馆藏质量控制研究;农业古籍全文数字化检索技术研究和用户服务系统完善等。建成适合农业古籍特点、数据内容完备、著录规范化、标准化程度较高的古籍书目数据库,总计12,767种,13,044册,其中重要农书、史书可与一次文献连接,数字化全文总量达6000余册,80余万页,Tif 格式原图文件700余G,部分为彩色图像。实现古籍文献目录、全文图像、检索工具的"一站式"查询检索门户体系建设,为国家农业图书馆古籍网络化、数字化资源共享,搭建了良好的基础平台;设计出"Web农业古汉语电子词典"(试用版),作为帮助读者在线阅读农业古籍的工具,方便用户利用。[65] 在中医古籍、数字敦煌、民族古籍方面也先后发表了数十篇文章,极大的推动了数字化技术在相关方向的应用。
  2002年以来,古籍全文数字化最大的一项工程是《中国基本古籍库》,由刘俊文总策划、编纂、监制。北京爱如生公司研发制作,2005年全部完成。共计500张光盘,总字数20亿,图像2000万页。收录了先秦到民国时期的典籍1万余种,均提供一个通行版本的全文信息和1-2个重要版本的图像信息。并根据中国古籍分类法,创设了自己的分类办法,4个子库,20个大类,100个细目。检索方便快速,具有良好的阅读编辑功能。这是古籍数字化建设的极大成就,是古籍数字化建设最高水平的代表之一。不过由于其高昂的价格,只有少部分财力雄厚的大学、研究机构得以购置,使用较为不便,限制了其先进功能和技术能力为学术发展做出更大贡献的可能性。如何在防止盗版和推进学术之间找到平衡点,是一个高难度的任务。
  2002年以来,先后出现了多部较为集中讨论古籍数字化的专书。2002年,国家图书馆的内部刊物《文津流觞》第8期,建设了"数字化专辑",集中刊布了24篇文章,讨论了古籍数字化的各个方面,是图书情报界一次大规模集中的讨论,对古籍数字化工作起到了极大的推动作用。[66] 本年出版的《西夏文字数字化方法及其应用》在系统介绍和讨论了古籍数字化、电子化的一些基本理论之后,系统介绍了非汉字古籍数字化的方法,讨论了西夏字库的建立和编码及版面识别等问题,这是第一本系统讨论古籍数字化及实现技术的专著,有着极其重要的代表性。[67] 2004年,在台北召开的"古籍联合目录数据库合作建置第三次研讨会"集中讨论了古籍书目数据库建设工作。2007年出版的《民国农业文献数字化整理及信息组织》研究了农业文献索引和电子图书编纂以及文献数据库建设等问题。[68] 而前述2009年出版的毛建军先生所主编《古籍数字化理论与实践》,虽然尚存诸多不完善之处,却仍是古籍数字化理论表述的集大成者。毛建军2008年完成的南京大学博士毕业论文《古籍数字化理论研究》从古典文献学和古籍整理学角度系统提出了古籍数字化的基本理论框架,提出了古籍电子索引、古籍书目数据库以及古籍全文数据库的概念,对古籍数据库的规范提出了评价标准。
  在文史学者应用当中,陈爽的几篇文章,再一次普及了古籍数字化知识。[69]吴宣德从使用者角度认为古籍数字化选题内容重复,文件格式繁多,阅读和资料提取麻烦。项目规划单调,产品开发缺乏连续性,得到了广泛的共鸣。[70] 王兆鹏介绍了电子古籍文献检索资源,[71]刘伟归纳总结了《史记》的相关电子资源,[72]杨琳介绍了数字化的古典文献。[73]郑永晓认为,决不能仅仅满足于把计算机当作一个检索工具。应当适应并利用其独特的思维方式,在古籍数字化的基础上将古代文学研究提升到一个更高境界。计算机人工智能首先在古籍整理方面大有用武之地,在古典文学研究方面也有其契合点。同时对版本意识淡薄、字库设计不规范以及缺乏合适的程序设计语言等古籍电子化过程中面临的问题作了探讨。[74]
  可以说,大部分古籍数字化建设项目都是在2002年左右开始启动的,有些项目已经建设完成,2002年是古籍数字化建设的一道重要分水岭。从2002年开始,古籍数字化的理论表述逐步成型,各类数据库建设基本完善,大规模投入了商业应用,更多采用了网络化建设手段。若干大型学术会议的召开,特别是《文津流觞·数字化专辑》、《西夏文字数字化方法及其应用》、2004年起陆续推出的《数字图书馆标准规范·专门数字对象描述元数据规范》、《古籍数字化理论与实践》等论文集、专著、国家标准的出版和发布,基本奠定了古籍数字化的学科体系。CADAL和读秀则提供了绝大部分图像格式的古籍数字化产品。读秀是由超星公司建设的商业化数字化网络图书馆,可以咨询部分页面,由读秀(超星)制作的大量古籍数字化产品,成为学者的案头必备。CADAL是公益项目,列入了"十五"期间"211工程"公共服务体系建设的重要组成部分。与"中国高等教育文献保障系统(CALIS)"一起,共同构成中国高等教育数字图书馆的框架。CADAL采用全文浏览方式,以便让尽可能更多人看到原汁原味的古籍。也较好地解决了通用性问题,它不像"超星"与"书生之家"等系统,需要安装相应的浏览器才可阅读,用户仅需在IE浏览器上安装一小插件,便可浏览任一CADAL项目中制作的E-BOOK。[75]
  随着国学的普及化,更多的民间网站也投入了古籍数字化的行列。当然,这些民间网站在学术上尚未成熟,但是朝气蓬勃,人气也极为旺盛,而一些专业化网站门庭冷落。虽然网站高下不能以人气衡量,但是完全失去了人气的网站总是生命力不强的。这类网站多数以bbs形式展现,2003-2004年成熟,活跃在2005-2006年的有读书中文网,后期由于站长精力及其他因素导致关站,2008年以后转型成为非常小众化的网站。2005年左右建立的有国学数典网站(http://bbs。gxsd。com。cn/index。php),是目前同类网站中制度最完善,规模最大,会员最多的一家。2008年建立的龙腾国学网站(http://bbs。ltgx。net/index。php)有充足的空间,完善的架构体系,也是寻找诸W多古籍的优秀平台。另外一些有电子资源存在的网站如儒藏网、爱如生等开闭不时,在网络中影响较小。总体看来,这些网站的古籍数字化来源较为单一,偶尔有网友扫描的个别图书。另外,行走在版权边缘的巨大风险,也是民间古籍数字化网站头上的不可抗因素。
  四、古籍数字化研究历程的回顾与展望
  30年来,古籍数字化研究走过了一条快速发展的道路,成果丰富,效益显著。对学术研究工作起到了极大的助力作用,文史研究水平在古籍数字化的基础上得以进一步提高。总的看来,30年来的古籍数字化研究呈现加速度发展的态势,与计算机软硬件、互联网技术发展是同步的。
  回顾计算机及网络技术发展史,我们可以看到,1978年到1994年是网络初期:1978年, TCP/IP协议建立;1985年,"。com"和"。edu"域被分配出来;1986年,NSFNet建成,掀起与Internet连接高潮;1987年,在德国和中国间建立E-mail连接,钱天白教授发出中国第一封电子邮件;1990年,Internet开始建设。1995到2001年是网络就绪、影响期:1995年, WWW与搜索引擎成为最热门技术,;1996年,搜索引擎、JAVA、网络电话成为最热门技术,同时出现网络计算机等新技术;1997年,推送、多址广播成为最热门技术,同时出现流媒体等新技术;1998年,电子商务、网络拍卖、网络门户网站发展得如火如荼,电子贸易、XML、入侵检测等成为最新被关注的技术。全球电信、IT、互联网产业,基于同一个基础平台进行整合,产业边界模糊,产业链缠绕,标准趋于融合,最终形成。NET和J2EE两大阵营,激起了产业链中的创新变革和横向融合,产业发展的驱动力向应用服务转化。2002年至今是网络效益期:各种新技术、新应用层出不穷,几乎每个行业都开始享用数字化的饕餮盛宴。
  从所述的计算机和网络发展历程可以看出,古籍数字化历程没有脱离这个基本的发展轨迹,1979-1995是古籍数字化的起步阶段,成果少,功能不完善,几乎大部分最终产品都已经淘汰,甚至绝大部分的原始数据也被更完善更准确的数据取代。1995年-2001年,古籍数字化得到了更加广泛的关注,图书情报界、文史界、电子工程界、网络技术界都在参与古籍数字化工作,今天看来,很多工作启动比较匆促,成果不尽如人意。这一时期的最重要代表性工作就是由迪志公司和上海人民出版社合作的《文渊阁四库全书》电子版,其影响力至今尚未消歇,已经成为文史学者的装机必备。2002年以来,以《中国基本古籍库》为代表的大型系统成熟,国家数字图书馆标准规范发展战略与标准规范框架的建立,促使数字图书馆中的古籍数字化建设得到了规范。
  据笔者搜集的研究成果论著统计,在古籍数字化发展的30年历程上,有这样几个标志性的成果,理论表述方面:2002年的《文津流觞》第8期数字化专辑和《西夏文字数字化方法及其应用》,2006、2007、2008年完成的4部博士论文,2009年出版的《古籍数字化理论与实践》;学术会议方面:1995年召开的"中国古籍整理研究出版现代化国际会议",2004年召开的"古籍联合目录数据库合作建置研讨会",2007年召开的"第一届中国古籍数字化国际学术研讨会",2009年召开的"第二届中国古籍数字化国际学术研讨会"是其中的较为重要者;单机或网络文史软件方面:1999年完成的《文渊阁四库全书》电子版,1999年完成的《古今图书集成》电子版,2002年完成的《永川二十五史检索系统》,2005年完成的开放式中华古籍全文检索数据库《国学宝典》,2005年建成的《中国基本古籍库》等是为翘楚;在古籍书目库和基本标准建设方面:《古籍著录规则》(GB3792·7-87),《汉语文古籍机读目录格式使用手册》,国家图书馆馆藏善本古籍文献书目总库,上海图书馆家谱书目数据库,海内外图书馆合作编制收藏中文古籍书目资料45万条的"中文古籍书目数据库",2004年开始发布的数字图书馆标准规范专门数字对象描述元数据规范等是其中较有代表性的成果。
  总体上看,1995年召开的"中国古籍整理研究出版现代化国际会议"是第一次大规模的系统总结,1999年完成的文渊阁四库全书电子版是具有重大影响的古籍数字化成果,2002年的出版的《文津流觞》第8期和《西夏文字数字化方法及其应用》是古籍数字化研究的系统梳理,2004年召开的"古籍联合目录数据库合作建置研讨会"对于古籍书目数据库的编目工作推动极大,2005年完成的的中国基本古籍库是数量最大,系统较为完善的全文数字化成果,《国学宝典》则在普及国学数字化方面贡献甚大,2007年"第一届中国古籍数字化国际学术研讨会"和2009年出版的《古籍数字化理论与实践》则标志着学科体系的初步建成。
  展望未来,古籍数字化仍有极大发展空间,学术成长的道路还有极多工作需要开展。特别是在智能化检索的探索,联机字典的大力完善,以及学科体系建设,并形成个人本地数据库等方面有着广阔的未来!
  注释:
  [1] 陈寅恪:《陈寅恪集·金明馆丛稿二编》,三联书店出版社,2001年,第266页。
  [2] 力一:《苏联学者谈电子计算机用于人文科学》,《国外社会科学》1979年第1期。
  [3] 江小平:《法国〈世界报〉谈电子计算机进入人文科学问题》,《国外社会科学》1980年第2期。
  [4] 佚名:《电子计算机开发我国古代科学史料》,《中国科技史杂志》1982年第2期。该文转载自《北京晚报》1982年5月5日。文中提到该成果1981年曾在东京的国际陨石学术会议上发布。1975年,四川大学曾利用电子计算机来从事甲骨碎片缀合的工作,但这还不是文献史料的数字化工作。见童恩正:《关于使用电子计算机缀合商代卜甲碎片的初步报告》,《四川大学学报(自然科学版)》1975年第2期。
  [5] 语言学学科规划小组:《全国语言学学科规划会议纪要》,《语文研究》1983年第8期。
  [6] 栾贵明、李秦:《微电脑与古文献研究》,《古籍整理与出版情况简报》第127期,1984年8月20日。
  [7] 张普:《计算机在中国古籍整理研究领域中的应用(综述)》,《语文研究》1989年第4期。
  [8] 共月:《〈全唐诗〉在我校输入电脑》,《深圳大学学报(人文社会科学版)》1987年第1期。
  [9] 田奕:《古籍整理与研究的电脑化》,《中国文化》1994年第1期。
  [10] 曹书杰:《古籍整理与电子计算机应用研究的思考》,《古籍整理研究学刊》1988年第1期。
  [11] 刘宁:《汉字全文检索系统的分析、设计--从湖北省地方志全文检索系统的研制谈系统功能及设计方法》,《现代图书情报技术》1988年第2期。
  [12] 张普:《计算机在中国古籍整理研究领域中的应用(综述)》,《语文研究》1989年第4期。。
  [13] 李岩:《古籍整理研究技术手段现代化刍议》,《古籍整理研究学刊》1988年第4期。
  [14] 于曼玲:《用电子计算机编制古籍索引的体会》,《中山大学学报(社会科学版)》1988年第4期。
  [15] 张普:《计算机在中国古籍整理研究领域中的应用(综述)》。
  [16] 师文:《海峡两岸中国古籍整理研究现代化技术研讨会在京举行》,《语文建设》1993年第12期。
  [17] 佚名:《一次编制中国古籍善本书机读联合目录的试验》,《古籍整理出版情况简报》第225期,1990年5月1日。
  [18] 柯单:《美中联合编制中文古籍善本书机读目录进展情况》,《古籍整理出版情况简报》第267期,1993年2月。
  [19] 何小清:《我国古籍索引的新发展》,《辞书研究》1994年第4期。
  [20] 会议论文集未见出版。会前发布了通知。见佚名:《中国古籍整理研究出版现代化国际会议将在北京举行》,《出版参考》1994年第14期。会后简单综述见弓长:《首届中国古籍整理研究出版现代化国际研讨会在北京召开》,《语言文字应用》1995年第4期。由于资料缺乏,笔者未能搜集到这35篇文章全文,其文章题目见附录。
  [21] 姚松:《计算机用于古籍整理研究的现状与展望》,《中国典籍与文化》1995年第2期。
  [22] 姚俊元:《计算机辅助古籍整理研究的现状与思考》,《图书情报论坛》1995年第3期。
  [23] 王涵:《近年来微机操作系统的革命与古籍整理》,《中国典籍与文化》1995年第3期。
  [24] 本刊通讯员:《大藏经编纂及电脑化座谈会纪要》,《世界宗教研究》1996年第2期。
  [25] 方广錩主编:《藏外佛教文献第2辑大藏经编纂及电脑化特辑》,宗教文化出版社1996年。
  [26] 刘刚:《浅谈古籍书目数据库建设的若干问题》,《国家图书馆学刊》1996年第1期。
  [27] 周秦:《古籍书目数据库建设浅议》,《图书馆工作与研究》1997年第2期。
  [28] 朱岩:《中国古籍书目数据分析》,《国家图书馆学刊》1999年第2期。
  [29] 秦淑贞:《如何建立规范化的古籍书目数据库》,《现代图书情报技术》1999年第2期。
  [30] 李荣慧:《古籍书目数据库建设面临的问题及对策》,《图书与情报》2000年第1期。
  [31] 陈美亚:《对建立古籍书目数据库的思考》,《江西图书馆学刊》2001年第3期。
  [32] 胡海帆等:《北京大学古籍数字图书馆拓片元数据标准的设计及其结构》,《图书馆杂志》2001年第8期。
  [33] 郭小武:《电子文本的简繁转换--关于简体古籍逆向工程的实验报告》,《语言文字应用》2000年第4期。
  [34] 陈秉仁:《古籍善本数字化的尝试--中国古籍善本查阅系统述略》,《现代图书情报技术》1998年第1期。
  [35] 乔红霞《关于古籍全文数据库建设工作的思考》,《河南图书馆学刊》2001年第4期。
  [36] 国家图书馆数字资源建设指导小组:《国家图书馆数字资源建设(2003-2005年规划)》,http://ich。cass。cn/Article_Show。asp?ArticleID=378。
  [37] 张轴材:《〈四库全书〉电子出版工程与中文信息技术》,《电子出版》1999年第2、3、4、5期。
  [38] 刘博:《基于〈文渊阁〉四库全书电子版分析我国古籍数字化问题与对策研究》,郑州大学硕士论文,2006。
  [39] 唐建设:《古今合璧〈古今图书集成〉电子版》,《中国电子出版》1999年第4期。
  [40] 罗凤珠:《以"互动观念"建立"红楼梦网络数据中心"对红学发展之影响》,《红楼梦学刊》1997年增刊。
  [41] 郁默:《台湾中央研究院汉籍全文资料库》,《中国典籍与文化》1998年第3期。
  [42] 薛亚军:《古籍电子化对中国古代文学研究的影响》,《松辽学刊(社会科学版)》1999年第5期;陈海波:《关于数据库在古汉语研究中的应用》,《古汉语研究》2000年第3期;甘锐:《〈十三经词语索引〉系统的设计和建立》,《辞书研究》2000年第6期;袁林:《中国古代史研究数字化文献资源与利用》,《中国史研究动态》2000年第12期;张奇:《中国家谱上网现状与思考》,《图书馆杂志》2000年第5期;范子烨:《古籍电子化与中国古代文学研究--近年来若干古籍电子化工程及有关专业网站扫描》,"第一届全国高校中国古代文学科研与教学研讨会",上海,复旦大学,2000年4月。
  [43] 史睿:《试论中国古籍数字化与人文学术研究》,《汉字的应用与传播'99汉字应用与传播国际学术研讨会论文集》,华语教学出版社,2000年,第368页。
  [44] 施言:《楼宇烈教授谈电子世界的佛典》,《世界宗教文化》2000年第1期。
  [45] 邓小军:《一史馆招标清华紫光中标明清档案管理将实现现代化》,《中国档案》2001年第4期。
  [46] 裴丽:《中医古籍文献资源数字化建设探讨》,《图书馆学研究》2001年第6期。
  [47] 祝尚书:《试论古籍整理研究数字化、信息化的现状与问题》,《"中国传统文化与21世纪"国际学术研讨会论文集》,中华书局,2003年,第193页。
  [48] 李弘毅:《浅论古籍数字化的发展阶段》,《上海高校图书情报学刊》2002年第2期。
  [49] 陈立新:《古籍数字化的进展与问题》,《上海高校图书情报工作研究》2003年第2期。
  [50] 岳占伟:《中文古籍数字化的成就与挑战》,《殷都学刊》2004年第4期。
  [51] 陈力:《中国古籍数字化的现状与展望》,《古籍整理出版情况简报》2004年第4期。
  [52] 吴家驹:《中文古籍数字化进展与主要成果述评》,《南京师范大学文学院学报》2004年第3期。
  [53] 李明杰:《中文古籍数字化基本理论问题刍议》,《图书馆论坛》2005年第5期。
  [54] 毛建军:《关于古籍数字化理论建构的思考》,《高校社科动态》2006年第4期。
  [55] 如舸斋:《数码文献学与传统文献学》,http://blog。sina。com。cn/s/blog_42990e1901008vyh。html。
  [56] 毛建军主编:《古籍数字化的理论与实践》,航空工业出版社,2009年,第5页。
  [57] 马少平等:《大型中文古籍数字化系统的设计与实现》,第八届全国汉字识别学术会议,北京,2002年。
回复 支持 反对

使用道具 举报

发表于 2011-2-4 16:27 | 显示全部楼层
令人汗颜的只有 中国青年报
回复 支持 反对

使用道具 举报

发表于 2011-2-4 17:36 | 显示全部楼层
回复 13# 凉夜清


    人家是汉字,你抄些古籍的,虽然相关,但不相等吧?
回复 支持 反对

使用道具 举报

发表于 2011-2-4 17:39 | 显示全部楼层
回复 14# 凉夜清


   你引用的这些资料,只能说明我们在进行古籍数字化的工作,但不能说明我们在古典的使用上有什么创新。人家一外国老汉可以想出汉字溯源,中国那么多语言学家,有过这种想象吗?
回复 支持 反对

使用道具 举报

发表于 2011-2-4 18:22 | 显示全部楼层
回复  凉夜清


    人家是汉字,你抄些古籍的,虽然相关,但不相等吧?
abeltian 发表于 2011-2-4 17:36



    古今汉字能收集到上万个,而估计古籍卷目万计,字数更是亿万计。

价值不是更大了么。
回复 支持 反对

使用道具 举报

发表于 2011-2-4 18:33 | 显示全部楼层
回复  凉夜清


   你引用的这些资料,只能说明我们在进行古籍数字化的工作,但不能说明我们在古典的使用 ...
abeltian 发表于 2011-2-4 17:39



我国的文字学有2000年以上的历史了,自汉代许慎的《说文解字》、《尔雅》、刘熙的《释名》都在解释文字的同时开始了溯源工作,当时已经出现了“六书”说,也正是在整理当时汉字构造特点上,探求汉字初始之时的构造要素。
文字,音韵,训诂构成了古代学术的基础。
汉字的溯源已经有2000年以上了,特别是近代以来,甲骨文,金文,籀文等古文字学,上古音,中古音构成的音韵学,还有各种古汉语字典,《词源》构成的字义学,到现在我国的汉字溯源工程,已颇为丰硕了。

如果你到一家古籍书店和大型书店,可以找到半年墙的古汉语研究著作。
回复 支持 反对

使用道具 举报

发表于 2011-2-4 18:35 | 显示全部楼层
查一下最近几年的新书

《汉字结构析论》
  丛 书 名:
  定    价:58元
  作    者:王初庆 著
  发布日期:2010-7-16
  页    数:388页
  字    数:420千字
  包    册:11
    ISBN  :978-7-101-07047-7
  版    式:繁体横排
  装    帧:平装
  版    次:1-1
  开    本:16开
内容简介:
    该书在全面梳理“六书”的基础上,对汉字的结构进行了详尽分析,既谈六书也谈字例,既谈字形变化史也谈变化现象,理清了汉字孳乳发展的脉络,读者可以根据其分类原则及例证去了解其他汉字,并进而了解汉字孳乳演化及继续发展的方向。
    该书既可作为对文字学有兴趣者的入门之书,也可作为专业研究者的参考书籍。
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 注册会员

本版积分规则

小黑屋|手机版|免责声明|四月网论坛 ( AC四月青年社区 京ICP备08009205号 备案号110108000634 )

GMT+8, 2024-5-29 04:51 , Processed in 0.055257 second(s), 24 queries , Gzip On.

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表