RFC1691 康奈尔大学数字图书馆文档体系结构RFC文档中文翻译计划(http://www.china-pub.com/compters/emook/aboutemook.htm)

发表于 4年以前  | 总阅读数:2153 次
组织:中国互动出版网(http://www.china-pub.com/)
RFC文档中文翻译计划(http://www.china-pub.com/compters/emook/aboutemook.htm)
E-mail:ouyang@china-pub.com
译者:张彦富(zhyfln  zhyfln@163.net)
译文发布时间:2001-4-26
版权:本中文翻译文档版权归中国互动出版网所有。可以用于非商业用途自由转载,但必须
保留本文档的翻译及版权信息。
			



康奈尔大学数字图书馆文档体系结构
(RFC 1691  The Document Architecture for the Cornell Digital Library)

Status of this Memo

   This memo provides information for the Internet community.  This memo
   does not specify an Internet standard of any kind.  Distribution of
   this memo is unlimited.

Abstract

   This memo defines an architecture for the storage and retrieval of
   the digital representations for books, journals, photographic images,
   etc., which are collected in a large organized digital library.

   Two unique features of this architecture are the ability to generate
   reference documents and the ability to create multiple views of a
   document.

【介绍】

1989年,在Preservation And Access(保存和访问)委员会以及后来Sun 
Microsystems公司的支持下,康奈尔(Cornell)大学和施乐(Xerox)公司开始合作
研究为图书馆内储藏的数据数字化建立模型。施乐公司负责开发大学图书馆资料
存取系统(CLASS),康奈尔大学负责开发通过网络访问CLASS数字化图书馆的软
件。
施乐公司和康奈尔大学图书馆工作人员紧密合作,首先一起明确了存储要求,
即要保存低分辨率和高分辨率两个版本的图像文件,低分辨率版本用于通过网络
浏览,高分辨率版本用于打印输出。然后定义了内部可导向的文档结构。施乐公
司开发创建和存储文档的软件,康奈尔大学开发允许通过网络浏览和请求打印文
档的软件。
康奈尔大学定义了基于CLASS文档体系结构,并按该体系结构来管理数字化
图书馆资料。

【文档体系结构概述】

正如传统图书馆保存的图书是按册而不是按页一样,电子图书馆保存资料也
必须是文档而不是一些图像文件。在将图书扫描成图像文件过程中,通过建立的
文档结构文件,能自动将扫描出来的图像文件按照图书原来页的顺序链接起来。
因此数字图书包括两部分――一组每页存为一个位图图像文件和将图像文件“装
订”成书的文档结构文件。另外为了能使读者能按作者、标题等书目信息检索电
子文档,还用数据库为每一个文档保存这些信息。在纸板图书中,除了有页的序
号外,还提供了许多其它信息给读者。首先是标题和出版信息,在正文前有目录,
正文分为章节,有时还会在正文后给出索引信息。当读者在图书馆书架上找书时,
就是靠这些信息决定是否借阅这本图书的。
建立文档结构就是为了能直接访问电子图书的这些信息,如果不存储这些信
息,当图书电子化后就不能利用这些信息了。

【文档体系结构要求】

下面列出了康奈尔大学数字图书馆文档体系结构的基本要求:
1.体系必须是开放的(即能方便出版和访问);
2.体系越简单越好(便于产品开发);
3.体系采用UNIX文件存储系统;
4.体系要满足标准使用,如作为FTP和Gopher服务器; (即一个文档的所有页
图像文件必须存储在同一个目录下,文件名必须按标准排序规则,即按
“0001.TIF, 0002.TIF, ... 0411.TIF”; 如果命名为“1.TIF, 2.TIF, ... 
10.TIF”,文件就会排列成“1.TIF, 10.TIF, 2.TIF”, 这种排序不符和习惯。)
5.体系应能为相同信息按不同格式提供存储,例如 能为每一页图像文件存储不同
分辨率的文件;
6.必须为每一页图像文件存储一个低分辨率的“指甲图”,以便于浏览和数据共享;
7.该体系必须支持文件的分发,便于相似的文件存储在一起,允许对存储和性能
优化处理;
8.该体系必须对文档间相互指引提供支持;
9.该体系必须能通过网络将文件不同内容存储到其它服务器上;
10.该体系不仅要支持文档的分级结构,还要能定义文档的多个视;
11.该体系要能自由建立而不是事先规定文件的目录结构,这样就能将用其它方式
建立的文件能够简单地通过将信息加入到数据库中来建立文档,而不用拷贝
或移动文件。

【文档体系描述】

数字化图书馆包括数字化图书馆服务器、网络存储和关系数据库。一个数字
化图书馆包括一组或多组馆藏集,每一组馆藏集包括一个或多个文档。
关系数据库允许读者按作者、标题和文件代号来查找文档。现在实现的系统
中,关系数据库采用的是SQL,每一种馆藏集对应数据库的一个表。已经计划将
数据库升级到Z39.50来使用更优化的搜索方法,该协议已经成为图书馆数据库应
用的标准。
尽管从设计上可以从任何层次上甚至在单个文件级别上设置授权检验,但本
次实现访问权限设置在馆藏集级的。只有当有人试图打开文档或访问特别的内容
是才会给出警示通告。
每一个文档包括三部分:逻辑结构文件、物理关联文件和数据文件。
逻辑结构是文档的逻辑描述。从概念上讲,一个文档就是一个树结构,它的
叶子就是数据文件(图书的页)。一个文档的逻辑结构至少包括图书页的列表和他
们出现的顺序。通常文档要包括更多的结构描述。逻辑结构文件将文档的逻辑结
构与物理关联文件联系起来组成文档。
物理关联文件将文档的逻辑结构的最低层次(树的叶子)映像到存储数据的
文件。如果文档得一页有多个版本的文件,比如不同分辨率的图像文件,在物理
关联文件中都给链接到一起。
数据文件包括组成文档的数据。要能够包容所有格式,如影像文件,ASCII
文本文件,PostScript文件等。然而数据文件和其格式是一一对应的,以便在物
理关联文件中实现关联。也就是说,如果一页数据有多种文件类型存储,那么这
些文件必须确切地表示它的类型的信息。

【物理关联文件】

物理关联文件是将文档逻辑结构(文档的逻辑组成)和实际存储的物理文件
联系起来的文档文件。在物理关联文件中处理文档关联,能使一个文档全部或部
分地存储在不同的服务其中。
一个文档可以包括多种文档对象,而每一种文档对象又可以包括一个或多个
数据对象。如果一个文档包括最终的物理数据(比如有扫描建立的影像文件),就
要建立一个主文档对象。如果一个文档中包含有其它文档中的内容,就要建立一
个关联文档对象。文档对象按内部关联序号编号,在对应的数据对象行中也包括
该编号。
数据对象行包括文档对象号、文件关联号和文件类型三部分内容。数据对象号指
向文档对象行,从文档对象行可以得到图书馆名,馆藏集名和文档代号。用组元
++++  
(<图书馆代号>+<馆藏集代号>+<文档代号>+<文件类型>+<关联文件>)
保证能够正确找到文件。每一个数据行都指向单独的文件,如果文档的一页有多
种类型文件,就建立多行在数据对象。
在物理关联文件中所有的文档对象行位于所有的数据对象行的前面,文档对象行
要么作为一组一起存在文件的头部,要么紧挨存储在对应的数据对象行的前面。
文档对象行按文档对象号的顺序排列。数据对象行按期顺序号的顺序排列,不安
文档对象号的顺序排列。
在物理关联文件种字段间用竖条符|隔开。

文档对象行

字段	内容		备注
1	文档对象号	0为主文档对象,1-9位指向文档对象
2	图书馆名	服务器名
3	馆藏集名	
4	文档代号	8位数字
5	作者
6	卷号
7	标题
8	版本

数据对象行

字段	内容		备注
1	文档对象号	和文档对象行中相对应
2	顺序号
3	关联文件	用于在文件系统中查找文件的关联数字
4	物理关联数字	与逻辑结构文件中相等
5	文件类型	1=TIFF 600dpi
				2=TIFF 小图块
				3=ASCII文件 
				4=ASCII文件注释
				5=其它类型
				6=TIFF 300dpi
6	备注

物理关联文件举例

+0|CORNELL|OLINLIB|00000001|Boole. Mary Everest||Philoscophy||
|0|1|00000002|5|1|| (关联文件号2,物理关联文件号5,600dpi TIFF影像文件)
|0|2|00000003|5|2|| (关联文件号3,物理关联文件号5,100dpi TIFF影像文件)
|0|3|00000004|6|1|| (关联文件号4,物理关联文件号6,600dpi TIFF影像文件)
|0|4|00000005|6|2|| (关联文件号5,物理关联文件号6,100dpi TIFF影像文件)
注:在上面的例子中,已经确保了关联文件2和3是同一页的两个不同版本,关
联文件4和5也一样。

【逻辑结构文件】

逻辑结构文件是将影像文件连结起来构成文档来提供文档视,该文件实际上
是一棵未安装的树,当文件打开的时候,读入该文件,就会重新建立了树结构。
为了方便起见,逻辑结构文件只包括一种逻辑结构,即页,用来按照纸板图书页
的顺序来排列文档。

文档结构行

字段	内容		备注
1	父结构号	是谁的子结构
2	顺序号
3	逻辑结构名	该结构的标号
4	结构号		和物理关联文件相同
5	子逻辑结构	该结构的逻辑子结构号
6	子物理结构	该结构的物理子结构号
7	关联		

逻辑关联文件举例

|0|0|ROOT|0|4|0|0|	结构0,根,有四个逻辑子结构
|0|1|PAGES|1|100|0|1|   结构1,页,有100个逻辑子结构
|0|2|CONTENTS|2|22|0|1|	结构2,目录,有22个逻辑子结构,无物理子结构       
 ...
|1|1|Production note|5|0|2|2| 结构5,是结构1的子结构,
				标号为 "Production note"
				无逻辑子结构,有两个物理子结构
				在本文档中引用两次
|1|2||6|0|2|1|                结构6无标号
|1|3||7|0|2|1|                结构7有两个物理关联
|1|4||8|0|2|1|                结构8仅被引用一次
|1|5||9|0|2|1|                结构9是页的第五个子结构
 ...
|1|99||103|0|2|2|
|1|100||104|0|2|2|
|2|1|Production note|105|1|0|1|          结构105是结构的子结构
|2|2|Title page|106|1|0|1|               结构106有1个逻辑子结构
|2|3|Table of contents|107|2|0|1|
|2|4|Chapter 1. From Arithmetic to Algebra|108|6|0|1|
|2|5|Chapter 2. The Making of Algebras|109|4|0|1|
|2|6|Chapter 3. Simultaneous Problems|110|4|0|1|
|2|7|Chapter 4. Partial Solutions...|111|3|0|1|
|2|8|Chapter 5. Mathematical Certainty...|112|3|0|1|
|2|9|Chapter 6. The First Hebrew Algebra|113|8|0|1|
|2|10|Chapter 7. How to Choose our Hypotheses|114|9|0|1|
|2|11|Chapter 8. The Limits of the Teachers Function|115|5|0|1|
|2|12|Chapter 9. The Use of Sewing Cards|116|4|0|1|
 ...

|2|20|Chapter 17. From Bondage to Freedom|124|5|0|1|
|2|21|Appendix|125|2|1|1|
|2|22|advertisements|126|4|1|2|
|105|1|Production note|5|0|2|2|          结构是结构105的子结构
|106|1|Title page|11|0|2|2|              结构11的第二次引用
|107|1|7|15|0|2|2|
|107|2|8|16|0|2|2|
 ...
|126|4||104|0|2|2|

【实现细节】

   用组元 ++++  ( <图书馆代号>+<馆藏集代号>+<文档代号>+<文件类型>+<关联文件
>)来保证对文件的定位。 文件定位程序在特定操作系统的文件系统中将该组元
解析成完全路径和文件名。 由于图书馆计算机总是具有和UNIX文件系统相同的
体系结构,采用这种组元结构很适合查找优化。体系的每一层都有一个信息文件
来描述其底层体系结构。当打开一个图书馆、馆藏集、或文档时,文件定位程序
读取该信息文件来获得文件目录结构信息。下面给出两个例子。
     实例一. 采用图书馆、馆藏集、文档、文件类型层次体系。
  /			  (图书馆名)
          LIBINFO.TXT                      图书馆层结构信息描述文件
          /		  (馆藏集名)
                 COLINFO.TXT               馆藏集层结构信息描述文件
                 /		  (文档标号)
                       DOCINFO.TXT         文档层结构信息描述文件
                       LOGSTR.000          逻辑结构文件
                       PHYSREF.000         物理关联文件
                       /	   文件类型1
                               00001.TIF
                               00002.TIF
                               ...
                       /	   文件类型2
                               00001.TIF
                               00002.TIF
                               ...

   实例二.  采用图书馆、文件类型、馆藏集、文档层次体系。

  /						   	图书馆名	
          LIBINFO.TXT                  	图书馆层结构信息描述文件
          /						文件类型1
                  /		馆藏集名
                         COLINFO.TXT     	馆藏集结构信息描述文件
                         /	文档标号
                               DOCINFO.TXT  文档层结构信息描述文件
                               LOGSTR.000   逻辑结构文件
                               PHYSREF.000  物理关联文件
                               00001.TIF
                               00002.TIF
                               ...
          /						文件类型2
                  /		馆藏集名	
                         COLINFO.TXT      馆藏集结构信息描述文件
                         /	文件标号
                               DOCINFO.TXT   文档层结构信息描述文件
                               LOGSTR.000    逻辑结构文件
                               PHYSREF.000   物理关联文件
                               00001.TIF
                               00002.TIF
                               ....

这种结构形式数据有些冗余,但是在讲一个完整的馆藏集安装到不同文件系
统上时获得性能上的优化。特别是第二中实现形式能使所有低分辨率的图像文件
存储在高速磁盘上,而将高分辨率图像文件存储在低速磁盘上,对低分辨率文件
实现快速访问,又能降低费用。这也限制其它软件系统(FTP、Gopher)访问权限
便于实现,只允许其访问低分辨率的图像文件、限制对高分辨率的图像文件的访
问。

【安全措施】

   该体系结构未考虑安全措施。

【参考文献】

   [1] Turner, W., "Cornell Digital Library Document Architecture,
       Version 1.1 - 3/22/94", Library Technology Department, Cornell
University.

Author's Address

       William Turner
       Library Technology
       502 Olin Library
       Cornell University
       Ithaca, NY  14853

       Phone: 607-255-9098
       Fax:   607-255-9346
       EMail: wrt1@cornell.edu
RFC 1691  The Document Architecture for the Cornell Digital Library  康奈尔大学数字图书馆文档体系结构


1
RFC文档中文翻译计划
 相关推荐

刘强东夫妇:“移民美国”传言被驳斥

京东创始人刘强东和其妻子章泽天最近成为了互联网舆论关注的焦点。有关他们“移民美国”和在美国购买豪宅的传言在互联网上广泛传播。然而,京东官方通过微博发言人发布的消息澄清了这些传言,称这些言论纯属虚假信息和蓄意捏造。

发布于:7月以前  |  808次阅读  |  详细内容 »

博主曝三大运营商,将集体采购百万台华为Mate60系列

日前,据博主“@超能数码君老周”爆料,国内三大运营商中国移动、中国电信和中国联通预计将集体采购百万台规模的华为Mate60系列手机。

发布于:7月以前  |  770次阅读  |  详细内容 »

ASML CEO警告:出口管制不是可行做法,不要“逼迫中国大陆创新”

据报道,荷兰半导体设备公司ASML正看到美国对华遏制政策的负面影响。阿斯麦(ASML)CEO彼得·温宁克在一档电视节目中分享了他对中国大陆问题以及该公司面临的出口管制和保护主义的看法。彼得曾在多个场合表达了他对出口管制以及中荷经济关系的担忧。

发布于:7月以前  |  756次阅读  |  详细内容 »

抖音中长视频App青桃更名抖音精选,字节再发力对抗B站

今年早些时候,抖音悄然上线了一款名为“青桃”的 App,Slogan 为“看见你的热爱”,根据应用介绍可知,“青桃”是一个属于年轻人的兴趣知识视频平台,由抖音官方出品的中长视频关联版本,整体风格有些类似B站。

发布于:7月以前  |  648次阅读  |  详细内容 »

威马CDO:中国每百户家庭仅17户有车

日前,威马汽车首席数据官梅松林转发了一份“世界各国地区拥车率排行榜”,同时,他发文表示:中国汽车普及率低于非洲国家尼日利亚,每百户家庭仅17户有车。意大利世界排名第一,每十户中九户有车。

发布于:7月以前  |  589次阅读  |  详细内容 »

研究发现维生素 C 等抗氧化剂会刺激癌症生长和转移

近日,一项新的研究发现,维生素 C 和 E 等抗氧化剂会激活一种机制,刺激癌症肿瘤中新血管的生长,帮助它们生长和扩散。

发布于:7月以前  |  449次阅读  |  详细内容 »

苹果据称正引入3D打印技术,用以生产智能手表的钢质底盘

据媒体援引消息人士报道,苹果公司正在测试使用3D打印技术来生产其智能手表的钢质底盘。消息传出后,3D系统一度大涨超10%,不过截至周三收盘,该股涨幅回落至2%以内。

发布于:7月以前  |  446次阅读  |  详细内容 »

千万级抖音网红秀才账号被封禁

9月2日,坐拥千万粉丝的网红主播“秀才”账号被封禁,在社交媒体平台上引发热议。平台相关负责人表示,“秀才”账号违反平台相关规定,已封禁。据知情人士透露,秀才近期被举报存在违法行为,这可能是他被封禁的部分原因。据悉,“秀才”年龄39岁,是安徽省亳州市蒙城县人,抖音网红,粉丝数量超1200万。他曾被称为“中老年...

发布于:7月以前  |  445次阅读  |  详细内容 »

亚马逊股东起诉公司和贝索斯,称其在购买卫星发射服务时忽视了 SpaceX

9月3日消息,亚马逊的一些股东,包括持有该公司股票的一家养老基金,日前对亚马逊、其创始人贝索斯和其董事会提起诉讼,指控他们在为 Project Kuiper 卫星星座项目购买发射服务时“违反了信义义务”。

发布于:7月以前  |  444次阅读  |  详细内容 »

苹果上线AppsbyApple网站,以推广自家应用程序

据消息,为推广自家应用,苹果现推出了一个名为“Apps by Apple”的网站,展示了苹果为旗下产品(如 iPhone、iPad、Apple Watch、Mac 和 Apple TV)开发的各种应用程序。

发布于:7月以前  |  442次阅读  |  详细内容 »

特斯拉美国降价引发投资者不满:“这是短期麻醉剂”

特斯拉本周在美国大幅下调Model S和X售价,引发了该公司一些最坚定支持者的不满。知名特斯拉多头、未来基金(Future Fund)管理合伙人加里·布莱克发帖称,降价是一种“短期麻醉剂”,会让潜在客户等待进一步降价。

发布于:7月以前  |  441次阅读  |  详细内容 »

光刻机巨头阿斯麦:拿到许可,继续对华出口

据外媒9月2日报道,荷兰半导体设备制造商阿斯麦称,尽管荷兰政府颁布的半导体设备出口管制新规9月正式生效,但该公司已获得在2023年底以前向中国运送受限制芯片制造机器的许可。

发布于:7月以前  |  437次阅读  |  详细内容 »

马斯克与库克首次隔空合作:为苹果提供卫星服务

近日,根据美国证券交易委员会的文件显示,苹果卫星服务提供商 Globalstar 近期向马斯克旗下的 SpaceX 支付 6400 万美元(约 4.65 亿元人民币)。用于在 2023-2025 年期间,发射卫星,进一步扩展苹果 iPhone 系列的 SOS 卫星服务。

发布于:7月以前  |  430次阅读  |  详细内容 »

𝕏(推特)调整隐私政策,可拿用户发布的信息训练 AI 模型

据报道,马斯克旗下社交平台𝕏(推特)日前调整了隐私政策,允许 𝕏 使用用户发布的信息来训练其人工智能(AI)模型。新的隐私政策将于 9 月 29 日生效。新政策规定,𝕏可能会使用所收集到的平台信息和公开可用的信息,来帮助训练 𝕏 的机器学习或人工智能模型。

发布于:7月以前  |  428次阅读  |  详细内容 »

荣耀CEO谈华为手机回归:替老同事们高兴,对行业也是好事

9月2日,荣耀CEO赵明在采访中谈及华为手机回归时表示,替老同事们高兴,觉得手机行业,由于华为的回归,让竞争充满了更多的可能性和更多的魅力,对行业来说也是件好事。

发布于:7月以前  |  423次阅读  |  详细内容 »

AI操控无人机能力超越人类冠军

《自然》30日发表的一篇论文报道了一个名为Swift的人工智能(AI)系统,该系统驾驶无人机的能力可在真实世界中一对一冠军赛里战胜人类对手。

发布于:7月以前  |  423次阅读  |  详细内容 »

AI生成的蘑菇科普书存在可致命错误

近日,非营利组织纽约真菌学会(NYMS)发出警告,表示亚马逊为代表的电商平台上,充斥着各种AI生成的蘑菇觅食科普书籍,其中存在诸多错误。

发布于:7月以前  |  420次阅读  |  详细内容 »

社交媒体平台𝕏计划收集用户生物识别数据与工作教育经历

社交媒体平台𝕏(原推特)新隐私政策提到:“在您同意的情况下,我们可能出于安全、安保和身份识别目的收集和使用您的生物识别信息。”

发布于:7月以前  |  411次阅读  |  详细内容 »

国产扫地机器人热销欧洲,国产割草机器人抢占欧洲草坪

2023年德国柏林消费电子展上,各大企业都带来了最新的理念和产品,而高端化、本土化的中国产品正在不断吸引欧洲等国际市场的目光。

发布于:7月以前  |  406次阅读  |  详细内容 »

罗永浩吐槽iPhone15和14不会有区别,除了序列号变了

罗永浩日前在直播中吐槽苹果即将推出的 iPhone 新品,具体内容为:“以我对我‘子公司’的了解,我认为 iPhone 15 跟 iPhone 14 不会有什么区别的,除了序(列)号变了,这个‘不要脸’的东西,这个‘臭厨子’。

发布于:7月以前  |  398次阅读  |  详细内容 »