论文网
首页 文科毕业办公档案正文

档案学基本理论在数字遗产长期保存中的应用分析

  • 投稿蓝调
  • 更新时间2015-09-22
  • 阅读量734次
  • 评分4
  • 11
  • 0

摘要:数字遗产长期保存是信息资源管理新的研究方向,其亟需档案学相关理论的指导,依照来源原则对数字遗产进行组织、管理是长期保存数字遗产的基本前提与原则。数字遗产是档案化的数字资源,采用分阶段管理、前端控制、全程管理等措施才能保证数字遗产的全生命周期安全。数字资源的鉴定需要综合考虑其社会价值以及数字资源产生机构的职能,并从宏观层面进行价值鉴定。

教育期刊网 http://www.jyqkw.com
关键词 :数字遗产长期保存;来源原则;文件生命周期理论;鉴定理论

中图分类号:G252 G270 文献标识码:A

王恪

一.前言

目前, “数字遗产”还没有统一的定义。一般来讲,数字遗产是具备一定的审美价值和文化价值,并能够起到文化传承作用的数字资源。数字遗产只通过数字化方式生成,不存在相对应的印刷版和其它形式版本。从个人权益保护和人类文化遗产保护与传承角度,“数字遗产”可以界定为“个人数字遗产”和“公共数字遗产”。这些数字遗产都是人类社会在信息时代的印迹,是对社会活动客观、真实的记录,都具有重要的保存价值。在网络时代,数字遗产的唯一性、易消失性使其极度脆弱,普遍面临着长期保存、利用和传承的困境。

数字遗产长期保存项目在世界各地如火如荼地开展,而本应该成为重要参与者的档案机构,却有被边缘化的危险。数字遗产的长期保存是一项融合图书馆学、情报学、档案学和现代信息技术的复杂工程,其不仅需要应用技术支撑,更需理论指导。档案学是一门研究信息资源的档案化管理和人类记忆长期保存的一门学科,档案管理基本理论对数字遗产长期保存具有极强的指导能力。来源原则、文件生命周期理论以及档案价值鉴定理论是档案学三大基本理论,正确认识档案管理基本理论在数字遗产长期保存中的应用,对于拓展档案学研究领域,提高档案学学术影响力,促进数字遗产长期保存工作具有重要意义。

二.来源原则在数字遗产长期保存中的应用

1 来源原则的基本内容

来源原则是档案分类中的至善原则和一切原则中的最高原则,是档案学科的理论基石。1898年,《档案整理与编目手册》在荷兰出版,使来源原则在国际上得到广泛传播。来源原则的基本含义可以概括为:尊重来源,尊重全宗的完整性,尊重全宗内的原始整理顺序。20世纪60-70年代,随着电子档案的大量出现,来源原则遭遇挑战。20世纪90年代以来,档案学者普遍认为了解电子信息形成和使用的背景信息对电子文件管理至关重要,实践证明电子文件对来源原则仍有很强的依赖性。在1996年第13届国际档案大会上,人们重新肯定了来源原则的价值,并指出来源原则由以往的实体来源一一文件形成机关,扩展为相对抽象的“文件形成过程”,即文件在什么条件、为了何种目的、采用怎样的结构形式等各种综合的背景信息。

2来源原则在数字遗产长期保存中的具体应用

“新来源观”是来源原则在数字时代的适应和发展。目前国内外较多采用“元数据”指代电子文件生成的背景信息。元数据是关于数据的数据,元数据中往往包含详细的内容特征(题名、主题等)信息、结构特征(格式、类型等)信息、背景特征(创建者、时间、来源等)信息和其它特征(语种、关联等)信息,能够实现对数字遗产的定位、发现、证明、评估、选择等。元数据是数字资源管理的基础,诸多数字遗产长期保存项目都依赖于完善的元数据集。

1996年,互联网档案馆( Internet Archives,IA)的正式成立标志着网络信息资源的保存在全球研究和实践的开始。IA是非营利性组织,目前其收集的数据已经超过10PB,其中包括3980亿份网页文件、157万份数字电影、12.6万数字唱片、190万音频文件和近600万份文档。lA所保存的数字遗产都有唯一的基于都柏林核心集( Dublin Core,DC)的元数据文件,其详细地描述了数字遗产的背景信息。国际网络保存联盟( International Internet Preservation Consortium,IIPC)是推动全球数字遗产保存的最重要的国际组织之一。IIPC开发了网络信息资源保存元数据集(WebArchiving Metadata Set),包括与文件相关的数据、与爬虫和服务器相关的数据、与网络爬行过程相关的数据、与选择过程相关的数据等。这些元数据集对于理解文件是什么,怎么形成的,具有什么内容、形式、结构等背景信息至关重要。 “元数据”已经成为来源思想的新的实现途径,其符合来源原则的基本要求。

“新来源观”认为,我们不应该仅从形成和利用文件的行政组织方面来解释来源,而应该将注意力转移到职能、活动及行为,即文件应该来自于“同一的社会实践过程”。美国国会图书馆开展了“911网页保存项目”、伊拉克战争、2004年总统选举、联邦政府等专题数字遗产保存项目,收集社会、政治、经济、文化等领域的重大事件相关的新闻报道、图片、音视频资料等,按照“同一来源”的标准进行长期保存,为人类维护共同记忆。IA可以通过Wayback Ma-chine实现对历史网页的回溯查看,用户只要在检索栏输入网址,来自于同一网址的网页就会按照时间顺序进行呈现,用户利用时间轴能够查看网站不同时间点的网页。目前,根据“来源”对数字遗产进行管理与服务,已成为数字遗产长期保存工作的基本指导原则。

3 来源原则对数字遗产长期保存的指导作用

来源原则所包含的历史主义思想是档案专业的理性之魂,它从根本上维护了档案形成的有机联系和历史原貌。数字遗产是人类记忆档案化的产物,只有尊重来源原则才能保证历史的真实性、完整性、可靠性。建设一种能够反映机构职能、组织结构以及其它特征的来源索引,从文件的背景知识来了解文件的内容信息,是对数字遗产进行有效管理的思想理论。档案学基本理论的“新来源观”为元数据、专题采集等数字遗产长期保存中的应用技术提供了坚实的理论基础,并能够指导其进一步发展。

二、文件生命周期理论在数字遗产长期保存中的应用

1 文件生命周期理论的基本内容

文件生命周期理论是档案学的重要理论之一。文件生命周期理论认为,从现行文件到历史档案是一个完整的生命过程;文件在生命过程中先后表现出不同的作用和价值,可以使整个生命周期划分为不同的运动阶段;在文件不同的运动阶段中,根据文件的不同特点,应采用不同的存放和管理方法。文件生命周期理论是对各种文件运动基本规律和特点的集中概括,是对文件价值规律的理论抽象。为适应现代技术条件下电子文件管理的规律和特点,档案学界又提出了文件连续体理论,该理论是对文件生命周期理论在电子文件时代的修正和补充。文件连续体理论的核心思想在于强调文件生命运动的整体性和连续性,拒绝承认文件管理和档案管理的界限,主张文件的连续管理、全程管理、前端控制,并注重文件元数据的提取与运用。文件连续体理论强调管理责任上的连续,以及文件管理领域各种角色之间的相互合作。

2文件生命周期理论在数字遗产长期保存中的具体应用

相关研究表明,在互联网内链接所指向的网页中,两年半内会有30%的网页消失,而重大新闻事件的报道网页以每年10%的速度在消逝。这些消逝的信息将是人类记忆不可挽回的损失。数字遗产长期保存项目在数字资源消逝之前对其进行选择、鉴定,将具有保存价值的数字资源整理、储存,延长其生命周期。

数字遗产保存工程规模浩大,需要管理数以亿计的数字资源。分级存储管理( Hierarchical StorageManagement,HSM)方式是一种普遍使用的大数据存储管理模式,它有三种存储方式:在线存储( OnStore)、离线存储(Off Store)、近线存储(NearStore)。在线存储采用磁盘、磁盘阵列等存储设备,性能好,存取速度快,能够随时对数据进行读取和修改操作,但是价格相对昂贵。离线存储采用价格低廉的磁带或磁带库,能够大规模配置。离线存储主要是对在线存储的数据进行备份,以防范可能发生的数据灾难。其平日不与系统连接,在存取数据时需要人为将存储介质或者设备临时性装载或连接到计算机系统,因此存取效率很低。近线存储主要存储那些访问量并不大的数据,将这些数据存储在光盘库、磁带库或者是比较低端的磁盘阵列或高端的磁带设备中。近线存储是定位于在线存储和离线存储之间的应用,要求具有高速稳定传输、能够迅速寻址并承受一般的访问负荷,具有较高的性价比。分级存储管理方式根据数字资源的不同价值进行分阶段管理,与文件生命周期理论中的“现行阶段”、 “半现行阶段”、 “非现行阶段”管理思想相吻合,是文件生命周期理论在数字遗产领域实现的生动体现。

数字资源呈缴制度是保存数字资源的有效措施之一。英国2003年10月批准的《版本图书馆法案》将强制呈缴出版物类型扩展到联机和脱机出版物。澳大利亚国家图书馆建立了一个“电子出版物自愿缴送计划”,并制定了配套的使用规则“澳大利亚缴送光盘以及其它电子资源使用政策”。法国在2006年8月将互联网出版物的缴送以法律形式确定下来,符号、信号、书面作品、图片、音频或者其它所有通过电子形式可以访问的信息都被列入法定缴送的范围。传统文件的运动阶段大多是顺序向前的,但是数字资源则可能会做逆向运动,因此采取前端控制措施是文件连续体理论的主要主张之一。数字资源的易消逝性促使人们必须采取前端控制,在数字资源形成之初就将其缴送至数字遗产保存中心,使其提前进入保存阶段。

3.文件生命周期理论对数字遗产长期保存的指导作用

数字资源在网络环境下转瞬即逝,信息生产者在数字资源实现第一价值后,往往不关心其对社会的第二价值。数字遗产保护机构基于社会整体利益的考虑,在数字资源进入“非现行阶段”后对其进行长久保存。可见,数字遗产是档案化的数字资源。文件生命周期理论认为,不同阶段的文件其保管场所、管理方法有所不同。数字遗产保存机构应当充分认识文件生命周期理论,掌握数字资源运动规律,采取分阶段管理、前端控制、全程管理等具体措施,确保数字遗产的可长久利用。分级存储管理与数字资源呈缴制度都是文件生命周期理论在数字遗产长期保存中的成功运用。

三、档案鉴定理论在数字遗产长期保存中的应用

1 档案鉴定理论的基本内容

并不是所有的信息都是档案,也并不是所有的档案都能够永久保存,因此,对档案进行价值鉴定就至关重要了。20世纪初到20-30年代是档案鉴定理论的初步形成时期,这时期代表理论是: “高龄档案应当受到尊重”的年龄鉴定论、职能鉴定论和行政官员鉴定论等。20世纪中期到70年代末是鉴定理论走向成熟的时期,对后世具有重要影响的双重价值鉴定理论和利用决定论在这一时期形成。20世纪80年代以来,档案鉴定理论从国家模式向视野更加开阔的社会模式转变,强调档案的价值在于反映产生它的社会,档案的社会价值是由档案形成者的职能来体现的。这一时期的档案鉴定理论主要有“宏观鉴定战略”、 “社会分析与职能鉴定理论”和“文献战略”,档案鉴定理论得到了进一步发展。

2档案鉴定理论在数字遗产长期保存中的具体应用

数字遗产具有唯一性,是具备文化价值与文化传承作用的数字资源。数字资源浩如烟海,人类无法将所有的数字资源悉数保存。因此,在对数字遗产进行长期保存之前,必须对其进行价值鉴定,甄别重复或无价值的数字资源,确保将有限的资源用以保存价值较大的数字遗产。

澳大利亚和加拿大的国家图书馆对数字遗产采取选择性保存,而瑞典、挪威、芬兰、冰岛、奥地利则采取周期性地将本国的所有网页快照进行保存。澳大利亚国家图书馆对数字出版物保存的选择标准是:出版物内容是关于澳大利亚的,亦或内容与澳大利亚的社会、政治、文化、宗教、科学、经济相关,并且是澳大利亚作者,或者由权威机构完成且有益于世界知识的积累。澳大利亚国家档案馆将数字资源按照数字保存价值分为三类,以确定其保存的级别。其分别是:临时价值、机构永久保存价值和存档价值。现阶段,对于数字遗产的采集还没有理想的方式。选择性保存需耗费大量人力资源,单位成本较高。由于需鉴定的文件数量过大,只能宏观鉴定形成者的主要职能、计划和活动,挑选出最精炼的文件加以保存。

国际网络保存联盟将网络数字资源长期保存划分为四个过程,即“获取( Ingest)”、“存储(Sto-rage)”、“访问与管理(Access&Management)”和“索引与检索( Index&Search)”。“获取”是整个过程的开始,涉及到资源的选择政策和标准,其实质是数字资源的鉴定问题。英国图书馆对于网站的选择保存制定了以下标准:反映英国生活、活动、利益的多样性,具有研究价值,事关国家利益的政治、文化、社会和经济事件,以及仅有网络内容形式或具有消失风险的网站。

个人数字遗产也是数字遗产的重要组成部分。2014年第34次《中国互联网络发展状况统计报告》显示:截至2014年6月,中国网民规模达6.32亿,人均每周上网时间长达25.9小时。网民在互联网上创造了丰富的数字资源。如同档案馆不能保存所有的私人档案一样,数字遗产长期保存机构也不能保存全部的个人数字遗产。因此,对于具有典型意义、影响范围大、具有特色的个人博客、论坛发帖、日志、评论等个人数字遗产应该加以收集、整理与保存。而大部分的个人数字遗产则由本人进行保存,一些数字遗产保存机构也为此提供了个人数字遗产保存服务,例如IA的“Archive-it”项目。

3档案鉴定理论对数字遗产长期保存的指导作用

数字遗产长期保存的第一步是数字资源的选择,而数字资源的选择涉及对数字资源的价值鉴定。数字资源的选择性保存耗时耗力、成本巨大,而目前对数字遗产的鉴定缺乏一套行之有效的标准使威本与效率达成平衡。档案鉴定是档案管理的重要工作内容,目前已建立起完善的价值鉴定理论体系。档案鉴定的实质是从纷冗繁杂的档案中甄别保存价值较大的并予以保存。将档案价值鉴定理论延伸到数字遗产保存领域,势必会推动数字遗产保护工作的进一步发展。

四、结语

数字遗产作为人类记忆不可缺失的一部分,其长期保存的重要性不言而喻。图书馆学的研究目标是文化的保存和传播,以便达到知识的共享与交流;情报科学研究追求的目标是最佳的标引方案、最少的信息查找时间、最大的信息流通;档案学的研究目标则是保障信息的凭证价值与存证能力,保全凭证与永久保存人类记忆。数字遗产长期保存本应该是档案学的研究领域,可遗憾的是图书馆界和信息情报界却成为了主力。档案学基础理论对数字遗产长期保存具有极强的指导能力,人们已经在自觉或不自觉间应用了这些理论。档案学界利用自身的理论优势,发展、延伸、推广、输出这些理论,不仅能够加强档案学界的话语权,也有利于数字遗产的长期保存。

教育期刊网 http://www.jyqkw.com
参考文献:

[1]谢欢,郑永田.数字遗产保存:图书馆义不容辞的使命[J]图书馆论坛,201 3,32 (4):15-20.

[2]聂云霞,国内外数字遗产长期保存实践与推进策略研究[J]信息资源管理学报,2013 (1):38-45.

[3]聂云霞,数字遗产长期保存中档案部门边缘化研究[J]档案学通讯,2013 (2):53-56.

[4][14]刘家真,廖茹.档案学的本质特征和可持续发展[J],档案学研究,2010 (6):4-8.

[5](美)谢伦伯格,现代档案:原则与技术[M].黄坤坊,译,北京:档案出版社,1983: 25-27.

[6][13]肖秋惠.档案管理概论[M].武汉:武汉大学出版社,2009: 23-34.

[7][10]黄霄羽 来源原则“重新发现”的深刻实质与重大意义[J]北京档案,2004 (11):20-23.

[8]李华,昊振新,郭家义,等.Web Archive发展历程与发展趋势研究[J].现代图书情报技术,2009(1):2-9.

[9](加)特里·库克.对数字时代来源原则的反思[J]档案学研究,2011 (1):82-85.

[11]邹吉辉,何永斌,论文件生命周期理论和文件连续体理论的理论定位[J]档案与建设,2009(7):5-7.

[12]傅荣,王相华理论核心问题:原则与内容一一文件生命周期理论与文件连续体理论比较研究之-[J]档案学通讯,2004 (4):18-21.

(作者单位:中州大学图书馆/郑州/450044)

责任编辑:宛志亮