《DAMA-DMBOK2》读书笔记-第9章 文件和内容管理

1 文章结构脑图

第9章 文件和内容管理 2%.png

2 基本概念

2.1 内容

内容: 是指文件、档案或网站内的数据和信息。

  1. 内容管理 <font color="green">P232</font>
    内容的生命周期可以是动态的,通过受控的创建和修改流程进行日常更改;它们也可以是静态的,只发生很少或偶尔的更改。
    内容管理在网站和门户中尤为重要,但基于关键字的索引和基于分类的组织方法可以跨技术平台应用。当在整个企业范围内进行内容管理时,称之为企业内容管理(ECM)

  2. 内容元数据 <font color="green">P232</font>
    <font color="red">元数据对于管理非结构化数据至关重要</font>,无论是传统上认为的内容和文件,还是现在理解的“大数据”。如果没有元数据,就无法对内容进行编目和组织。
    非结构化数据内容的元数据基于: 格式。可搜索性。自我描述性。既有模式。内容主题。需求.

  3. 内容建模 <font color="green">P233</font>
    内容建模(Content Modeling): 是将逻辑内容概念转换为具有关系的内容类型、属性和数据类型的过程。属性描述了关于该内容的一些特定的和可区分的信息。<font color=red>元数据管理和数据建模技术用于开发内容模型。</font>
    内容建模有两个层次。<font color=red>第一个是信息产品级别</font>,它会产出一个像网站一样的实际可交付成果;<font color=red>第二个是组件级别</font>,它进一步详细说明了构成信息产品模型的元素。

  4. 内容分发方法 <font color="green">P233</font>
    内容分发系统可分为三种: 1)推式,如 RSS。2)拉式,如访问淘宝。3)交互式,如企业应用程序集成 EAI、更改数据采集、数据集成和 EII。

2.2 受控词表

受控词表(Controlled Vocabularies): 是被明确允许用于通过浏览和搜索对内容进行索引、分类、标引、排序和检索术语的定义列表。受控词表的一个例子是用于出版物分类的都柏林核心元素集(Dublin Core Element,DC)。<font color="green">P233</font>

  1. 词汇表管理 <font color="green">P233</font>
    词汇表管理: 是针对任何给定的词汇进行定义、寻源、导入和维护的过程。

  2. 词汇表视图和微控制词汇表 <font color="green">P234</font>
    词汇表视图(Vocabulary View): 是受控词表的子集,涵盖了受控词表领域内有限范围的主题。
    微控制词汇表(Micro-Controlled Vocabulary): 是包含一般词汇表中不包含的高度专业化术语的词汇表。

  3. 术语和选择列表<font color="green">P234</font>
    术语列表: 仅仅就是一个列表(List)。它们不会描述术语之间的关系。
    选择列表(Pick Lists): 通常隐藏在应用程序中。内容管理软件可以帮助将选择列表和控制词汇转换为可用于主页搜索的选择列表。

  4. 术语管理 <font color="green">P234</font>
    术语管理: 包括具体说明术语最初是如何定义和分类的,以及一旦开始被不同系统使用,之后该如何维护。
    术语管理包括在受控词汇表中建立术语之间的关系。关系的类型可以分为以下3种:
    1)等价术语关系(Equivalent Term Relationship)。
    2)层次化关系(Hierarchical Relationship)。它描述广义(一般)到狭义 (特定)或整体-部分的关系。
    3)关联关系(Related Term Relationship)。与受控词表中的另 一个术语相关联,但这种关联不是层次化的。

  5. 同义词环和规范表 <font color="green">P235</font>
    同义词环(Synonym Ring): 是指一组含义大致相同的术语。同义词环允许搜索其中一个术语的用户去访问与该词环其他术语相关的内容。
    规范表(Authority List): 是描述性术语的受控词汇表,旨在促进特定领域或范围内的信息检索。

  6. 分类法 <font color="green">P235</font>
    分类法(Taxonomies): 是指任何分类或受控词表的总称。最著名的例子是瑞典生物学家林奈(Linnaeus)开发的所有生物的分类系统。
    分类法可以有多种不同的结构:
    1)扁平分类法(Flat Taxonomy)。这类似于列表。==例如,一个包含多个国家的列表。==
    2)层次分类法(Hierarchical Taxonomy)。它是一种树结构。==例子是地理信息,从所属大陆直到详细的街道地址。==
    3)多重层级结构(Polyhierarchy)。它是具有多个节点关系规则的树状结构。
    4)面分类法(Facet Taxonomy)。其形状看起来像星形图。==例子是元数据,其中每个属性(创建者、标题、访问权限、关键字、版本等)是内容对象的一个面。==
    5)网状分类法(Network Taxonomy)。==其中一个例子就是推荐引擎(如果你喜欢那个,你可能也会喜欢这个);另一个例子是主题词表。==

  7. 分类方案和打标签 <font color="green">P236</font>
    分类方案(Classification Schemes): 是代表受控词表的代码。==例如,杜威十进制分类法和美国国会图书馆分类(主类和子类)。==

  8. 主题词表 <font color="green">P236</font>
    主题词表(Thesauri): 又称叙词表,是一种用于内容检索的受控词表。

  9. 本体 <font color="green">P237</font>
    本体(Ontology): 是一种分类法,它代表一套概念和它们在某个领域内概念之间的关联。<font color=red>本体描述类(概念)、个体(实例)、属性、关系和事件。</font>
    分类法(如数据模型)和本体之间存在两个主要区别:
    1)分类法为给定的概念区域提供数据内容分类。数据模型专门调用属性所属的实体以及该属性的有效性。但是,在本体中,实体、属性和内容概念可以完全混合。差异是通过元数据或其他关系来识别的。
    2)在分类法或数据模型中,定义是已知的,别无其他,称为封闭世界假设。在本体中,基于现存的关系可以推断出可能的关系。因此, 未明确声明的内容也可能是真的,称之为开放世界假设。

2.3 文件和档案

文件(Document): 是包含任务说明,对执行任务或功能的方式和时间的要求以及任务执行和决 策的日志等的电子或纸质对象。文件可用于交流并分享信息和知识。
只有部分文件才能称为档案 (Record)档案可用于证明所做的决策和所采取的行动是符合程序的;可作为组织业务活动 和法规遵从的证据。档案通常是由人来创建的,但仪器和监控设备也可以提供数据来自动生成档 案。<font color="green">P237</font>

  1. 文件管理 <font color="green">P238</font>
    文件管理: 包括在文件和档案的整个生命周期中控制和组织它们的流程、方法和技术。
    它包括: 电子和纸质文件的存储、编目和控制。
    <font color=red>关注文件本身,几乎不关注文件内容。市场和监管压力都将重点放在档案保管期限表、地点、传送和销毁上。</font>
    管理文件和档案的生命周期包括: 编目。制度。分类。存储。检索和流传。保存和处置。

  2. 档案管理 <font color="green">P238</font>
    档案管理(Records Management)是文件管理的一部分,管理档案有一些特殊的要求。
    档案管理包括: 整个档案的生命周期:从档案的创建或接收到处理、分发、组织和检索,再到处置。见下图9-2
    精心管理的档案具有以下特点:
    1)内容。 内容必须准确、完整和真实。
    2)背景。 关于档案的创建者、创建日期或与其他档案关系的描述性信息(元数据)应该在创建档案时收集、组织并维护。
    3)及时性。 档案应该在事件、行为或决定发生后立即创建。
    4)永久性。 一旦成为档案,则在档案的法定保存期内不能改变其内容。
    5)结构。 档案内容的外观和排版需要清晰,它们应被记录在正确的表格或模板上。内容应清晰易读,对术语的使用应始终保持如一。

  3. 数字资产管理 <font color="green">P239</font>
    数字资产管理(Digital Asset Management,DAM) 和文件管理流程相似,它专注于存储、跟踪和使用视频、徽标、照片等富媒体文件。

2.4 数据地图

数据地图(Data Map): 是所有ESI数据源、应用程序和IT环境的清单,其中包括应用程序所有者、保管人、相关地理位置和数据类型等信息。

2.5 电子取证

“取证”(Discovery)是一个法律术语,指诉讼的预审阶段,双方当事人互相要求对方提供信息,以查明案件事实,并了解双方的论点有多强。自1938年以来,美国联邦民事诉讼规则(FRCP)已经在诉讼和其他民事案件中要求对发现的证据进行管理。几十年来,基于纸质的取证规则被应用到电子取证(E-discovery)

2.6 信息架构

信息架构: 是为信息体或内容创建的结构。
它包括以下组件: <font color=red>1)受控词表。2)分类法和本体。3) 元数据映射。4)搜索功能规格。5)用例。6)用户流。</font>
信息架构和内容制度共同描述了==“什么”== , 即哪些内容将在系统中被管理。设计阶段描述了==“如何”== 实施内容管理制度。<font color=green>P241</font>

2.7 搜索引擎

搜索引擎(Search Engine): 是一种根据术语搜索信息并检索内容中包含这些术语网站的软件,==如Google。== <font color=green>P242</font>

2.8 语义模型

语义建模(Semantic Modeling): 是一种知识建模,描述一系列概念网络(有关的想法或主题)以及它们之间的关系。==例如,语义模型可以将数据库表和视图映射到对业务用户有意义的概念上。== <font color=green>P242</font>
语义模型包含<font color=red>语义对象和语义约束。</font> <font color=green>P242</font>
语义对象: 是<font color=red>模型中表示的事物</font>,它们可以具有基数和域的属性 以及标识符。它们的结构可以是简单的、合成的、复合的、混合的、关联的、父/子类型或原型/ 版本。 <font color=green>P242</font>
语义约束: <font color=red>表示 UML 中的关联或关联类模型</font>,这些模型有助于识别模式和趋势,并发现可 能看起来不相干信息之间的关系。<font color=green>P242</font>

2.9 语义搜索

语义搜索(Semantic Search): 侧重于语义和语境而非预先设定的关键字。 可使用人工智能。要 弄清用户想要什么。<font color=green>P242</font>

2.10 非结构化数据

<font color=red>多达80%的数据存储是在关系型数据库之外维护的。</font>
非结构化数据有多种电子格式:文字处理文件、电子邮件、社交媒体、聊天室、平面文件、电子表格、XML文件、事务性消息、报告、图形、数字图像、缩微胶片、视频和音频。纸质文件中也存在大量非结构化数据。
<font color=red>数据管理的基本原则既适用于结构化数据也适用于非结构化数据。</font> <font color=green>P243</font>

2.11 工作流

应该通过一个工作流(Workflow)管理内容开发,以确保内容按时创建并获得适当的批准。
工作流组件可以包括创建、处理、路由、规则、管理、安全性、电子签名、截止日期、升级(如果出现问题)、报告和交付等过程。
工作流程需要具有可重复执行的能力,在理想 情况下包含对种内容通用的流程步骤。<font color=green>P243</font>

3 语境关系图

3.1 定义

文件和内容管理: 是针对存储在关系型数据库之外的数据和信息的采集、存储、访问和使用过程的管理。
重点在于 保持文件和其他非结构化或半结构化信息的完整性,并使这些信息能够被访问。
如同其他类型的数据一样,文件和非结构化内容也应是安全且高质量的。确保文件和内容管理的安全性和高质量,需要可靠的架构和管理良好的元数据。 <font color=green>P229</font>

3.2 目标

目标: 1)确保能够高速有效地采集和使用非结构化的数据和信息。2)确保结构化和非结构化数据之间的整合能力。3)遵守法律义务并达到客户预期。 <font color=green>P230-231</font>

原则: 1)组织中的每个人都应该在保护组织的未来方面发挥作用。每个人都必须按照既定的制度和程序来创建、使用、检索和处置档案。2)档案和内容处理方面的专家应充分参与制度和规划的制定。 <font color=green>P231</font>

ARMA国际(非营利性的档案和信息管理专业协会)在2009年发布了一套被普遍接受的档案保存指导原则(GARP)
1)问责原则。2)完整原则。3)保护原 则。4)遵从原则。5)可用原则。6)保留原则。7)处置原则。8)透明原则。<font color=green>P231</font>

3.3 业务驱动因素

主要业务驱动因素包括: 法规遵从性要求、诉讼响应能力和电子取证请求能力以及业务连续性要求。
提高效率是改进文件管理的驱动力。<font color=green>P229</font>

3.4 输入

3.5 活动

3.5.1 规划生命周期的管理

文件管理实践涉及文件生命周期的规划——从文件的创建或接收文件后的分发、存储、检索、归档和潜在的销毁。 <font color=green>P243</font>
规划包括: 开发分类/索引系统和分类法,以实现文件的存储和检索。重要的是,<font color=red>生命周期规划中需要为档案建立具体的制度。</font><font color=green>P243</font>

<font color=red>1. 规划档案管理。</font>(什么是档案。存在哪?老旧档案 处置?)
<font color=red>2. 制定内容策略。</font>(从当前状态审视和差距评估开始。元数据分类和 搜索引擎优化(SEO))

3.5.2 创建内容处理制度

大多数文件管理制度都包括以下相关的内容: <font color=green>P244-245</font>

  • 1)审计的范围和合规性。
  • 2)重要档案的鉴定和保护。
  • 3)保留档案的目的和保管期限表。
  • 4)如何响应信息保留命令(特殊保护令),即针对已过保留期的诉讼信息要求。
  • 5)本地和异地存储档案的要求。
  • 6)硬盘驱动器和共享网络驱动器的使用和维护。
  • 7)对电子邮件管理,从内容管理的角度进行处理。
  • 8)合理的档案销毁方法。

3.5.3 定义内容信息架构

  • 需要从结构和非结构化的数据中,检索出用户需要的信息。
  • 应该确保构建受控词汇表、索引、信息检索分类方案工作的互相协调,以及它们与作为数据管理和应用程序的一部分来执行的数据建模和元数据工作的互相协调。<font color=green>P245</font>

3.5.4 实施的生命周期管理

实施的生命周期管理: 1.获取档案和内容。2.管理版本控制。3.备份和恢复。4.管理保管和处置。5.审计文件/档案。 <font color=green>P246</font>

审计通常包括以下步骤: <font color=green>P246</font>
1)定义组织驱动因素,并确定“为什么”要进行文件/记录管理的利益相关方(Why)。
2)一旦确定了检查/测量的内容和要使用的工具(如标准、基准、访问调查),就开始收集相关数据(How)。
3)报告结果。
4)制订下一步的行动计划和时间表。

版本控制: ANSI 859标准基于数据的重要性以及数据损坏或不可用时可能造成的损害,将数据控制分为3个等级:正式、修订和托管。 <font color=green>P247</font>

3.5.5 发布和分发内容

发布和分发内容: 1.开放访问、搜索和检索。2.通过可接受的渠道分发。<font color=green>P248</font>

3.6 交付成果

3.7 技术驱动因素

3.8 方法

方法: 诉讼应诉手册。诉讼应诉数映射(90 天限制)。 <font color=green>P254</font>
<font color=red>电子取证工作一般在发生诉讼的时候进行。</font>

3.9 工具

工具: <font color=red>企业内容管理系统</font>(文件管理、内容管理系统、内容和文件工作流)。<font color=red>协作工具。受控词 汇表和元数据工具。标准标记和交换格式</font>(XML、JSON、RDF 和 W3C、Schema.org)。<font color=red>电子取证技术</font>。 <font color=green>P249-254</font>

3.10 度量指标

1. 档案管理: ARMA 的 GARP 原则类别和成熟度模型可以指引 KPI 的定义。
衡量档案管理系统实施成功的标准如下::

  • 1)每个用户有百分之几的文件和电子邮件被认定为是公司的档案。
  • 2)被认定为公司档案中有百分之几得到了控制。
  • 3)在所有存储的档案中有百分之几的档案应用了适当的保管规则。然后将以上百分比进行比较,以确定出最佳实践的百分比值。

2. 电子取证: 成本降低、对比被动收集信息的方式,提前收集信息时提高的效率(如转为电子取证平均需要几天时间)、组织可以快速地进行法律保留通知的过程。

3. 企业内容管理: 衡量企业内容管理(ECM)的有形和无形效益。有形效益包括提高生产力、降低成本、提高信息质量和改善合规性;无形效益包括增进协作、简化工作程序和工作流。<font color=green>P259-260</font>

4 实施指南

实施企业内容管理(ECM) 是一项代价高昂的长期工作,与任何企业范围的工作一样,需要利益相关方的广泛支持以及执行委员会的资金支持。<font color=green>P255</font>

ECM就绪评估的目的: 是确定内容管理需要改进的方面,以及组织对改变其流程以满足这些需求的适应程度。<font color=green>P255</font>

具体的ECM关键成功因素包括对现有内容的审核和分类、合适的信息体系结构、内容生命周期的支持、适当元数据标签的定义以及在ECM解决方案中自定义功能的能力。 <font color=green>P255</font>

ARMA的公认档案保管原则®可以用于指导组织评估其档案管理的制度和规范。<font color=green>P256</font>
ARMA 有一个信息治理成熟度模型: <font color=green>P256</font>

  • 1 级,低于标准的(Sub-Standard)。 信息治理和档案保管问题没有得到解决或只是最低限度的解决。
  • 2 级,发展中的(In Development)。 认识到信息治理和档案保管可能对组织产生的影响。
  • 3 级,基本的(Essential)。 必须满足法律法规的最低要求。
  • 4 级,积极的(Proactive)。 已经建立了一个以持续改进为重点的主动式信息治理计划。
  • 5 级,完成变革的(Transformational)。 信息治理已经融入企业的基础架构和业务流程中。

5 文件和内容治理

信息进行治理的驱动因素:

  • 1)法律和法规遵从。
  • 2)档案的合理处置。
  • 3)对电子取证的前瞻性准备。
  • 4)敏感信息的安全。
  • 5)电子邮件和大数据等风险领域的管理。

信息治理参考模型 IGRM: 展示信息治理与其他信息功能的关系。<font color=green>P258</font> 见下图

非结构化数据的增长速度远远快于结构化数据。管理非结构化数据需要数据管理专员与其他数据管理专业人员、档案管理人员的有效合作。<font color=green>P258</font>

定义高质量的内容需要了解它生产和使用的背景:

  • 1)生产者。谁创建内容?为什么要创建?
  • 2)消费者。谁使用信息?出于什么目的?
  • 3)时间。何时需要信息?需要多久更新或访问一次?
  • 4)格式。消费者是否需要特定格式的内容才能实现目标?是否有不可接受的格式?
  • 5)分发。信息将如何分发?消费者将如何获取信息?如何实施安全措施以防止对电子内容的不恰当访问?

6 关键架构图

  1. 图9-1 文件和内容管理语境关系图


    图9-1 文件和内容管理语境关系图
  2. 图9-2 基于ISO的文件层次结构


    图9-2 基于ISO的文件层次结构
  3. 图9-3 信息治理参考模型


    图9-3 信息治理参考模型
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,172评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,346评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 159,788评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,299评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,409评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,467评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,476评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,262评论 0 269
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,699评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,994评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,167评论 1 343
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,827评论 4 337
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,499评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,149评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,387评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,028评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,055评论 2 352

推荐阅读更多精彩内容