换个角度认识大数据——元数据认识

当步入了大数据殿堂,很多专业的词汇不得不仔细的品味,理解它将帮助在实践中明确方向。从我们呱呱落地开始认识这个世界的时候,我们就与元数据密不可分,它是我们认识这个世界的基础。今天我们就共同理解一下什么事元数据。


认识世界

1.元数据是什么?

谈到元数据我们就要先理解“元”的含义,一般认为元就是“关于...的...”,可以理解为对事情的高度抽象,透过事务的表面现象发现他的“本源”。

以文学为例,后现代主义文学中有一种小说叫做“元小说”,也就是“关于小说的小说”。“传统小说往往关心的是人物、事件,是作品所叙述的内容;而元小说则更关心作者本人是怎样写这部小说的,小说中往往喜欢声明作者是在虚构作品,喜欢告诉读者作者是在用什么手法虚构作品,更喜欢交代作者创作小说的一切相关过程。”


生活中我们填写的《个人信息登记表》,包括姓名、性别、民族、政治面貌、一寸照片、学历、职称等等这些就是锁定你本人的元数据。

通常情况下元数据可以分为以下三类:固有性元数据(与事物构成有关的元数据)、管理性元数据(与事物处理方式有关的元数据)、描述性元数据(与事物本质有关的元数据)

2.为什么需要元数据?

举个例子,当我们去图书馆查找《中国近现代史》这本书的时候,我们首先回去查找这本书在图书馆里面的"ISBN号"如ZS03-09-04-008。

通过ISBN找到此书放在图书馆的3楼。找到方书的9号书架,再然后找到书架上放此类书对应的04层,最后找到想要找到的图书008位置。ISBN描述图书位置的元数据。

当我们拿到《中国近现代史》,翻开扉页我们看到关于该书信息资源,一个基本的元数据由元数据项目和元数据内容的构成。


这里,“题名”就是它的元数据项目,“中国近现代史”就是元数据内容。

再比如,“定价”、“印刷”都是元数据项目,而“28.00元”和“北京瑞古冠中应刷厂”就是元数据内容。

从这个例子中元数据在信息资源组织方面的作用概述为五个方面:描述、定位、搜寻、评估和选择

1)描述作用:根据元数据的定义,它最基本的功能就在于对信息对象的内容和位置进行描述,从而为信息对象的存取与利用奠定必要的基础。

2)定位作用:由于网络信息资源没有具体的实体存在,因此,明确它的定位至关重要。元数据包含有关网络信息资源位置方面的信息,因而由此便可确定资源的位置之所在,促进了网络环境中信息对象的发现和检索。此外,在信息对象的元数据确定以后,信息对象在数据库或其他集合体中的位置也就确定了,这是定位的另一层含义。

3)搜寻作用:元数据提供搜寻的基础,在著录的过程中,将信息对象中的重要信息抽出并加以组织,赋予语意,并建立关系,使检索结果更加准确,从而有利于用户识别资源的价值,发现其真正需要的资源。

4)评估作用:元数据提供有关信息对象的名称、内容、年代、格式、制作者等基本属性,使用户在无需浏览信息对象本身的情况下,就能够对信息对象具备基本了解和认识,参照有关标准即可对其价值进行必要的评估,作为存取利用的参考。

5)选择作用:根据元数据所提供的描述信息,参照相应的评估标准,结合使用环境,用户便能够做出对信息对象取舍的决定,选择适合用户使用的资源。

3.元数据如何建设?

元数据建设除了需要知道一些已经成型的理论知识外还需要在设计具体执行方案

理论知识

建设元数据的方法已经有一些成套的路径了比如Dublin Core、IAFA Template、CDF、Web CoIlections,这些太专业了,有兴趣的自己可以去了解。

我在建设数据仓库中对元数据建设中体会,建设过程要从其目的来谈,离开目标去建立元数据,就发现元数据包含太多东西,只要是描述数据的数据就可以囊括进来。


目标

所以元数据不能脱离目标。拿客户关系系统来比喻,这个系统维护客户信息当然是有目的的,是要用这些信息进行一些自动的流程处理、去挖掘一些客户潜在的价值、做好客户服务。当然没有必要去维护客户的生命特征信息,诸如指纹、犯罪史等,这些信息跟客户关系管理的目标关系不大。

元数据也是如此,你可以将所有数据的结构、大小、什么时间创建、什么时间消亡、被那些人使用等等,这些信息可以延伸得太广,如果不管目标,而试图去建一个非常完美的元数据管理体系,这是一种绝对的"自上而下"做法,必败无疑

实践中的两种方案对比

1).集中管理元数据


集中管理

集中管理,有专门的一个节点他的职责就是元数据管理,所有的元数据都存储在该节点上。所有客户端对数据文件的请求都需要先请求该节点获取描述该数据文件的元数据,

集中管理可以很容易保证元数据的一致性,但是当系统过多容易导致单点性能瓶颈,而且当该节点失效,整个数据文件都无法正常访问。

2).分布式管理元数据


分布式管理

分布式管理是指将元数据存放在系统的任意节点并且能动态的迁移。对元数据管理的职责也分布到各个不同的节点上,很好的解决了集中管理的缺点,但是实现复杂,一致性维护复杂

总结

元数据的建设过程同时也是对头脑中的思维进行重构的过程,简单一句话元数据建设就像我们头脑如何去理解一件事物,我们并不需要记忆每一个细节,我们只需要得到这件事的几个关键特征,其实这几个关键特征就可以称为这件事的元数据。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 194,524评论 5 460
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 81,869评论 2 371
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 141,813评论 0 320
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,210评论 1 263
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 61,085评论 4 355
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,117评论 1 272
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,533评论 3 381
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,219评论 0 253
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,487评论 1 290
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,582评论 2 309
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,362评论 1 326
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,218评论 3 312
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,589评论 3 299
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 28,899评论 0 17
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,176评论 1 250
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,503评论 2 341
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,707评论 2 335

推荐阅读更多精彩内容