数据抽取建设需求

基于大数据生态的业务优化是目前各行各业的发展趋势，但是面临着最为基础的问题就是来自各业务系统原始数据的融合、交换、集成问题。在数据融合中，数据的ETL，即数据抽取、转换、装载是不可避免的前置操作，首先从原始数据中抽取数据，然后进行数据的转换和初步处理，最后装载到数据仓库中，用以进一步的融合、挖掘、分析等。

目前，数据抽取可以分为实时抽取和非实时抽取，针对大多数的分析场景来看，主要是基于非实时抽取的，此场景下主要包括全量抽取和增量抽取，面向该业务场景，拟建设数据抽取平台。

面对抽取的数据来源主要分为关系型数据库、文档型数据库、列式存储数据库、消息队列、文件、远程服务等。在目前的行业发展情景下，业务产生的数据往往在关系型数据库系统和文件中，为此我们的数据抽取平台需核心针对此类数据来源。

目前已经完成调研数据抽取工作的若干开源工具，为支持实现可视化的数据抽取工具二次开发，主要参考的开源工具有kettle、datax、flume、sqoop。针对不同的数据源，各个抽取工具都有不太一样的抽取功能。如针对关系型数据库的全量抽取时，可以采用sqoop将数据抽取到非结构化数据存储中hive、hbase等，可以采用datax将数据抽取到关系型数据库mysql、oracle或非结构化数据存储hive、hbase中，datax具备更全面更丰富的功能，但是sqoop基于分布式的spark或者hadoop环境可以在抽取速度上占有绝对优势。

针对文档型数据库、列式存储数据库、消息队列等，拟采用datax来进行数据抽取，目前datax支持mongodb、elasticsearch、hive等多种非关系型数据库，此外datax也支持插件的开发，因此在面对复杂的非关系型数据库具有十分良好的扩展性。
在针对文件数据的情景，主要是增量的数据文件，如log文件等，采用flume做文件的数据抽取，把数据从数据源收集过来，再将收集到的数据送到指定的目的地，此类抽取可以是不间断实时抽取的。

在调研中发现， kettle虽然有很好的使用界面，但是二次开发文档稀缺，系统庞大，开发难度较大。特别是面向大数据生态环境中有很大的局限性，不推荐使用kettle来进行再次开发，但是kettle的界面设计比较完备，可以作为我们交互设计的参考。
完成数据的抽取工作中，遵循无侵入抽取，完全不影响业务系统；遵循低耦合，将所有抽取的数据发送到kafka中间件，kafka具有天然的解耦能力，可以应对复杂多变的下游需求，如数据集成、流式计算等需求；遵循一致性，建议所有抽取的数据都采用统一的标准格式支撑，对下游具有较好的数据定义。

基于此思路，建设统一通用的数据抽取平台，是针对未来多领域数据融合、分析的必要服务支撑。

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 212,332评论 6赞 493
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 90,508评论 3赞 385
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 157,812评论 0赞 348
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 56,607评论 1赞 284
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 65,728评论 6赞 386
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 49,919评论 1赞 290
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 39,071评论 3赞 410
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 37,802评论 0赞 268
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 44,256评论 1赞 303
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 36,576评论 2赞 327
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 38,712评论 1赞 341
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 34,389评论 4赞 332
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 40,032评论 3赞 316
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 30,798评论 0赞 21
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 32,026评论 1赞 266
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 46,473评论 2赞 360
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 43,606评论 2赞 350

数据抽取建设需求

推荐阅读更多精彩内容