Introduction to Apache Flink - CH1 -First Look at Apache Flink

初识Apache Flink

Apache Flink项目首页的标语写着“Apache Flink是一个可在流数据及离线数据上进行分布式处理的开源平台”。对许多人来说,会惊奇于Flink不仅能处理实时流数据且有高吞吐以及恰好一次的保证,竟然还能做维护离线数据处理的引擎。你以前需要选择使用实时处理还是离线处理来选择框架,但是Fklink使用同一套技术让你能够处理你想要的类型。
这样一个Apache顶级项目时如何开始的呢?Flink出身与Stratosphere 项目,该研究项目由三所柏林的大学以及其他欧洲大学在2010年至2014年间创立。这期间项目已经在社区吸引了广泛的兴趣,部分功能也通过包括柏林的Buzzwords,Cologne的NoSQL Matters等在内的公开的开发者会议进行了展示。这些社区基础是该项目得以进入Apache软件基金会进行孵化的原因之一。
在2014年的四月,Stratosphere的一个代码分支被捐赠给了Apache软件基金会作为一个孵化项目,同时也有一些由系统的核心开发者组成的初始代码提交者面世。自此之后不久,这些人离开了大学,创建了一个公司data Artisans围绕Flink开展一些业务。在孵化期间,项目的名称不再叫做Stratosphere,以此来避免该项目作为一个框架与一个不相关的项目产生潜在的误解。之所以选择Flink作为项目名称,是为了向流处理或批处理这种方式致敬:在德国,flink这个单词意味着快速或者灵巧。Flink的logo选择彩色的松树是因为松树行动快速且灵巧,德国的松树的皮毛是红棕色的,如下图:


左侧:柏林的红色的松树,有着长长的耳朵。右侧:Apache Flink的logo有着长长的尾巴。它的颜色反应的正是Apache软件基金会的logo的颜色。这是一个Apache风格的松树!

这个项目很快的完成了孵化,并且在2014年的12月,Flink正式成为Apache软件基金会的顶级项目。Flink是Apache软件基金会的5个最大的大数据项目之一,有着来自全球的超过200名开发者,以及在一些公司的生产环境运行,某些是世界500强企业。本书写作之时,已经有34场Apache Flink的见面会在世界各地举办,有接近12000名参与者以及演讲者参与了大数据会议。在2015年的10月,Flink项目在柏林举办了第一场年度会议:Flink Forward。

批处理以及流处理

Flink为什么以及如何做到既能处理批任务也能处理流数据的呢?Flink将批处理看做是一个静态的有限的数据,是流处理的一种特殊情况。
Flink的核心计算结构,称作“Flink运行时”,如下图。Flink运行时是一个分布式的系统,可以接受流处理程序,并且在一个或多个机器上以故障容忍的方式执行流处理程序。运行时可以在集群中运行,也可以作为YARN的一个应用。或者单机运行以方便调试Flink应用。


这张图展示了Flink关键的组件。可以看到面向用户层的API可以处理流数据与离线数据,是的仅仅使用Flink这一个工具就可以完成任一情形的工作。工具库包括机器学习(FlinkML),复杂事件处理(CEP),图像处理(Gelly)以及使用Table API处理流数据或离线数据

由运行时来接收程序的功能很强大,但是写起来很繁琐有些困难。因此,Flink提供了对开发者友好的API,这些API构建在运行时之上,且能够生产流处理程序。针对流处理有DataStream API,针对离线处理有DataSet API。很有趣的一点是,尽管Flink运行时将所有操作都看作流操作,但是DataSet API面世时间却是在DataStream API之前,这是由于在Flink早期,对无界数据流的处理不如现在那么广泛。
在处理无界数据流时,使用DataStream API定义数据分析是很流畅的。API提供了java与scala两种语言支持。使用者对一个称作DataStream的数据结构进行操作,该数据结构可能代表一个分布式的无界的数据流。
Flink是分布式的,这也就意味着,它可以在数百甚至数千机器上运行,将一个大型的计算分发成一个个小任务,每个机器都处理其中一个任务。当遇到机器问题或者其他故障时,Flink框架能够自动的小心地精确修复计算结果,或者在bug修复后以及版本更新后,人为的从某处重新运行。这种能力减轻了编程人员对故障的担忧。Flink内部使用具有故障容忍能力的数据流,这允许开发者在一个持续产生,不停止的事件流上进行分析。

因为Flink解决了很多令人关心的问题,例如仅处理一次的保证以及基于事件事件的数据窗口计算,开发者不必在应用层实现这些特性,从而减少bug的发生。

由于工程师们不再担心他们应用代码的问题,因此团队可以更好的利用工程师的时间。这种好处不仅影响了开发时间,也通过其灵活性提升了质量,也使得操作可以更有效的执行。Flink提供了在生产环境让应用健壮运行的能力。这不仅仅是理论,尽管Flink相对来说是一个新项目,但是FLink早就被用在了生产环境,我们将在下一部分讨论。


所以下一部分就不翻译了。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,076评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,658评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,732评论 0 350
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,493评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,591评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,598评论 1 293
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,601评论 3 415
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,348评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,797评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,114评论 2 330
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,278评论 1 344
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,953评论 5 339
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,585评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,202评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,442评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,180评论 2 367
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,139评论 2 352

推荐阅读更多精彩内容

  • Apache Flink是一个面向分布式数据流处理和批量数据处理的开源计算平台,它能够基于同一个Flink运行时,...
    生活的探路者阅读 2,041评论 0 3
  • Madhukar 原文 世界需要另外一个大数据处理系统吗?这是当我第一次听说Apache Flink的时候产生的问...
    Anor9阅读 6,141评论 0 16
  • 迎着微风 踏着阳光 我收拾好行囊 看向远处 那里有我的梦想 那是我儿时渴望的天堂 那里是峻峭的高山 那里是蜿蜒的河...
    幽羽的小日记阅读 389评论 0 0
  • 巷子两旁的路灯可能是因为年久失修总是一闪一闪的,使得昏暗的小巷更添一种诡异的气息。 拉斐尔独自一人就着...
    Alfredlee阅读 397评论 0 0
  • 早上七点半,送女儿去幼儿园,下午五点准时去接回来。剩下的时间就是打理网店,接单,发货,处理售后等等……这就是我现在...
    泡泡老周阅读 337评论 0 2