FlightCaster秘笈——Clojure和Rails

FlightCaster秘笈——Clojure和Rails
http://www.infoq.com/cn/articles/flightcaster-clojure-rails

Clojure是JVM上的LISP,由Rich Hickey创建。过去一年中,它之所以受到广泛关注,最主要的原因是其并发特性,如支持软件事务存储(Software Transactional Memory——STM)及其他强大的数据结构。所以最近函数式语言颇吸引眼球,这也是很正常的。在Clojure 1.0 发布几个月之后,用Clojure实现的现实项目也终于出现了。FlightCaster是一个新站点,用来提供航班延误预告。它的Web前台是用 Rails开发的,部署在Heroku上。后台处理数据的程序则是用Clojure开发的,用到了HadoopCascadingCloudera以及其他工具。我们就该项目采访了Bradford Cross,了解用于开发FlightCaster的架构,如何用Clojure实现它,以及OOP程序员采用Clojure和Lisp时应该掌握的使用技巧。InfoQ:你能解释一下FlightCaster,也就是其分析部件,都做些什么吗?
Flightcaster实时预测航班延误时间。其分析工作涉及到统计推断及机器学习技术的应用。关于航班延误预测的精确技术并不存在,即使其存在,我也没什么可说的。 :-)
InfoQ:你们的架构是什么?你们在Clojure群中发表的文章中,提到了Hadoop之上的一层Cloudera?它们是怎么组织在一起的?

Cloudera非常强大,为需要使用Hadoop开发大规模分布式处理的人们提供服务、Hadoop分发、部署脚本及AMI(Amazon Machine Instances)。我们使用Cloudera将Hadoop集群部署在EC2上,用于进行数据处理和分析工作,结点数介于10到100之间。我们发现 使用Cloudera分发可以减少把Hadoop部署在EC2上的复杂性。我们只有两个人从事研究方面的工作,因此采用Cloudera对我们帮助很大。
InfoQ:FlightCaster的哪一部分是用Clojure写的?
基础设施的另一个关键部件是Cascading;在Hadoop上非常棒的一层,其增加了附加抽象概念和功能。我们向那些正在用Hadoop进行大量数据处理和挖掘的人强烈推荐Casading。 我们所有的Clojure都是运行在Cascading上的。该系统里有两个主要部分是用Clojure编写的。一是把数据预处理并转换成适当视图用以分析的所有操作。包括过滤、多阶段分布式连接(destributed join)等等。把来自异质数据源的适当视图转变为非结构数据是非常复杂的。例如,我们不得不把时间序列视图构建到数据中,因为我们大量的分析需要考虑时 间因素。任何构建过这类系统的人都知道数据处理的工作量到底有多大,而Clojure + Cascading帮了大忙。二是所有的统计推断和机器学习代码。如果该系统存在这一部分,我们将更深入介绍系统的这一部分。假定该系统存在这一部分,它应该能从Clojure优秀的 功能抽象、宏系统、丰富的不可变数据结构和序列处理类库、解构(destructuring)、组成复杂多阶段计算(中间可能出错)的单体抽象 (monadic abstractions)等诸多特性中获益良多。
相关厂商内容
跟技术大牛,侃侃容器那些事儿!
关于红包、SSD云盘等核心技术集锦!
UCloud UCan技术夜,与“老司机”共侃云服务技术实践与风向
看明略任鑫琦如何谈关系挖掘算法
Cloudant DBaaS技术概述

InfoQ:你们用到了Clojure的并发和STM特性吗?
尽管这些特性很酷,但我们没有用Clojures构建并发特性。相反,我们利用了Clojures的另一个特性,务实的选择将其构建在JVM上。我们只是 把并行和分布式计算委托给Cascading + Hadoop,我们在这两者之上又加了一层,使用起来很友好,如果有时间,我们会将其开源。
InfoQ:你能简要介绍一下你们的Clojure代码是如何组织的吗?比如,如何使用命名空间、muti-methods(多重分派)、macros(宏)等等。
过往函数式编程的经验使我们能够将代码组织成非常“函数”的形式。我们使用命名空间的方式与在其它语言中使用命名空间的方式相同。我们尽量少用 macros和muti-methods,就算用也只是在适合的地方使用。人们对Lisp的所有印象就是其有大量的macros和meta-sauce。 尽管从某些方面来说这是对的,但是用FP基础构建块,你能走得更远;如lambdas、HOFs、currying、partial application等等。我不能算是精通monad,但是我觉得mondads和multi-methods及macros都差不多。这些抽象概念不但功能强大,而且也很酷,吸引 了不少眼球。当这些抽象概念有助于简化开发时,我就会设法使用这些工具。但是这要求思维缜密,使用原始的函数编程方式及数据结构你也能做得很好。最后谈一下Clojure中的monads,有些人认为monads是用于状态的,可是Clojure已经有了许多有效方法来处理状态,为什么还要用 monads。我们没有使用过state monad,但是用过许多其他很有用的monads。我很欣赏Brian Beckman对monads的描述:他们只是伪装的函数合成物而已。使用这一概念的最大好处是,能够安全构造出中间可能失败或碰到空值的多阶段计算。虽然Destructuring bind看起来并不像macros和monads那样引人注目,但在实践中它实际上是一个非常强大的抽象概念。Rich选择从模式匹配中解耦 destructuring bind的方法非常聪明。我相信很快在Clojure里就会有ML风格的模式匹配,这一切正在实现中。
InfoQ:你提到过用于将数据格式输入到Clojure数据结构的Clojure reader:你在使用Reader macros吗?
Clojure没有reader macros,我们也压根不需要。要读写Clojure数据结构,我们只需使用print-dup语句即可,它可以让我们定义multimethods来 分派printers。只有在你需要读写没有内建的类型时,才真正需要实现Printer。例如,我们有一个针对joda-time日期的特殊 printer,那么我们也将以一种特殊的方式将他们读回。
InfoQ:你提到过编写Clojure数据结构——你是用其来序列化传输、存储或其它用途的数据吗?
我们将Clojure数据结构用作通信和存储的中间表示。例如,我们所有数据转换工作的输出都是Clojure数据结构形式,这种中间表示遍布于我们所有 的Hadoop工作中。这是我们置于Cascading和Haooop之上的那一层东西的关键,可以让我们免于处理Hadoop输入格式。
InfoQ:你们有什么想加到Clojure或Clojure生态系统中的东西么(类库、工具……)?
有人提议加个高质量的destructuring模式匹配工具,这个东西挺有用。但我对局部改进更感兴趣。我们没有用模式匹配,而且Clojure有许多很好的抽象概念,因而并不会缺失太多模式匹配,但是我认为它还是让很多地方的代码更加整洁了。如果Rich开放该reader,我想一定很酷,或许这将帮助为模式匹配和monad实现创建良好的语法。其次,Clojure是我第一次使用Lisp,因此我并没有使用reader macros的经验,因此,在这方面我并不在行。 如果Rich不保留竖线也挺好,这样我们可以将它作为我们核心DSL的一部分,用来作为条件概率记号。 :-)
InfoQ:对于你所使用的Clojure类库,你有什么建议?
使用Clojure的第一个建议是:Clojure-core 和 Clojure-contrib都很小,因此最好通读全部代码。从中你将发现非常好的东西。留意所有神奇的数据结构及数据结构处理函数。例 如,Clojure有一个友好的Set及Set操作实现,以及一些准关系代数实现。我把Clojure看作是一种面向函数编程的数据结构。Clojure拥有一套神奇的数据结构。此外,所有这些数据结构都有书面陈述,因此reader和destructuring都很自然。所有这些结合在一起让人非常愉快。 传承自ML的函数语言中,函数是类型签名。而在Clojure中,函数是数据结构拓扑签名。
InfoQ:FlightCaster的Web前台是用Rails编写的,部署在Heroku上。为什么选择Rails和Heroku?
当我开始介入FlightCaster开发时,已经定下来用Heroku和Rails了。这一决定是有道理的:Ruby和Rails生态环境生产效率比较 高,并且为构建WebApp铺平了道路。Heroku和Rails对团队来说是很自然的选择,因为创始人中有两个具有Rails开发经验,Herkou的 创始人之一还是我们CEO的密友。:-) Flightcaster和Heroku共处一室,这太棒了!拥有这种内部联系有益无害。
InfoQ:你们是如何将Web UI与Clojure后台进行集成的?
Rails不只是Web前台,而且还是WebServer。我们使用Clojure来进行数据处理和机器学习研究。我们使用一种非常简单的策略来实现集成:我们让Clojure代码产生预告模型的json中间表示,然后把它推向Ruby端,以json格式来读取这些数据。
Clojure第一本书的作者——Stuart Halloway,最近发表了一篇文章介绍了使用Clojure的不同技巧。该文章提供了Clojure中的封装、多态等一些例子——那些拥有OOP背景的开发者会对此产生兴趣(这是类和继承之外的生活)。 要了解更多Clojure方面的信息,请参见InfoQ的interview with Rich Hickey,其中谈及了STM、并发性及multimethod。Rich关于Clojure的视频讲解提供了有关Clojure特性及其设计原则的更多详细内容。
查看英文原文:Clojure and Rails - the Secret Sauce Behind FlightCaster

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,335评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,895评论 3 387
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,766评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,918评论 1 285
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,042评论 6 385
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,169评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,219评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,976评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,393评论 1 304
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,711评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,876评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,562评论 4 336
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,193评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,903评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,142评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,699评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,764评论 2 351

推荐阅读更多精彩内容