小团队？大数据！

大数据能为企业带来什么?更多的订单，更低的成本，更快捷的管理，更新的业务模式。然而在每轮技术变革中，中小企业似乎都是被最后照顾到的。在这场新变革的席卷下，我们不禁又要问小团队，你的大数据在哪里?

大数据之所以能称得上一个时代，来自于整个社会的集体狂欢。数据源于各行各业，这场变革带来的机遇自然蕴藏于各行各业之中。紧盯这个市场等待机遇的，无所谓IT巨头或是初创企业，无所谓团队规模是大是小。

大数据能为企业带来什么?更多的订单，更低的成本，更快捷的管理，更新的业务模式。巧妙善用互联网上的大数据, 小型创业团队就可以为自己快速积攒早期创业所需的资源,从而降低创业成本,提高收益率。然而我们却看到，在每轮技术变革中中小企业都是被最后照顾到的。在这场新变革的席卷下，我们不禁又要问小团队，你的大数据在哪里?

诚然，缺技术、缺人才、缺数据等种种现实，都将小团队置身于水深火热之中。那么大数据时代的小团队还有机会吗?

“当然有。”前小米数据工场负责人、现任火线数据创始人兼CEO、 WOT2016 讲师卢学裕在接受51CTO.com记者独家专访时，不仅给出明确的肯定答案，也结合他曾在优酷视频系统及小米数据工场的亲身实践，细细剖析面对种种问题下的小团队该如何做好技术选型，及如何权衡面临的大数据成用成本和数据隐私担忧。

小团队的大数据挑战

近几年，以Hadoop生态为代表的数据基础设施发展很快，给大数据技术的易用性提供了很大改善，也使技术门槛降低很多。

在卢学裕看来，小团队在大数据方面的挑战主要表现为人才短缺和数据来源。卢学裕讲到，为了应对这两个问题，小团队必须要在业务上下功夫，依据核心的业务形态，深入挖掘自身数据。

具体应该怎么做呢?卢学裕以视频用户数据举例。虽然用户在观看视频的过程中，没有太多的互动过程，但还是可以挖掘出价值非常大的高频数据。基于用户的拖拽、回看这样同一份数据，我们可以做到的可以有很多：

挖掘到不同用户对视频内容的High点，帮助视频的内容运营和内容创作找到用户兴趣点;

认识用户行为，找到相似用户，基于内容兴趣进行用户画像;

根据用户对内容上的喜好更好地进行CDN的预分发

根据用户行为做视频推荐

……

某种意义上说，视频推荐比商品推荐更容易。视频作为用户相对高频的行为，意味着我们能抓取到用户更多的行为数据，对用户的喜好反映更全面;从应用场景的角度来说，用户对于商品是否购买可能是一个很大的决定，而看不看视频相对决定很小，决定错误的损失也很小。在进行视频内容分析时，由于视频文本挖掘的维度偏少，因此进行文本分析的价值不大。

因此，同一技术在不同的业务领域上的重视程度，和起到的作用是不一样的。小团队由于自身技术能力和专业人才资源都有限，一定要更加细致地了解自己的业务形态，最大程度利用已有数据。

小米数据工场大数据平台架构

小米目前除了发展自己的公司，还投资了很多生态链企业。随着业务的快速增长，业务产生的数据量突飞猛涨。大家都知道，数据越集中，利用价值越大，由此小米数据工场应运而生。

小米数据工场主要承担着为全公司各团队及小米的生态链企业，提供数据采集、计算、存储等基础能力，以及机器学习、挖掘的工具和方法的任务。除了底层的能力，数据工场也为公司及生态链企业提供一些具体的基础数据服务，用于小米信用卡的风控和额度评估、广告精准投放、限时抢购时用数据打击黄牛等等。通过数据工场提供的数据能力，企业不仅能够对业务进行数据分析，也实实在在将数据应用到核心业务场景中。

围绕Hadoop生态构建基础平台

小米数据工场主要的工作是管理数据、元数据、数据权限，以及管理大量的计算。卢学裕强调，把数据存下来不是目的，而是要通过计算运用到各个业务领域中。小米及其生态链的业务场景丰富，因此整个计算体系是纷繁复杂的。

为了更好适应未来的需求，小米数据工场围绕Hadoop生态构建底层基础平台。虑到扩展性，数据工场天生基于Scala设计成分布式架构。由于小米及其生态链企业业务场景丰富，因此在技术选型方面全生态都会涉及，如消息流、批处理、实时计算等技术都需要用到，HBase、Hive、Spark、Storm 、Impala都在不同的场景下使用。

利用Docker解决异构和资源问题

为了管理好这些纷繁的计算框架和模型，在计算的执行方面，小米使用Docker来解决对环境的不同需求和异构问题，并且与Hive、Impala、Spark这些不同的计算模型都进行了对接，去适配不同应用场景计算不同数据的模型。另外，在不同业务场景下，同一个计算逻辑也可以选用不同的计算模型，Docker 的使用也避免了资源的浪费。比如一个计算任务每天凌晨运行，为了追求吞吐量，可以放到Hive里跑;还是同样一个计算模型，现在就要跑，可以不用更改，就放到Impala里运行。

总结看来，Docker不仅解决了环境的异构，也解决了资源问题。另外，Docker的环境适应性很强，做横向扩展会比较容易。

对于数据隐私方面，小米考虑得非常重。采用Docker与自身安全策略的综合，小米用户数据的隐私和安全性也得到了极其严格的控制。

小团队的大数据敏捷之路

选择热门的技术

小公司的时间耽误不起。选择热门的、常用的、经过大公司验证的技术，一是少踩坑，二是常用的技术人才相对好找。

按需使用，不要规划得太大

传统BI进行数据分析时通常会建立一个大而全的模型，再根据业务需求进行调整。但小团队的业务发展很快，因此在初期不要规划得太大，而是根据业务需要，细分业务场景，在每个小场景里构建小的数据模型，分析用户就建用户模型，分析产品用简单的产品模型。

另外，小团队要考虑到自己的应用场景是以分析型为主，还是应用型为主，之后再进行相关的技术选型，如Hive、Impala 、Presto等;而如果是以业务型为主，就要具体结合自身业务和技术能力综合来看。在数据量不是非常大的情况下，没必要选择HBase这样集群的存储方案，有许多产品可以替代。比如MySQL这类传统数据库能支持的数据规模也不小。根据计算要求和数据规模综合来选，不是超高量的不需要选太大规模的技术选型。

选择便捷、灵活和易于管理的技术

大公司在技术和系统使用上首先考虑的是集群的利用率和吞吐量，而小公司则要从便捷、灵活和易于管理的维度来考虑。

存储方面：建议使用以HDFS为主的存储，因为很多计算的工具所使用的存储都建立在它之上。对于业务未来的迅速发展，有比较好的兼容性；

计算方面：建议在选用常用的基础设施之外，具体计算用户交互时使用易于使用的技术：

HUE：基于web，在进行Hive 查询时可以直接在平台上完成，使用门槛更低;

Presto：适应数据源多，可以连接各种各样的数据源做计算和数据分析。由于业务数据和用户的行为数据时分开的。使用Presto这种连接器型的分析工具时，有分析能力的人就可以直接使用这种工具，我们不需要将不同的数据还要ETL导入到一起，后续还要做加工处理，只需要在物理打通就可以。

重视数据积累

小团队在前期积累数据时，一定要多花点儿功夫，不要偷懒，把数据尽可能采集全、采集准。千万不要等用到什么数据才去找数据，一旦发现你需要的数据之前没积累；或是积累的是错的；或是没有对数据进行标识，没办法区分这是哪个用户，陷入逻辑孤岛，都会非常麻烦。

比如我们需要采集用户在看一篇文章时的数据。这时我们应该将采集的维度考虑得更多，至少从用户本身的维度、文章内容、上下文关系、用互交互事件这四个维度上考虑。采集的数据可能包括文章分类、标题、内容ID、当前该文章热度、用户获取文章的渠道等等。这会让我们更全面地了解用户的喜好，也将用户的路径分析的很清楚。

哪怕未来不知道怎么用，采集更多更全的数据一定会对应用产生价值。在存储成本较低的现状下，多采集数据带来的代价并不大。真正昂贵的其实是计算，而一旦没有数据，代价将会更大。

大数据是工具

对于创业公司来说，在更短的时间内创造更大的价值，是企业得以存活的根本。大数据是工具，了解大数据的作用，结合业务的真实场据，满足用户需求，大数据才能真的帮得上你

最后编辑于：2017.12.04 01:12:53

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 220,976评论 6赞 513
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 94,249评论 3赞 396
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 167,449评论 0赞 360
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 59,433评论 1赞 296
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 68,460评论 6赞 397
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 52,132评论 1赞 308
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 40,721评论 3赞 420
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 39,641评论 0赞 276
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 46,180评论 1赞 319
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 38,267评论 3赞 339
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 40,408评论 1赞 352
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 36,076评论 5赞 347
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 41,767评论 3赞 332
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 32,255评论 0赞 23
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 33,386评论 1赞 271
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 48,764评论 3赞 375
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 45,413评论 2赞 358