##[开源]Griffin - 开源数据质量解决方案

//ebay技术博客
Griffin — Model-driven Data Quality Service on the Cloud for Both Real-time and Batch Data | eBay Tech Blog http://www.ebaytechblog.com/2016/10/12/griffin-model-driven-data-quality-service-on-cloud-for-both-real-time-and-batch-data/


【Hadoop Summit Tokyo 2016】使用Hadoop来构建实时和批数据的数据质量服务-博客-云栖社区-阿里云 https://yq.aliyun.com/articles/71102?spm=5176.100239.blogcont71098.15.Kt7Srt

Paste_Image.png
Paste_Image.png
Paste_Image.png

//userguide
griffin/userguide.md at master · eBay/griffin · GitHub https://github.com/eBay/griffin/blob/master/griffin-doc/userguide.md

Paste_Image.png

//
Apache Griffin首页、文档和下载 - 开源数据质量解决方案 - 开源中国社区 https://www.oschina.net/p/griffin?fromerr=PNYgofK7

Apache Griffin是一个应用于分布式数据系统中的开源数据质量解决方案。在Hadoop, Spark, Storm等分布式系统中,提供了一整套统一的流程来定义和检测数据集的质量并及时报告问题。
Apache Griffin填补了开源世界里在大数据质量领域的空白。就像空气质量,水和食品安全等无时不刻地在影响人类的生命一样,数据质量在数据科学领域是至关重要的。在大数据时代,企业决策调整,商机发现等越来越依赖于大数据的数据分析和数据挖掘,而数据质量的保证是所有一切数据分析和数据挖掘的基础。
系统架构:


核心优势:

主要功能:

企业应用:
Apache Griffin已经部署在eBay的生产环境中,为eBay系统提供核心数据质量检测服务(例如:实时的个性化数据平台,Hadoop 数据集等),每天验证的记录超过8亿条,数据量约1.2PB。
团队成员:

Apache Griffin现在的团队成员全部来自eBay中国卓越技术中心,这又是一个由国人自主研发并贡献出来的开源项目。目前正在将Apache Griffin项目迁移到Apache社区,我们非常欢迎热心于开源软件的程序猿们,数据猿们参与进来,一起推动Apache Griffin更快更好的发展,回馈给全球软件开发者们。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

友情链接更多精彩内容