锐眼视点:
- 2017 年实时流数据分析的 Top 27 个预测;
- CrateDB 发布可对物联网数据进行分析的 SQL 数据库;
- 2017 年,5 个不应该被忽视的机器学习项目。
[业界新闻] 2017 年实时流数据分析的 Top 27 个预测
根据 Markets & Markets 的预测,流数据分析市场将从 2016 年的 30.8 亿美元增长到 2021 年的 137 亿美元。各个企业都将快速意识到他们需要利用实时数据集成和流数据分析来获得更有价值的信息、使数据变得更安全以及保持增长。在数据无时无刻不在产生的背景下,企业需要:
- 过滤无关数据
- 进行聚合和分组
- 跨流关联信息
- 将元数据、参考数据和历史数据与上下文的流数据相结合
- 实时监测异常数据
实时数据集成和刘数据分析平台公司 Striim, Inc. 的联合创始人兼 CTO Steve Wilkes 给出了他对 2017 年关于实时数据分析将如何影响云、IoT、集成服务、分析服务、大数据以及数据安全领域的预测,对这些领域的 27 个预测都做了深入解释和说明。
原文链接:Striim – Top 27 Predictions for 2017
[业界新闻] CrateDB 发布可对物联网数据进行分析的 SQL 数据库
Crate.io 发布了 CrateDB 1.0, 一个开源 SQL 数据库,它将使对物联网数据的实时分析成为可能。CrateDB 使得主流 SQL 开发者也可以处理之前只能由 NoSQL 解决方案处理的物联网数据应用。同时,CrateDB 宣布在三藩市成立新的总部。
从 2014 年推出至今,CrateDB 已经获得了超过 100 万次下载,下面的这些创新造就了它的独特能力:
- 将分布式SQL查询引擎用于更快的 JOIN,聚合和即席查询
- 将数据搜索和查询多功能性集成到 SQL
- 采用容器架构以及为了简单缩放进行自动数据分片
原文链接:CrateDB SQL Database Puts IoT and Machine Data to Work
[业界新闻] 2017 年,5 个不应该被忽视的机器学习项目
这篇文章将推荐 5 个大家可能没有听说过的机器学习项目,来自不同生态系统和编程语言。你可能会发现你并不需要其中的某一个工具,但是深入了解它们的实现细节和代码有助于启发我们的思路。
Hyperopt-sklearn
Hyperopt-sklearn 使用了多种搜索算法,可以搜索所有支持的分类器或者只是用参数给定的唯一分类器,它支持一系列数据预处理步骤,比如 PCA, TfidfVectorizer, Normalzier, 以及 OneHotEncoder 等。Dlib
Dlib 是使用 C++ 实现的可用于创建机器学习和数据分析应用的通用工具库,并且提供了 Python 接口。NN++
NN++ 是一个 C++ 实现的轻量级、非常容易使用的神经网络,无需安装,直接#include
即可。LightGBM
来自微软的梯度增强树算法实现,提供了 C++ 和 Python 接口。Sklearn-pandas
Sklearn-pandas 是一个正在开发中的模块,在 Scikit-Learn 的机器学习方法和 Pandas 风格的 Data Frame 之间提供一个桥梁。
原文链接:5 Machine Learning Projects You Can No Longer Overlook, January