数据是载体,智能是目标,而机器学习就是从数据通往智能的技术途径。它从样本数据中学习得到知识和规律,然后服务于实际的推断和决策。更是让利用地理视角解决行业问题的思路和方法,有了新的尝试与探索。
通俗地说,机器学习就是从数据中挖掘出有价值的信息。数据本身是无意识的,它不能自动呈现出有用的信息。怎样才能利用机器学习快速准确找出有价值的东西呢?
极海作为行业最早的探索者,为了应对大规模数据和下述现实难题所带来的问题,融合新技术,衍生新能力,把服务放到云端,将机器学习、深度学习和地理大数据整合集成机器学习百宝箱DeepSat,构成一整套完整的解决方案:提供数据+算法+培训+硬件机器。
· 机器学习的现实难题 ·
1.技能上手慢
机器学习(深度学习)技能上手存在一定的门槛,需要不同领域的知识,涵盖基础编程、统计学、概率论、微积分、数据分析等等。不管是自学还是上网课,都是耗时耗力耗钱还往往缺乏实践落地。
2.样本数据少且杂
样本数据在机器学习(深度学习)任务中起着至关重要的作用。数据越丰富、越精准,意味着模型预测效果越好。
难以获得海量的样本数据:不同任务需要不同类型的样本数据,包括近十种不同类别,比如房价数据集、遥感影像数据集、街景数据、房价数据集、动物图片数据集;
不同类型的数据标注不同:同一数据集,针对不同任务,需要不同的标注数据。比如非结构化数据在计算机视觉领域,同样是街景数据,针对图像分类、语义分割、实例分割这些任务,需要标注不同的数据。
3.算法选择太多
机器学习领域有包含非常多的模型,针对不同任务、不同的数据类型,不知如何进行选择。
机器学习:回归任务,包括线性回归、逻辑回归等;分类任务,包括K近邻、决策树、支持向量机,xgboost等;非监督任务,kmeans、层次聚类等......
深度学习:计算机视觉,包括图像分类、定位检测、语义分割、实例分割;自然语言处理等......
4.难以贴合自身业务
掌握了机器学习以及深度学习的知识后,但面对自身业务场景和已有的数据,不知从何下手。无法将业务问题转化为可用机器学习解决的问题,无法洞察手里所掌握数据后面的价值,无法用机器学习的手段解决业务问题。
· 解决方案 ·
极海机器学习百宝箱DeepSat,包含的一套解决方案提供数据+算法+培训+硬件机器。该方案通过降低用户学习机器学习和获取样本数据的门槛,让用户快速掌握本行业人工智能的技能,方便用户和开发者快速上手,并将其应用到自己的业务场景中。从而提高工作效率和分析能力,并最终落地到行业应用中。
1.提供数据
我们提供了非常丰富的样例数据(道路、建筑物、土地利用类型等)供模型进行训练。
遥感影像数据
土地利用类型(7种地物类别,2.1GB)
道路数据(3.2GB)
地物目标检测数据(60类, 16GB)
建筑物数据(25GB)
街景数据
北京六环内街景数据(51GB,共50多万张)
2.整合算法
我们提供了当前最前沿的机器学习、深度学习算法和方便快捷的预处理、训练和后处理等一系列工具。
常用模型
线性回归
逻辑回归 LR
决策树、随机森林
梯度提升树 XGBoost
聚类 k-means等等
DeepSat中包含了20余中当前最先进的深度学习算法
图像分类:ResNet、DenseNet等
语义分割:UNet、PSPNet、DeepLab V3等
目标检测:FasterRCNN、SSD等
实例分割:Mask-RCNN
3.前期培训
我们提供了全面的技能+业务的指导,帮助那些希望通过3次面对面的培训,即可自行完成本行业机器学习应用实践的用户,实现团队在本领域人工智能上的突破。
4.软硬件配置,机器学习&深度学习环境搭建
Python基础语法
机器学习和深度学习基本原理培训
若干机器学习实践案例,包括分类和回归
若干深度学习实践案例,包括分类和语义分割
针对影像和图片数据定制的工具包详解,包含了丰富的即拿即用的工具
针对具体的业务场景进行针对性的指导,让客户可快速将机器学习应用到自己的业务中
5.硬件机器(可选)
如有硬件需要,可提供包含GPU的硬件机器,配置可按需求定制。
· 定制化 ·
针对有自己数据,有特定场景的用户,我们还可以提供定制化服务,极海有一整套的数据清洗、数据入库,到针对业务模型的训练和调参,以及最后结果线上展示的部署等一系列工具和实际操作,可以快速完成复杂的数据预处理过程。
· 联系我们 ·
接下来的几周,我们将继续为大家更全面的对百宝箱Deep Sat的产品功能和技术特点详细介绍,以及Deep Sat的实际应用成果,敬请期待。同时,也非常欢迎各领域有识之士,与极海交流合作,积极探索更多落地应用场景及可能性。
联系极海
接下来几周,我们将陆续为大家,更全面的对deep sat 的产品功能和技术特点,以及实际应用成果,进行详细介绍,感兴趣的你,可以关注微信公众号:极海纵横。