1、odps 概述
1.1 介绍
odps(开放数据处理服务)是面向大数据处理的云计算服务主要提供结构化和半结构化的数据存储和计算服务。同时也是一个海量数据处理平台,具备PB级别的数据处理能力,适用于海量数据储存、数据仓库建库、数据统计和挖掘、机器学习和商业智能等领域。
1.2 基本概念
- 账户
- 项目空间
- 表
- 分区
- Task(任务):单个SQL Query、命令和MapReduce 程序统称为一个任务, 一个Job可以包含一个或者多个Task,以及表示其执行次序关系的工作流(Workflow)
- Job(作业)
- 实例
- 资源 :是odps特有的概念。用户可以上传 JAR或者文件作为资源,也可以将Project下的某张表作为资源
1.3 一些应用场景
现在有很多基于odps的 应用系统和业务系统,包括数据仓库,BI分析和决策支撑等,譬如 :阿里金融数据仓库、CNZZ数据仓库、阿里妈妈广告CTR预估