Pig从入门到精通1:Pig简介

1.什么是Pig

Pig是一个用来处理大规模数据集的平台,最早是Yahoo!公司的项目,后来共享给了Apache公司。Pig可以看做是Hadoop的客户端,可以连接到Hadoop集群进行数据分析工作,使用Pig可以简化MapReduce任务的开发过程。

Pig使用PigLatin语言进行数据处理,PigLatin是一种类似于SQL的面向数据流的语言,使用起来非常方便,对于不熟悉Java的用户简直是一种福音。使用PigLatin语言可以对数据进行排序、过滤、求和、分组、关联等常用操作,也可以自定义函数,除此之外PigLatin还是一种轻量级的脚步语言。

Pig可以看做是PigLatin语言到MapReduce任务的映射器。Pig可以自动对集群资源进行分配和回收,并且自动对MapReduce任务进行优化。

2.Pig和Hive的对比

(1)相同点

  1. Pig 和 Hive 都是Hadoop生态下的数据分析引擎
  2. Pig 和 Hive 都是只有计算、没有存储,计算使用MapReduce,存储使用HDFS
  3. Pig 和 Hive 都是将类SQL语言编写的程序转换成复杂的MapReduce任务来执行

(2)不同点

  1. Pig使用PigLatin语言,Hive使用Hive SQL(简称HQL)语言
  2. Pig侧重业务逻辑的实现,Hive侧重编程效率的提高:例如实现一个业务逻辑,使用Pig需要一步一步来操作,使用Hive一条HQL语句就搞定
  3. Pig可以用来在短时间内获取一个复杂的业务逻辑处理结果,Hive可以用来执行定时任务

3.Pig和MapReduce的对比

pig针对一些基本的处理逻辑已经做好了封装,直接使用对应的命令即可,但是使用mapreduce 代码的话就需要自己实现,并且使用pig还不需要考虑代码的优化。使用mapreduce的话会出现数据倾斜的问题,但是使用pig可以避免这个问题。

4.Pig的应用场景

最主要的就是数据清洗。

5.Pig的使用方式

(1)Grunt Shell

在Pig Grunt Shell下执行Pig命令。

(2)Bash Shell

在外部Bash Shell中执行Pig命令,如:

bin/pig -e "A = load 'a.txt' as (id:int,name:chararray);dump A;"

(3)Pig脚本

使用脚本来执行Pig程序,如:

vim my.pig
-- 单行注释
/*
多行注释
*/
A = load 'a.txt' as (id:int,name:chararray);
dump A;

执行命令

bin/pig my.pig

6.Pig的体系结构

Pig的体系结构如下图所示:

image

Pig的位置介于SQL和MapReduce之间,相当于为用户提供了三个层面操作数据的工具:SQL、Pig、MapReduce,其中SQL最简单。用户可以根据需要选择任何一种方式操作数据。如果用户直接使用SQL来处理数据,那么可以通过Pig自动将SQL转换为MapReduce任务并作出优化,最后提交给集群执行。

7.Pig里面的数据类型

(1)基本数据类型

  1. int:整型
  2. long:长整型
  3. float:单精度浮点型
  4. double:双精度浮点型
  5. chararray:字符串类型
  6. bytearray:字节数组类型
  7. boolean:布尔类型
  8. datetime:日期时间类型
  9. biginteger:大整数类型
  10. bigdecimal:大浮点数类型

(2)复合数据类型

  1. tuple:元组,如:(1,2,3)
  2. bag:包,如:{(1,2),(3,5),(4,7,9)}
  3. map:映射,如:[key#value]
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,233评论 6 495
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,357评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 159,831评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,313评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,417评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,470评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,482评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,265评论 0 269
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,708评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,997评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,176评论 1 342
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,827评论 4 337
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,503评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,150评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,391评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,034评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,063评论 2 352

推荐阅读更多精彩内容