Week 8 MapReduce

MapReduce

思想

分而治之

把一个复杂的任务划分为若干个简单的任务分别来做

原因

在现实情况下，我们要分析的数据数据量会相当大，这样一台计算机就不足以做这种数据的处理，原因有二：

内存(memory) 不足
算力(CPU)不够

对于大规模的数据处理任务，需要许多计算机/超算同时做一件任务（并行计算）

组成

image

数据

分析需要的海量数据，随机地存储于这些计算机上。

不需要/不现实：统一地把数据一起存到一个超大的硬盘上。

数据直接分散在这些计算机上，他们不仅充当数据的处理器，也是充当数据存储的硬盘。

分工

Master，Master是负责调度的，相当于工地的工头。
Worker，相当于干活儿的工人。
- Woker进一步分为两种
  - Mapper 执行处理数据函数
  - Reducer 汇总数据，交付输出

Master将M分成许多小份，然后每一份分给一个Mapper来做，Mapper干完活儿（执行完函数），将自己那一份儿活儿的结果传给Reducer。Reducer之后统计汇总各个Mapper传过来的结果，得到最后的任务的答案。

假设原始任务的Input个数为M,output个数为N。Mapper的个数为P，Reducer的个数为R。

每个output有一个编号，假设为o1,o2,o3…oN。

每个Mapper要做M/P个input的处理任务

当一个Mapper处理完自己那一份儿input之后，每个input i被处理后转化为一个中间结果m。

每个中间结果m很自然地会若干output (如：m1对应o1,o3,o5) 会有贡献。

每个Reducer要做N/R个output的汇总工作。

每个Reducer负责一个或多个o的汇总处理。

假如某个Reducer负责o1,o2,o3,那么凡是对应到o1,o2,o3的被处理过的m都会传给这个Reducer做汇总处理。

过程

以 word count 为例

MapReduce 有六个步骤：

输入 input

Hello Java
Hello C
Hello Java
Hello C++

拆分 split ，将上述文档中每一行的内容转换为key-value对
```
0 - Hello Java
1 - Hello C
2 – Hello Java
3 - Hello C++
```

映射 map，将拆分之后的内容转换成新的key-value对

#mapper0
(Hello , 1)
(Java , 1)

#mapper1
(Hello , 1)
(C , 1)

#mapper2
(Hello , 1)
(Java , 1)

#mapper3
(Hello , 1)
(C++ , 1)

派发 shuffle，将key相同的放到一起

这一步需要移动数据，原来的数据可能在不同的datanode上，这一步过后，相同key的数据，会被移动到同一台机器上。最终，它会返回一个list包含各种k-value对。
```
{Hello: 1,1,1,1}
{Java: 1,1}
{C: 1}
{C++: 1}
```
缩减 reduce，把同一个key的结果加在一起
```
(Hello , 4)
(Java , 2)
(C , 1)
(C++,1)
```
输出 output，输出缩减之后的所有结果

模拟 MapReduce 实现过程（以词频分析为例）

input / spilt

输入需要处理的文本，将其分割成若干份，交给不同的 Mapper 处理

input_str = "Hello!\nThis is a sample string.\nIt is very simple.\nGoodbye!"

# Split the string into lines and store in a list
lines_of_text = input_str.split("\n")

print(lines_of_text)

str.split(sep=None, maxsplit=-1)

分割字符串 str.split
- sep : 分隔符
- maxsplit : 分割次数，如果是 -1 则尽可能地分割（贪婪）

Map

每个 Mapper 对分到的文本块（chunk）进行操作

# We will store the output of map_fn in here
word_count_lists = []

# For every line of text
for line in lines_of_text:
    # Apply the map function (split and count words)
    # Save the result as a list in our list
    word_count_lists.append(list(map_fn(line)))

# Show the result of mapping
print(word_count_lists)

import itertools

# word_count_lists is a list of lists
# Flatten the list of words to make it simpler by chaining lists together
word_count_list_flat = list(itertools.chain.from_iterable(word_count_lists))

print(word_count_list_flat)

生成一个 ==统计各行单词个数==的 list
对于 split 操作过生成的字符串 list 的每个元素，用 map_fn 统计每一个行单词的个数，并储存在 list 里
导入 itertools 库，这个库都是基于迭代的基本操作
用itertools.chain.from_iterable() 函数将 list 里的各个 list 的元素拿出来组成一个新的 list

itertools.chain.from_iterable(iterable)

轻松快速的辗平一个列表，相当于

def from_iterable(iterables):
    # chain.from_iterable(['ABC', 'DEF']) --> A B C D E F
    for it in iterables:
        for element in it:
            yield element

例子

a_list = [[1, 2], [3, 4], [5, 6]]
print(list(itertools.chain.from_iterable(a_list)))
# Output: [1, 2, 3, 4, 5, 6]

map_fn

mapper 做的操作，tut里做的是统计每个词在每句中的词频，可以根据不同的需求更改功能。

import re
WORD_RE = re.compile(r"[\w']+")

def map_fn(chunk):
    # Use the regex to find all words in each chunk
    for word in WORD_RE.findall(chunk):
        # Emit a result using the word as the key and number 
        yield (word.lower(), 1)

用正则表达式找到每一块文本中的每个单词，返回一个生成器。生成器（generator）生成由单词和其出现次数的 list。

正则表达式 ==[\w']+==

[\w'] 指字母和单引号'

匹配所有由一个或多个 [\w'] 组成的单词

用途

在编写处理字符串的程序或网页时，经常会有查找符合某些复杂规则的字符串的需要。

正则表达式就是用于描述这些规则的工具。换句话说，正则表达式就是记录文本规则的代码

比如你可以编写一个正则表达式，用来查找所有以0开头，后面跟着2-3个数字，然后是一个连字号“-”，最后是7或8位数字的字符串(像010-12345678或0376-7654321)。

类似于Control + F 但是功能强大的多
更主要的原因是，程序执行比嵌套条件判断效率高的多。

入门

Hi

有两个字符，第一个是 h，第二个是 i

通常正则表达式会有选项选择是否忽略大小写,默认是区分的。

由于许多单词中也包含 hi, 例如 history , 如果我们只需要找 hi 这个单词的话，要用\bhi\b
\bhi\b

\b 标识单词的的开头和结尾

注意这里识别不出 hihi , 因为 hihi 是另一个单词
\bhi\b.*\blucy\b

hi后面不远处有一个 lucy

. 匹配除换行符以外的任意字符

* *前边的内容可以连续重复使用任意次以使整个表达式得到匹配

常用的元字符（metacharacter）

代码	说明
.	匹配除换行符以外的任意字符
\w	匹配字母或数字或下划线或汉字
\s	匹配任意的空白符
\d	匹配数字
\b	匹配单词的开始或结束
^	匹配字符串的开始
$	匹配字符串的结束

0\d\d-\d\d\d\d\d\d\d\d

以0开头，然后是两个数字，然后是一个连字号“-”，最后是8个数字

但是这样写如果重复的符号个数很麻烦，所以引入限定符{8}

0\d{2}-\d{8}

即先是0然后 \d必须重复2次（2个数字），接着是 - ,最后是8个数字

限定符

代码/语法说明

* 重复零次或更多次

+ 重复一次或更多次

? 重复零次或一次

{n} 重复n次

{n,} 重复n次或更多次

{n,m} 重复n到m次
字符集合

\(?0\d{2}[) -]?\d{8}

匹配几种格式的电话号码，像(010)88886666，或022-22334455，或02912345678

代码/语法	说明
*	重复零次或更多次
+	重复一次或更多次
?	重复零次或一次
{n}	重复n次
{n,}	重复n次或更多次
{n,m}	重复n到m次

如果想匹配没有预定义元字符的字符集合(比如元音字母a,e,i,o,u), 只需要在方括号里列出它们就行了，像[aeiou]就匹配任何一个英文元音字母，[.?!]匹配标点符号(.或?或!)

也可以指定一个字符范围

像[0123456789]代表的含意与\d就是完全一致的：一位数字；

[a-z0-9A-Z] 等同于\w

例子

一个网站如果要求你填写的QQ号必须为5位到12位数字时，可以使用：^\d{5,12}$

函数
- 在使用正则表达式之前需要将 re 库文件导入程序
```
import re
```
- re.compile( pattern )
  
  将正则关系式转化成一个正则关系对象，供之后使用 re.match() 和 re.search() 等函数
  
  r 声明后面的字符串是普通字符串
  
  u 声明后面的字符串以 Unicode 编码
  
  b 声明后面的字符串用 byte 类型（01）
- re.fandall(pattern, string )
  
  返回所有符合正则表达式的词组，如果不止一个就返回包含他们的 list

生成器（generator）

我们在用 for 循环时，往往是通过遍历 List 的各个元素实现的：

for i in range(1000):

虽然这样也能完成任务，

但是该函数在运行中占用的内存会随着参数 max 的增大而增大，如果要控制内存占用，最好不要用 List。

用 ==流水线== 的方式解决这个问题

打个比方：流水线自动给料机

image

不用找一个特别大的容器装着原料，原料全部生产后再交给下一个机器；而是来一件原料机器就加工一件。

for 循环不用 list 可以通过一个函数每次生成list里的一个元素，再用另一个函数进行操作

# 斐波那契数列
  

def fab(max): 
  n, a, b = 0, 0, 1 
  while n < max: 
      yield b 
        # print b 
      a, b = b, a + b 
      n = n + 1 
for n in fab(5): 
  print (n)

>>>
1 
1 
2 
3 
5

yield 的作用就是把一个函数变成一个 generator，带有 yield 的函数不再是一个普通函数。
Python 解释器会将其视为一个 generator，在 for 循环执行时，每次循环都会执行 fab 函数内部的代码，执行到 yield b 时，fab 函数就返回一个迭代值。
下次迭代时，代码从 yield b 的下一条语句继续执行，而函数的本地变量看起来和上次中断执行前是完全一样的，于是函数继续执行，直到再次遇到 yield。

map_fn 的解释

import re
WORD_RE = re.compile(r"[\w']+")

def map_fn(chunk):
    # Use the regex to find all words in each chunk
    for word in WORD_RE.findall(chunk):
        # Emit a result using the word as the key and number 
        yield (word.lower(), 1)

导入正则表达式库
正则表达式匹配所有包括一个或多个由字母和单引号组成的单词的词组
定义 map_fn 函数（生成器），函数的参数为导入的字符串块
findall函数返回所有单词组成的 list
对于每一个元素，生成一个单词全小写和数字1 的 list

Shuffle and Sort

派发 shuffle，将key相同的放到一起，返回一个list包含各种key-value对

# SHUFFLE/SORT STAGE
from collections import defaultdict

# Create a dictionary where the default value is a list
word_tuple_dict = defaultdict(list)

for kv_pair in word_count_list_flat:
    # For each unique key append the (word, count) tuple to that keys list
    word_tuple_dict[kv_pair[0]].append(kv_pair)

# Print it in a nice format:
for k, v in word_tuple_dict.items():
    print(str(k) +": " + str(v))

导入 collections 库里的 defaultdict 类
将list 作为defaultdict类的初始化函数参数，即每个 defaultdict 的成员都是 list，并别每个成员都有 default_value
对于word_count_list_flat 的每一个元素（一个 key - number 的 list），将第零个元素作为字典 dict 的 key值，第一个元素加入 value 的 list 中。

defaultdict 类

这个类和传统的 dict 类基本一致，只是改写了个别函数，可以看做是 dict 类的子类

最重要的区别，也是为什么要用这个类的原因：

defaultdict 类的初始化函数接受一个类型作为参数，当所访问的键不存在的时候，可以实例化一个值作为默认值：

# 初始化函数接受一个类型作为参数
>>> from collections import defaultdict
>>> dd = defaultdict(list)
>>> dd
defaultdict(<type 'list'>, {})

# 当所访问的键不存在的时候，可以实例化一个值作为默认值：

>>> dd['foo']
[]
>>> dd
defaultdict(<type 'list'>, {'foo': []})
>>> dd['bar'].append('quux')
>>> dd
defaultdict(<type 'list'>, {'foo': [], 'bar': ['quux']})

这有什么意义呢？

举个例子：

strings = ('puppy', 'kitten', 'puppy', 'puppy',
           'weasel', 'puppy', 'kitten', 'puppy')
counts = {}

for kw in strings:
    counts[kw] += 1

该例子统计strings中某个单词出现的次数，并在counts字典中作记录。单词每出现一次，在counts相对应的键所存的值数字加1。但是事实上，运行这段代码会抛出KeyError异常，出现的时机是每个单词第一次统计的时候，因为Python的dict中不存在默认值的说法，

>>> counts = dict()
>>> counts
{}
>>> counts['puppy'] += 1
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
KeyError: 'puppy'

为了在执行第9行代码（将 list 的第零个元素作为新的字典 dict 的 key值，第一个元素加入 value 的 list 中）时

不会因为 dict 不存在该 key 值而报错。

因此在对数据进行统计操作时，用 defaultdict 类取代原来的 dict

Reduce

把同一个key的结果加在一起

# REDUCE STAGE
results = []

for k, v in word_tuple_dict.items():
    # Get the counts from the list of k/v pairs
    vals_list = [t[1] for t in v]
    
    # Apply the reduce_fn to the word and counts pair
    # reduce_fn will yield a (key, value) tuple
    # inside a generator object which we convert to a list
    results.append(list(reduce_fn(k, vals_list)))
    
print(results)

新建一个结果 list 用来放 reduce 的结果
列表推导式（ list comprehensions ），生成一个包含==该词在各句中出现次数==的 list，注意==‘is==’ 的值
将该词和上面的 list 传入 reduce_fn 函数中，得到该词以及总共出现次数的 list ,并添加到结果 list

为了好理解，打印过程中各个变量的值：

# REDUCE STAGE
results = []

print('word_tuple_dict.items\n', word_tuple_dict.items(),'\n')

for k, v in word_tuple_dict.items():

    vals_list = [t[1] for t in v]
    
    print('vals_list: ',vals_list)
    print("List of results of reduce_fn: ", list(reduce_fn(k, vals_list)))
    
    results.append(list(reduce_fn(k, vals_list)))
    
    print('results: \n', results,'\n')
    
print('final results: \n',results)

列表推导式（ list comprehensions）

推导式

推导式（又称解析式）是Python的一种独有特性。

推导式是可以从一个数据序列构建另一个新的数据序列的结构体。

共有：列表推导式、字典推导式和集合推导式

列表推导式

列表推导式（又称列表解析式）提供了一种简明扼要的方法来创建列表。

结构

推导式被中括号括在里面，代表推导的是个 list
新建一个变量名，这个变量名参与之后的推导式，同时也是作为结果列在 list 的元素
建立一个for语句，然后是零个或多个for或者if语句。
在结果列表中加入新建的变量以if和for语句为上下文的表达式运行完成之后产生的元素
- 那个表达式可以是任意的，可以在列表中放入任意类型的对象。

例子

multiples = [i for i in range(30) if i % 3 is 0]
print(multiples)
# Output: [0, 3, 6, 9, 12, 15, 18, 21, 24, 27]

用处

快速生成 List，尤其是当你需要用 For 循环来生成 list 时。使代码更加简洁。

#实现方式 1 
squared = []
for x in range(10):
    squared.append(x**2)
    
#实现方式2
squared = [x**2 for x in range(10)]

Reduce_fn

reducer做的工作，在 tut 里是将 mapper 统计的各句的词频进行求和。可以根据不同的需求更改功能

def reduce_fn(key, values):
    yield (key, sum(values))

定义一个生成器，参数是每一个单词，以及单词在各句中的词频 list

output

输出缩减之后的所有结果

# Flatten the results to make them more readable
results_flat = list(itertools.chain.from_iterable(results))

print(results_flat)

再次调用 itertools.chain.from_iterable函数将 results里的元素提了出来，并打印

安装`mockr` 库

Tutorial 里让大家使用的是 mockr 模块使用 MapReduce 架构。

打开终端

Mac 环境

control+space 打开 Spotlight, 输入 term(终端)，并打开

Windows 环境：

Win + R 打开运行，输入cmd 打开命令行工具
用 PiP 工具安装 mockr 模块
```
pip install mockr
```

使用 mockr 库实现

处理字符串（字频统计）

import re
from mockr import run_stream_job

WORD_RE = re.compile(r"[\w']+")

def map_fn(chunk):
    for word in WORD_RE.findall(chunk):
        yield (word.lower(), 1)

def reduce_fn(key, values):
    yield (key, sum(values))

input_str = "Hello!\nThis is a sample string.\nIt is very simple.\nGoodbye!"

results = run_stream_job(input_str, map_fn, reduce_fn)

print(results)

mockr.run_stream_job(input_data, map_fn, reduce_fn)

将输入的字符串分成多个 Chunk, 分别进行 map 操作和 reduce 操作

input_data 将要处理的字符串
map_fn 处理字符串Chunk，返回（key , value）的 list
reduce_fn 处理 mapper产生的（key,value ）返回（key, result） list

除了Tutorial做的MapReduce处理字符串的操作外还有

处理文本
处理表格（pandas）

可以看官网的例子

例子

MapReduce

MapReduce

Week 8 MapReduce

MapReduce

思想

分而治之

原因

组成

数据

分工

过程

模拟 MapReduce 实现过程（以词频分析为例）

input / spilt

Map

itertools.chain.from_iterable(iterable)

map_fn

正则表达式 ==[\w']+==

用途

入门

生成器（generator）

map_fn 的解释

Shuffle and Sort

defaultdict 类

Reduce

列表推导式（ list comprehensions）

推导式

列表推导式

结构

例子

用处

Reduce_fn

output

安装`mockr` 库

使用 mockr 库实现

处理字符串（字频统计）

mockr.run_stream_job(input_data, map_fn, reduce_fn)

相关阅读更多精彩内容

友情链接更多精彩内容

MapReduce

Week 8 MapReduce

MapReduce

思想

分而治之

原因

组成

数据

分工

过程

模拟 MapReduce 实现过程（ 以 词频 分析为例 ）

input / spilt

Map

itertools.chain.from_iterable(iterable)

map_fn

正则表达式 ==[\w']+==

用途

入门

生成器（generator）

map_fn 的解释

Shuffle and Sort

defaultdict 类

Reduce

列表推导式（ list comprehensions）

推导式

列表推导式

结构

例子

用处

Reduce_fn

output

安装mockr 库

使用 mockr 库实现

处理字符串（字频统计）

mockr.run_stream_job(input_data, map_fn, reduce_fn)

相关阅读更多精彩内容

友情链接更多精彩内容

模拟 MapReduce 实现过程（以词频分析为例）

安装`mockr` 库