DeepLearning笔记:Docker 入门和用 Python 实现词频统计

一、神经网络简介

神经网络简史:

  • 40年代:概念雏形(没有学习算法)
  • 50年代:可用的学习算法 - 感知机
  • 1969年:Minsky 泼冷水
  • 70年代:BP 算法,训练多层神经网络
  • 90年代:SVM 支持向量机「打败」神经网络
  • 2006:深层网络理论、实验上有所突破
  • 2012:ImageNet,大幅提升结果(错误率 15.3%)

人工神经网络简单来说,就是在输入层和输出层中间加入多个隐层,实现多层神经元信号处理。它是一种从底层构建的思路。

  • Top-down approach to AI :西蒙为代表的符号学派
    • 形式化方法,将知识表示为符号
    • 运用逻辑进行推理
    • 对自然语言、图像问题基本毫无办法
  • Bottom-up approach to AI:神经网络,从最底层(神经元)开始构建

深度学习框架很多,不需要纠结使用哪种框架:

  • Tensorflow:Google 开源主推,是最流行的框架,文档齐全。底层是 C++ ,如果对性能要求不高,用 Python 开发的效率更高
  • MXNet:亚马逊主推
  • Caffe:图形领域,自然语言处理稍弱
  • Torch:Facebook 主推

二、Docker 环境安装和配置

Docker 是什么?它是一种容器化技术的实现,可以理解为一个轻量级的虚拟环境。

之前 00 被 Python 的版本和各种包虐过,所以折腾了 Virtualenv 的方法,一个项目新建一个 Python 环境。那么 Docker 跟 Virtualenv 的区别是什么呢?

Docker completely isolates the TensorFlow installation from pre-existing packages on your machine. The Docker container contains TensorFlow and all its dependencies.

Docker 有一个 Image 的概念,可以理解为别人已经制作好的环境(类似安卓手机装机软件),把 Python + TensorFlow + Jupyter Notebook 打包好。

Docker 安装和配置步骤

第一步:下载 Docker Community Edition for Mac安装。

docker version 可以查看版本:

kidults-NMB:~ kidult$ docker version
Client:
 Version:      17.03.0-ce
 API version:  1.26
 Go version:   go1.7.5
 Git commit:   60ccb22
 Built:        Thu Feb 23 10:40:59 2017
 OS/Arch:      darwin/amd64

Server:
 Version:      17.03.0-ce
 API version:  1.26 (minimum version 1.12)
 Go version:   go1.7.5
 Git commit:   3a232c8
 Built:        Tue Feb 28 07:52:04 2017
 OS/Arch:      linux/amd64
 Experimental: true

使用 Docker 时,命令行相当于客户端,服务器端在安装完成后需要启动。

第二步:到 Docker hub 找到 TensorFlow Image ,以此为模板构建自己的容器。参考 Using TensorFlow via Docker,用 run 命令加载 TensorFlow image:

docker run -it -p 8888:8888 tensorflow/tensorflow

开始下载后,发现速度非常慢:

参考小伙伴的 Docker Hub Mirror加速Docker官方镜像下载 笔记,使用镜像下载。在 Mac 上配置加速器很简单,右键点击桌面顶栏的 docker 图标,选择 Preferences ,在 Advanced 标签下的 Registry mirrors 列表中加入镜像地址: http://d43d99f5.m.daocloud.io Copy,点击 Apply & Restart 按钮使设置生效。

[图片上传失败...(image-2f77b8-1514373897671)]

再次运行docker run -it -p 8888:8888 tensorflow/tensorflow,速度飞了起来~

下载成功后,可以在浏览器看到 Jupyter Notebook 界面:

[图片上传失败...(image-efb350-1514373897671)]

Docker 常用命令

  • 关闭 docker:control+c

  • 查看运行状态:docker ps

  • 把本地目录映射到容器:docker run -it -p 8888:8888 -v 原路径:目标路径 tensorflow/tensorflow

  • 查看历史容器:docker ps -a

    kidults-NMB:my_venv kidult$ docker ps -a
    CONTAINER ID        IMAGE                   COMMAND             CREATED             STATUS                      PORTS                              NAMES
    f4eaa7828ac5        tensorflow/tensorflow   "/run_jupyter.sh"   7 minutes ago       Up About a minute           6006/tcp, 0.0.0.0:8888->8888/tcp   priceless_mccarthy
    b09563e0479b        tensorflow/tensorflow   "/run_jupyter.sh"   52 minutes ago      Exited (0) 7 minutes ago                                       silly_chandrasekhar
    d669d764de48        tensorflow/tensorflow   "/run_jupyter.sh"   About an hour ago   Exited (0) 52 minutes ago                                      relaxed_davinci
    
  • 恢复历史容器:docker start -i id (ID只需要写前几位)

  • 删除容器:docker rm id

  • 重命名容器:docker rename CONTAINER ID XXX(重命名为 dl)

  • 在容器里安装包:!pip install xxx

参考 junjielizero 同学的笔记,优化了几个步骤:

  1. 创建跟 github 同步的容器:

    docker run -it -p 8888:8888 -v ~/Workspace/DeepLearning101/:/Workspace/DeepLearning101 -w /Workspace/DeepLearning101 tensorflow/tensorflow 
    
  2. 给 docker 启动命令起别名

    把课程容器改名为dl,然后新建别名 alias dsdl="docker start -i dl"

  3. 在 iTerm2 运行 dsdl,按着 Command 点击链接 localhost:8888 即可打开项目

三、词频统计作业

统计 happiness.txt 的词频

思路:读取文件 → 用 jieba 分词 → 清除非中文字符 → 用 counter 计数 → 用 sorted 排序

  1. 读取文件

    loadfile = open('happiness.txt', 'r')
    text = loadfile.read().decode('utf-8')
    loadfile.close()
    
  2. 用 jieba 分词

    words = jieba.cut(text)
    
  3. 清除非中文字符

    re.match(pattern, string, flags=0)

    If zero or more characters at the beginning of string match the regular expression pattern, return a corresponding MatchObject instance. Return None if the string does not match the pattern.

    for word in words:
        if re.match(u'([\u4e00-\u9fff]+)', word):
             segments.append(word)
    
  1. 用 Counter 计数,用 sorted 排序

    Counter 用法

    collections.Counter([iterable-or-mapping])

    A Counter is a dict subclass for counting hashable objects. It is an unordered collection where elements are stored as dictionary keys and their counts are stored as dictionary values.

    sorted 用法

    sorted(iterable[, cmp[, key[, reverse]]])
    Return a new sorted list from the items in iterable.

    cmp specifies a custom comparison function of two arguments which should return a negative, zero or positive number depending on whether the first argument is considered smaller than, equal to, or larger than the second argument: cmp=lambda x,y: cmp(x.lower(), y.lower()). The default value is None.

    lambda 表达式用法

    通常在需要一个函数但是又不想命名一个函数时使用,即匿名函数。比如实现一个可以求list中所有元素和的函数:

    from functools import reduce 
    l = [1,2,3,5,-9,0,45,-99] 
    reduce(lambda x,y:x+y,l)
    

    在这里,用 Counter 统计字典中词的出现次数,以 lambda 取字典中的 value 值(key 是 x[0],value 就是 x[1])用 sorted 方法按降序排序:

    sorted_list = sorted(Counter(dict).items(), key=lambda x:x[1], reverse=True)
    

最后,完整的代码和结果如下:

# -*- coding: utf-8 -*-

import jieba # for spliting
import re # for regular expression
from collections import Counter # for stat

# Read file
loadfile = open('happiness.txt', 'r')
text = loadfile.read().decode('utf-8')
loadfile.close()

# Split words into a dict
dict = []
words = jieba.cut(text)
for word in words:
    if re.match(u'([\u4e00-\u9fff]+)', word):
        dict.append(word)

# Sort the list
sorted_list = sorted(Counter(dict).items(), key=lambda x:x[1], reverse=True)

# Print result
for i in sorted_list[:10]:
    print " '%s' : %d " % (i[0], i[1])

结果:

 '的' : 22848 
 '是' : 4123 
 '在' : 3538 
 '他' : 2522 
 '了' : 2288 
 '人' : 2089 
 '他们' : 1811 
 '和' : 1746 
 '有' : 1478 
 '我' : 1433 

Ref

Art & Code 的热门文章

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,186评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,858评论 3 387
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,620评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,888评论 1 285
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,009评论 6 385
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,149评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,204评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,956评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,385评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,698评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,863评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,544评论 4 335
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,185评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,899评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,141评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,684评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,750评论 2 351

推荐阅读更多精彩内容

  • 1. 介绍 首先让我们来看看TensorFlow! 但是在我们开始之前,我们先来看看Python API中的Ten...
    JasonJe阅读 11,728评论 1 32
  • Spring Cloud为开发人员提供了快速构建分布式系统中一些常见模式的工具(例如配置管理,服务发现,断路器,智...
    卡卡罗2017阅读 134,642评论 18 139
  • 网址 下载与安装 你可以使用我们提供的 Pip, Docker, Virtualenv, Anaconda 或 源...
    九七学姐阅读 4,742评论 3 11
  • 2013/7/27 洪杰鸿 159-9134-5246 jayhong595@gmail.com 曾经我是一名用户...
    桀骜阅读 360评论 0 3
  • 失眠这种事情发生在我身上的可能性太小了,数都数的过来。一年能有个两三次就破天荒了,一方面证明我睡眠真的挺好的,...
    小猪天堂阅读 215评论 4 0