
神经网络学习“你拍我猜” —— 你拍照,AI猜


本项目使用了一个经过预处理后较小的数据集,数据集中仅含有图像的特征结果。对于如何获取图像的特征,这里附上了open cv中对于图像特征的说明。

在该 notebook 中,我们基于以下三个特征来了解图像是狗狗,猫猫还是人的概率:

  • Feature1
  • Feature2
  • Feature3
  • Feature4




为了加载数据并很好地进行格式化,我们将使用两个非常有用的包,即 Pandas 和 Numpy。 你可以在这里阅读文档:

%matplotlib inline
# Importing pandas and numpy
import pandas as pd
import numpy as np
from IPython.display import display
 # present all plots in the notebook

# Reading the csv file into a pandas DataFrame
dataset = pd.read_csv('data.csv')

#random all the rows in dataset
dataset = dataset.sample(frac=1)

# print data shortcut
feature1 feature2 feature3 feature4 class
59 5.2 1080.0 3.9 14.0 1
146 6.3 1000.0 5.0 19.0 2
1 4.9 1200.0 1.4 2.0 0
118 7.7 1040.0 6.9 23.0 2
124 6.7 1320.0 5.7 21.0 2
96 5.7 1160.0 4.2 13.0 1
42 4.4 1280.0 1.3 2.0 0
95 5.7 1200.0 4.2 12.0 1
145 6.7 1200.0 5.2 23.0 2
40 5.0 1400.0 1.3 3.0 0

数据分析 - 绘制数据,可视化的数据分析


# Importing matplotlib
import matplotlib.pyplot as plt

# Function to help us plot
def plot_points(dataset):
    X = np.array(dataset[["feature1","feature2"]])
    y = np.array(dataset["class"])
    people = X[np.argwhere(y==0)]
    cat = X[np.argwhere(y==1)]
    dog = X[np.argwhere(y==2)]
    plt.scatter([s[0][0] for s in people], [s[0][1] for s in people], s = 25, color = 'red', edgecolor = 'k')
    plt.scatter([s[0][0] for s in cat], [s[0][1] for s in cat], s = 25, color = 'cyan', edgecolor = 'k')
    plt.scatter([s[0][0] for s in dog], [s[0][1] for s in dog], s = 25, color = 'yellow', edgecolor = 'k')
# Plotting the points

图上红色是人,青色是小猫,黄色是小狗。 粗略来说,这两个feature并没有很好地分离图像小狗,小猫和人。 也许将另两个features考虑进来会有帮助? 接下来我们将绘制一组图,用seaborn的pairplot函数来试试吧!

# plotting high-dimensional
import seaborn as sns

sns.pairplot(dataset, hue='class', vars=["feature1","feature2","feature3","feature4"])


任务1: 将训练集拆分成自变量data及应变量标签label的组合





# separate dataset into data - feature table and label table
data = dataset.iloc[:,:4]
label = dataset.loc[:,'class']

feature1 feature2 feature3 feature4
59 5.2 1080.0 3.9 14.0
146 6.3 1000.0 5.0 19.0
1 4.9 1200.0 1.4 2.0
118 7.7 1040.0 6.9 23.0
124 6.7 1320.0 5.7 21.0
96 5.7 1160.0 4.2 13.0
42 4.4 1280.0 1.3 2.0
95 5.7 1200.0 4.2 12.0
145 6.7 1200.0 5.2 23.0
40 5.0 1400.0 1.3 3.0

59 1
146 2
1 0
118 2
124 2
96 1
42 0
95 1
145 2
40 0
Name: class, dtype: int64

任务2: 将分类进行 One-hot 编码

为了实现softmax的概率分布,我们将使用Pandas 中的 get_dummies 函数来对label进行One-hot编码。

问题1: one-hot编码的作用是什么呢?

回答:计算机只能读懂数字,而不能理解具体的分类类型,onehot编码就是对于那些离散的特征转换成数字编码后,依然能保留它们相互之间离散的特性,比如鸭子 海狸 海象 如果编码编成0 1 2,虽然这三个动物没有任何关系,但是0 1 2却有数学上的大小和顺序,这个关系显然在原特征中是不存在的,而onehot编码后,三个编码从一维数轴上的0 1 2变成了三维相互正交的坐标轴上的100 010 001,彼此无任何顺序和大小关系。

# TODO:  Make dummy variables for labels
dummy_label = pd.get_dummies(label)

# Print the first 10 rows of our data
0 1 2
59 0 1 0
146 0 0 1
1 1 0 0
118 0 0 1
124 0 0 1
96 0 1 0
42 1 0 0
95 0 1 0
145 0 0 1
40 1 0 0

任务3: 数据标准化

由于神经网络是计算权重,因此我们需要对数据进行标准化的预处理。 我们注意到feature2和feature4的范围比feature1和feature3要大很多,这意味着我们的数据存在偏差,使得神经网络很难处理。 让我们将两个特征缩小,使用(x-min)/(max-min))来将特征归到(0, 1)。

# TODO: Scale the columns

data['feature2'] = (data['feature2']-data['feature2'].min())/(data['feature2'].max()-data['feature2'].min())
data['feature4'] = (data['feature4']-data['feature4'].min())/(data['feature4'].max()-data['feature4'].min())

# Printing the first 10 rows of our procesed data
feature1 feature2 feature3 feature4
59 5.2 0.291667 3.9 0.541667
146 6.3 0.208333 5.0 0.750000
1 4.9 0.416667 1.4 0.041667
118 7.7 0.250000 6.9 0.916667
124 6.7 0.541667 5.7 0.833333
96 5.7 0.375000 4.2 0.500000
42 4.4 0.500000 1.3 0.041667
95 5.7 0.416667 4.2 0.458333
145 6.7 0.416667 5.2 0.916667
40 5.0 0.625000 1.3 0.083333

任务4: 将数据分成训练集和测试集

为了测试我们的算法,我们将数据分为训练集和测试集。 测试集的大小将占总数据的 10%。



问题2: 拆分测试集的目的是什么?还有其他的拆分方式吗?


# TODO: split train and test dataset
from sklearn.model_selection import train_test_split
train_data, test_data, train_label, test_label= train_test_split(data, dummy_label, test_size=0.10, random_state=22)

print("Number of training samples is", len(train_data))
print("Number of testing samples is", len(test_data))

Number of training samples is 135
Number of testing samples is 15
feature1 feature2 feature3 feature4
116 6.5 0.416667 5.5 0.708333
81 5.5 0.166667 3.7 0.375000
6 4.6 0.583333 1.4 0.083333
38 4.4 0.416667 1.3 0.041667
39 5.1 0.583333 1.5 0.041667
20 5.4 0.583333 1.7 0.041667
18 5.7 0.750000 1.7 0.083333
113 5.7 0.208333 5.0 0.791667
26 5.0 0.583333 1.6 0.125000
140 6.7 0.458333 5.6 0.958333
feature1 feature2 feature3 feature4
25 5.0 0.416667 1.6 0.041667
57 4.9 0.166667 3.3 0.375000
87 6.3 0.125000 4.4 0.500000
61 5.9 0.416667 4.2 0.583333
0 5.1 0.625000 1.4 0.041667
141 6.9 0.458333 5.1 0.916667
133 6.3 0.333333 5.1 0.583333
75 6.6 0.416667 4.4 0.541667
71 6.1 0.333333 4.0 0.500000
14 5.8 0.833333 1.2 0.041667
0 1 2
116 0 0 1
81 0 1 0
6 1 0 0
38 1 0 0
39 1 0 0
20 1 0 0
18 1 0 0
113 0 0 1
26 1 0 0
140 0 0 1
0 1 2
25 1 0 0
57 0 1 0
87 0 1 0
61 0 1 0
0 1 0 0
141 0 0 1
133 0 0 1
75 0 1 0
71 0 1 0
14 1 0 0

任务5: 训练多分类的神经网络

下列函数会训练二层神经网络。 首先,我们将写一些 helper 函数。

  • Softmax 激活函数

\sigma(x) = \frac{e^{x_i}} {\sum_{i=1}^{p} e^{x_i}}




  • 误差函数 :交叉熵

loss = - {\sum_{i=1}^{m} ({y_i} * \log{\hat{y_i}})}

m 为 分类的类别数。

# TODO: Activation (softmax) function
def softmax(x):
    exp_x = np.exp(x)
    return exp_x / np.sum(exp_x)

def loss_CE(x,y,y_hat):
    return -np.sum(y* np.log(y_hat))


现在轮到你来练习,编写误差项。 记住这是由方程
- {x \cdot ({y - \hat{y}})} 给出的。


# TODO: Write the error term formula
def error_term_formula(x, y, y_hat):

    return -np.dot(x.reshape(-1,1), (y-y_hat).reshape(1,-1))
# Training function
def train_nn(features, targets, epochs, learnrate):
    # Use to same seed to make debugging easier

    n_records, n_features = features.shape
    last_loss = None

    # Initialize weights
    weights = np.zeros([features.shape[1],targets.shape[1]])

    for e in range(epochs):
        del_w = np.zeros(weights.shape)
        loss = []
        for x, y in zip(features.values, targets.values):
            # Loop through all records, x is the input, y is the target

            # Activation of the output unit
            #   Notice we multiply the inputs and the weights here 
            #   rather than storing h as a separate variable 
            output = softmax(np.dot(x, weights))
            # The error, the target minus the network output
            error = loss_CE(x, y, output)
            # The error term           
            error_term = error_term_formula(x, y, output)
            del_w += error_term
        # Update the weights here. The learning rate times the 
        # change in weights, divided by the number of records to average
        weights -= learnrate * del_w / n_records

        # Printing out the mean error on the training set
        if e % (epochs / 10) == 0:
            #out = softmax(np.dot(x, weights))
            loss = np.mean(np.array(loss))
            print("Epoch:", e)
            if last_loss and last_loss < loss:
                print("Train loss: ", loss, "  WARNING - Loss Increasing")
                print("Train loss: ", loss)
            last_loss = loss
            loss = []
    print("Finished training!")
    return weights

任务6: 训练你的神经网络


问题3: learnrate的设置有什么技巧?

回答:从一个较小值开始一点点试,当发生loss increase时,说明步长过大了,无法收敛,找到一个既能收敛有不至于收敛太慢的值

# TODO: SET Neural Network hyperparameters
epochs = 1000
learnrate = 0.18
weights = train_nn(train_data, train_label, epochs, learnrate)

Epoch: 0
Train loss: 1.09861228867
Epoch: 100
Train loss: 0.550774008836
Epoch: 200
Train loss: 0.446943578961
Epoch: 300
Train loss: 0.281037086602
Epoch: 400
Train loss: 0.193038619336
Epoch: 500
Train loss: 0.182039814143
Epoch: 600
Train loss: 0.174945169191
Epoch: 700
Train loss: 0.169294951329
Epoch: 800
Train loss: 0.164635233793
Epoch: 900
Train loss: 0.160701520788
Finished training!

任务7:计算测试 (Test) 数据的精确度


# TODO: Calculate accuracy on test data
tes_out = softmax(np.dot(test_data, weights))

predictions = pd.get_dummies(np.argmax((tes_out),axis=1))

accuracy = np.equal(test_label,predictions).mean().min()

print("Prediction accuracy: {:.3f}".format(accuracy))

Prediction accuracy: 0.933




# TODO: Open the 'validations.csv' file and predict the label. 
# Remember, 0 = people, 1 = cat, 2 = dog

valid['feature2'] = (valid['feature2']-dataset['feature2'].min())/(dataset['feature2'].max()-dataset['feature2'].min())
valid['feature4'] = (valid['feature4']-dataset['feature4'].min())/(dataset['feature4'].max()-dataset['feature4'].min())

valid_out= softmax(np.dot(valid, weights))

valid_predictions = pd.get_dummies(np.argmax((valid_out),axis=1))

print (valid_out)
print (valid_predictions)

feature1 feature2 feature3 feature4
0 6.2 0.583333 5.4 0.916667
1 5.9 0.416667 5.1 0.708333
[[ 3.65878501e-06 1.73262510e-02 6.54050560e-01]
[ 6.00144459e-06 2.25746156e-02 3.06038913e-01]]

0 1
1 1

第一个是2(狗) 第二个是2(狗)







from ResNet_CAM import *
import glob

lists = glob.glob('images/*.jpg')

# TODO: Upload your image or pick up any image in the folder 'images/xx.png'
for img_path in lists:
    fig, (ax1, ax2) = plt.subplots(1,2)
    CAM = plot_CAM(img_path,ax1,ax2,fig)


  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,884评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,755评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,369评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,799评论 1 285
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,910评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,096评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,159评论 3 411
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,917评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,360评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,673评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,814评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,509评论 4 334
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,156评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,882评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,123评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,641评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,728评论 2 351
