Python代码详解:入门时间序列分类

我们接触的大多数时间序列数据主要涉及产生预测的交易。无论是预测产品的需求还是销售额,航空公司的乘客数量或特定股票的收盘价,我们都习惯于利用久经考验的时间序列技术来预测需求。

但随着生成的数据量呈指数增长,尝试新想法和算法的机会也随之增加。使用复杂的时间序列数据集仍然是一个利基领域,扩展你的保留曲目以包含新想法总是有帮助的。

这就是本文的目的,向你介绍时间序列分类的新概念。我们将首先了解这个主题的含义以及它在行业中的应用。但是不会只停留在理论部分——我们将通过处理时间序列数据集并执行二进制时间序列分类来解决问题。边学边应用——这将有助于你以实际的方式理解这个概念。

时间序列分类介绍

时间序列分类实际上已经存在了一段时间。但到目前为止,它主要限于研究实验室,而没有进行行业应用。但是有很多研究正在进行,正在创建新的数据集并提出了许多新的算法。

可以想象,时间序列分类数据与常规分类问题不同,因为属性具有有序序列。 让我们来看看一些时间序列分类用例,以了解这种差异。

1.对心电图(ECG/EEG)信号进行分类

心电图或心电图记录心脏的电活动,广泛用于诊断各种心脏问题。使用外部电极捕获这些心电图信号。

例如,考虑以下信号样本,它代表一个心跳的电活动。左侧的图像表示正常心跳,而与其相邻的图像表示心肌梗塞。

[图片上传失败...(image-f419ea-1550147176398)]

从电极捕获的数据将是时间序列形式,并且信号可以分类为不同的类别。我们还可以对记录大脑电活动的脑电信号进行分类。

在学习的道路上肯定会遇到困难,没有好的学习资料怎么去学习呢?
如果你感觉学不会?莫慌,推荐你加群
前面923中间414后面804 ,群里有志同道合的小伙伴
互帮互助,还可以拿到许多视频教程!

2.图像分类

图像也可以是顺序的时间相关格式。请考虑以下情形:

根据天气条件、土壤肥力、水的可用性和其他外部因素,农作物在特定的田地中生长。这块田地被监测拍摄了5年,并标记在该字段上种植的作物的名称。 你知道为什么要这么做吗?数据集中的图像是在固定的时间间隔之后拍摄的,并且具有定义的序列,这可能是对图像进行分类的重要因素。

3.对运动传感器数据进行分类

传感器生成高频数据,可以识别其范围内物体的移动。通过设置多个无线传感器并观察传感器中信号强度的变化,可以识别物体的运动方向。

设置问题陈述

我们将致力于“室内用户运动预测”问题。在该挑战中,多个运动传感器被放置在不同的房间中,并且目标是基于从这些运动传感器捕获的频率数据来识别个体是否已经移动穿过房间。

两个房间有四个运动传感器(A1,A2,A3,A4)。请看下面的图像,其中说明了传感器在每个房间中的位置。这两个房间的设置是在3对不同的房间(group1,group2,group3)中创建的。

[图片上传失败...(image-a9d588-1550147176398)]

一个人可以沿着上图中所示的六个预定义路径进行任何移动。如果一个人走在路径2,3,4或6上,他会在单个房间内移动。另一方面,如果一个人沿着路径1或路径5行进,我们可以说该人在两个房间之间移动。

传感器读数可用于识别人在给定时间点的位置。当人在房间或房间内移动时,传感器中的读数会发生变化。此更改可用于标识人员的路径。

既然这个问题陈述已经清楚了,现在是时候开始编码了!

读取和理解数据

我们的数据集有316个文件

· 314个MovementAAL csv文件,包含放置在环境中的运动传感器的读数

· Target csv文件,其中包含每个MovementAAL文件的目标变量

· 一个组数据csv文件,用于标识哪个MovementAAL文件属于哪个安装组

· Path csv文件,包含对象所采用的路径

我们来看看数据集。我们将从导入必要的数据库库开始。

import pandas as pd

import numpy as np

%matplotlib inline

import matplotlib.pyplot as plt

from os import listdir

from keras.preprocessing import sequence

import tensorflow as tf

from keras.models import Sequential

from keras.layers import Dense

from keras.layers import LSTM

from keras.optimizers import Adam

from keras.models import load_model

from keras.callbacks import ModelCheckpoint

在加载所有文件之前,让我们快速了解一下要处理的数据。从移动数据中读取前两个文件:

df1 = pd.read_csv(‘/MovementAAL/dataset/MovementAAL_RSS_1.csv')

df2 = pd.read_csv('/MovementAAL/dataset/MovementAAL_RSS_2.csv')

df1.head

[图片上传失败...(image-8afde3-1550147176398)]

df2.head

[图片上传失败...(image-fc46f5-1550147176398)]

df1.shape, df2.shape

((27, 4), (26, 4))

这些文件包含来自四个传感器的标准化数据——A1,A2,A3,A4。csv文件的长度(行数)不同,因为对应于每个csv的数据的持续时间不同。为简化起见,我们假设每秒都会收集传感器数据。第一次读数持续27秒(所以是27行),而另一次读数持续26秒(所以是26行)。

在构建模型之前,我们必须处理这些不同的长度。现在,我们将使用以下代码块读取传感器中的值并将其存储在列表中:

path = 'MovementAAL/dataset/MovementAAL_RSS_'

sequences = list

for i in range(1,315):

file_path = path + str(i) + '.csv'

print(file_path)

df = pd.read_csv(file_path, header=0)

values = df.values

sequences.append(values)



targets = pd.read_csv('MovementAAL/dataset/MovementAAL_target.csv')

targets = targets.values[:,1]

我们现在有一个列表“序列”,其中包含来自运动传感器的数据和“目标”,其中包含csv文件的标签。当我们打印序列[0]时,从第一个csv文件中获取传感器的值:

sequences[0]

[图片上传失败...(image-f21f4f-1550147176398)]

如前所述,数据集是在三对不同的房间中收集的——因此有三组。此信息可用于将数据集划分为训练集、测试集和验证集。我们现在将加载DatasetGroup csv文件:

groups= pd.read_csv('MovementAAL/groups/MovementAAL_DatasetGroup.csv', header=0)

groups = groups.values[:,1]

我们将前两组的数据用于培训目的,第三组用于测试。

预处理步骤

由于时间序列数据的长度不同,我们无法直接在此数据集上构建模型。那么怎样才能决定一个系列的理想长度呢?我们可以通过多种方式处理它,这里有一些想法:

· 用零填充较短的序列,使所有序列的长度相等。在这种情况下,我们将向模型提供不正确的数据。

· 查找序列的最大长度,并使用最后一行中的数据填充序列。

· 确定数据集中序列的最小长度,并将所有其他序列截断为该长度。但是,这将导致数据的巨大损失。

· 取所有长度的平均值,截断较长的系列,并填充比平均长度短的序列。

让我们找出最小长度、最大长度和平均长度:

len_sequences =

for one_seq in sequences:

len_sequences.append(len(one_seq))

pd.Series(len_sequences).describe

count 314.000000

mean 42.028662

std 16.185303

min 19.000000

25% 26.000000

50% 41.000000

75% 56.000000

max 129.000000

dtype: float64

大多数文件的长度在40到60之间。只有3个文件的长度超过100。因此,采用最小或最大长度没有多大意义。第90个四分位数为60,这被视为数据序列的长度。我们来编代码:

#Padding the sequence with the values in last row to max length

to_pad = 129

new_seq =

for one_seq in sequences:

len_one_seq = len(one_seq)

last_val = one_seq[-1]

n = to_pad - len_one_seq

to_concat = np.repeat(one_seq[-1], n).reshape(4, n).transpose

new_one_seq = np.concatenate([one_seq, to_concat])

new_seq.append(new_one_seq)

final_seq = np.stack(new_seq)

#truncate the sequence to length 60

from keras.preprocessing import sequence

seq_len = 60

final_seq=sequence.pad_sequences(final_seq, maxlen=seq_len, padding='post', dtype='float', truncating='post')

既然数据集已准备好,我们将根据组将其分开。准备训练、验证和测试集:

train = [final_seq[i] for i in range(len(groups)) if (groups[i]==2)]

validation = [final_seq[i] for i in range(len(groups)) if groups[i]==1]

test = [final_seq[i] for i in range(len(groups)) if groups[i]==3]

train_target = [targets[i] for i in range(len(groups)) if (groups[i]==2)]

validation_target = [targets[i] for i in range(len(groups)) if groups[i]==1]

test_target = [targets[i] for i in range(len(groups)) if groups[i]==3]

train = np.array(train)

validation = np.array(validation)

test = np.array(test)

train_target = np.array(train_target)

train_target = (train_target+1)/2

validation_target = np.array(validation_target)

validation_target = (validation_target+1)/2

test_target = np.array(test_target)

test_target = (test_target+1)/2

构建时间序列分类模型

我们准备了用于LSTM(长短期记忆)模型的数据。我们处理了可变长度序列并创建了训练、验证和测试集。构建一个单层LSTM网络。

model = Sequential

model.add(LSTM(256, input_shape=(seq_len, 4)))

model.add(Dense(1, activation='sigmoid'))

model.summary

[图片上传失败...(image-710f90-1550147176398)]

我们现在将训练模型并监控验证的准确性:

adam = Adam(lr=0.001)

chk = ModelCheckpoint('best_model.pkl', monitor='val_acc', save_best_only=True, mode='max', verbose=1)

model.compile(loss='binary_crossentropy', optimizer=adam, metrics=['accuracy'])

model.fit(train, train_target, epochs=200, batch_size=128, callbacks=[chk], validation_data=(validation,validation_target))

#loading the model and checking accuracy on the test data

model = load_model('best_model.pkl')

from sklearn.metrics import accuracy_score

test_preds = model.predict_classes(test)

accuracy_score(test_target, test_preds)

这里的准确度得分为0.78846153846153844。这是一个非常有前景的开始,但我们肯定可以通过使用超参数,改变学习速度和/或时代数来改善LSTM模型的性能。

总结

预处理步骤是所有部分中最复杂的。然而,它也是最重要的一个(否则整个时间序列数据将会失败)。在处理此类挑战时,向模型提供正确的数据同样重要。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,047评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,807评论 3 386
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,501评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,839评论 1 285
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,951评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,117评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,188评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,929评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,372评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,679评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,837评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,536评论 4 335
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,168评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,886评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,129评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,665评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,739评论 2 351

推荐阅读更多精彩内容