使用 Python 进行基于机器学习的数据预测

机器学习,大家可能没有听说过,但大家一定听说过 AI,机器学习就是 AI 的底层技术之一。

本篇文章,我们会尝试使用 Python 构建一个机器学习模型,实现对数据的预测。

数据准备

本次使用的是简书文章收益排行榜数据,共有 2900 条,记录了 29 天来每天文章收益排行榜前 100 篇文章的数据。

我们需要构建一个机器学习模型,根据文章的排名对收益进行预测。

我们使用 Jupyter Notebook 进行交互式开发。

先来导入我们所需的库:

import pandas as pd
import numpy as np
import sqlite3

如果在导入过程中出现ImportError,请使用pip install 包名安装库,然后尝试重新导入。

我们的数据已经放在了项目目录下,是一个 SQLite 数据库,名称为ArticleFPRankList.db

使用以下代码将数据转换为 Pandas DataFrame:

conn = sqlite3.connect("ArticleFPRankList.db")
df = pd.read_sql_query("SELECT * FROM articlefpranklistdata", conn)

我们来简单查看一下数据:

df.head(10)
image
df.info()
image

我们可以看出,数据共有 10 列,但中间几列的数据用处不大,真正有用的是后面的三列和前面的 ranking(排名)列。

数据有缺失,这是作者主动删除文章造成的,但关键的几列数据都是完整的,不影响我们的分析。

初步分析

在构建模型之前,我们需要对数据有大致的了解。

导入 plotly 库用于绘图:

import plotly.express as px

plotly 对 DataFrame 中数据的绘图操作做了很完善的封装,所以我们只需要这样一行代码:

px.bar(df, x="date", y="total_fp")
image

得到的结果是一张堆积柱形图,其中每一列代表一天的数据,收益高的文章排在下方。

从中我们可以看出,每天的收益分配总量是大致保持不变的,而每个名次的文章,其获得的资产量也大致相同,所以我们判定这些数据是可预测的。

数据预处理

在构建模型前,我们需要对数据进行预处理。

简单说明一下模型预测的流程:我们需要两个由二维数组构成的数据集,分别为标志集(x)和数值集(y),将这两个数据集传入,程序会拟合出一个算法,用于描述 y 随 x 的变动关系,也可以称为 y=f(x)。

现在让我们来构建 x 和 y:

x = np.array(df["ranking"]).reshape(-1, 1)
y = np.array(df["total_fp"]).reshape(-1 ,1)

这里的 reshape() 函数是为了将一维数组转换成二维数组。

为了对模型进行打分,我们需要将数据集分为两部分:训练集和测试集。顾名思义,训练集用于对模型进行训练,测试集用于检验训练效果。

sklearn 中已经集成了这个功能,我们只需要导入:

from sklearn.model_selection import train_test_split

然后:

x_train, x_test, y_train, y_test = train_test_split(x, y, train_size=0.2)

现在来看看我们的训练集,以 y_train 为例:

image

(由于一些问题,这里展示的图片是一个三列数据的数组,实际数据是一个一列的数组)

不错不错,现在可以开始训练了。

模型训练

在分析阶段中,我们发现数据的变化幅度并不是很大,所以这次使用的算法是LogisticRegression(普通最小二乘法),它的原理我们暂时不需要了解,只要导入模块:

from sklearn.linear_model import LinearRegression

然后使用以下两行代码训练模型:

model = LinearRegression()model.fit(x_train, y_train)

接下来,我们使用测试集的数据对模型打分:

model.score(x_test, y_test)

在我的操作中,这个模型的准确率为 22.31%,看起来不是很高,为什么呢?因为数据集太少了,对每个排名,只有二十九个数据,其中还有五分之一用于测试。

如果数据量增加到一万甚至更高,模型的准确率就会大幅度上升。

对模型调用 predict 函数即可预测数据,例如:

model.predict([[1]])

我得到的结果是array([820.82074298]),由于训练集的拆分是随机的,所以你的结果可能有所不同。

模型的保存与使用

我们使用 Python 自带的数据持久化库 pickle 来保存模型。

import picklewith open("model.pkl", "wb") as file:    pickle.dump(model, file)

运行之后,项目目录中会生成一个名为model.pkl的文件,这就是我们的模型。

这个模型本质上只是储存了一个函数的参数,所以不会很大,但如果使用更高级的模型,预测更加准确的同时也会增加模型的体积。

而真正的 AI 中使用的是神经网络模型,保存时要存储所有神经元的权重信息,有时大小能达到几十 GB,当然,训练时间也大多是按天计算的。

创建 predict.py文件,输入以下代码:

import picklewith open("model.pkl", "rb") as file:    model = pickle.load(file)x = [[int(input("请输入您要预测的文章排名:"))]]result = model.predict(x)[0]print(f"文章的预估收益为 {round(result, 3)}")

运行程序,输入文章排名,返回的结果与刚刚的完全一致。

拓展:使用 Streamlit 搭建网页

Streamlit 是一个 Python 库,旨在帮助数据科学从业者更高效地搭建展示应用。

创建web_app_with_streamlit.py文件,输入以下代码:

import streamlit as stimport pickle@st.cache()def GetModel(file_name):    with open(file_name, "rb") as file:        return pickle.load(file)@st.cache()def GetPerdictResult(model, x):    return model.predict([[x]])[0]st.title("文章收益预测工具")file_name = st.text_input("模型文件名", value="model.pkl")x = st.number_input("文章排名", min_value=1, max_value=100)model = GetModel(file_name)result = GetPerdictResult(model, x)st.write(f"文章预期收益为 **{round(result, 3)}**")

保存文件,然后输入以下命令:

streamlit run web_app_with_streamlit.py

浏览器会自动打开,你将看到一个网页:

image

你可以更改输入框中的值,程序将实时计算出结果,并显示在下方。

如果你把这个程序上传到服务器,他人就可以通过访问网页直接使用,不需要训练模型,设备上甚至不需要安装 Python。

你可以在服务端随时修改代码,或是将模型文件进行替换,只需要刷新网页,就可以应用最新的更改。

总结

本篇文章讲述了使用 sklearn 进行数据预测的基本过程,同时编写了一个 Web App 供用户直接使用。

受篇幅所限,有很多知识没有在本文中提到,例如:

  • 机器学习模型的选择
  • 模型参数优化
  • 更高效的模型存储格式
  • Streamlit 网页的部署

如果大家感兴趣,可以自行查阅相关资料。

现在,我们所使用的翻译网站、语音助手、人脸识别等服务,其原理都是机器学习技术。数据经过采集、预处理等一系列环节之后,被工程师变成一个个模型文件,其中存储了无数参数,用来描述数据的内在规律,继而对新的数据进行预测。

人工智能研究团队 OpenAI 训练的人工智能模型 GPT-3 拥有 1750 亿参数,训练使用的数据量多达 45TB,但他们并没有公开这个模型,只提供了一些 API 供人们进行使用。

因为他们担心,这样强大的人工智能技术可能对社会产生不利影响。

当今社会,你使用的每一个 App 都可能收集你的行为数据,将你的操作转化为某个神经元中的一个权重参数,然后用这个模型实现更好的推荐机制,继而提高用户的留存率。

作为一名技术人,也许我们需要先掌握它,然后才能回答这个问题:

技术发展到这个高度,对人类真的有益吗?

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 219,869评论 6 508
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 93,716评论 3 396
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 166,223评论 0 357
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 59,047评论 1 295
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 68,089评论 6 395
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,839评论 1 308
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,516评论 3 420
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,410评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,920评论 1 319
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 38,052评论 3 340
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,179评论 1 352
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,868评论 5 346
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,522评论 3 331
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 32,070评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,186评论 1 272
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,487评论 3 375
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 45,162评论 2 356

推荐阅读更多精彩内容