数据告诉你如何写好美妆类型文章

本来是想要弄公司的相关专题的,但是写这个项目就是为了作为面试的项目来着。作为数据分析的一员,职业素养尤为重要。好吧,那我只能选择另一个跟公司的毫无任何关系的类目作为分析,希望在此演示一下一般的基于公司项目的分析流程。希望借此可以起到抛砖引玉的作用

1.选择彩妆作为分析的目的

由于几年的彩妆行业快速发展,具有极好的社会发展前景,并且每天成一个正比的上升趋势。具有研究分析的可行性

2.分析的目的

主要是从文章的多个角度分析文本之间文章阅读量之间的关系

2.1 数据采集

百度了一下 选择了七丽时尚网作为采集对象。主要因为排名比较靠前,文章阅读量还算相对而言算是比较大的。便于我们用分析得出结论

工作:用了八抓鱼采集器

从爬取的工作文档中可以看到如下图所示

此时我们看到明显的缺失值

所以我们要进行数据的一个清洗,我想列出一下一般的数据清洗流程规范

    1.选择子集 PS:从数据集来看的话 我们要去掉的事链接的那一行

    2.重命名  PS:栏目不需要重命名了

    3.删除重复值  PS:此时我们要检验的对象是标题的那一列

    4.删除缺失值

    5.归一化处理

    6.合并数据集

但是由于我们挖掘的数据不是很足够,这是我们应当从原有的数据中挖掘出更多的有价值的东西出来。

于是我们增加了文章标题长度的和分类这两个品相

于是大胆的提出了下面的猜测

文章的质量是否与标题的长度有关?

文章的质量是否是因分类的区别而区别的?

由此可见得我们从挖掘到的数据中查找到了上面的5个字段

标题,文章浏览量,简介,关键词,分类和标题字数

文本挖掘不是这边的一个重点介绍的项目 所以基于标题和简介的这种非结构性的数据分词可以略过

为了让数据更具有说服力 我们通常应当让每个种类保留同样数据的样本,这样有利于后期的分析以及比较

所以我们要删掉多余的数据  

根据上图我们应当保留每个分类下保留450条数据 才算可行的。

我们就有了以下几个的问题

什么样的分类最容易吸引人?

标题的长度是否影响人数的阅读?

什么样类型的关键词看的人数多?

PS:此时最要注意的是 不过不是有我们产生的数字数据有可能其类型不是为数值类型,那么我们就要进行转换了

专业的数据分析我们就交给专业的软件去做吧 就选用SPSS去做吧

首先我们对两组数值型数据进行主要的分析

主要看浏览人数的数值

浏览人数的图

标题字数

从上面的数据统计表中,我们不难发现浏览人数的方差比较大,数据的离散化比较严重。这也表明了不同文章之间的阅读情况存在一定的差异性。我们有必要进行对该项数据的进一步深入了解。

从表中我们可以看出文章的浏览人数还是存在着两级分化的。

此时我们可以以8000和6000为两个维度去评价一篇文章的好坏

8000以上的阅读量我们可以认为是一篇好文章,6000以下就是一篇质量较差的文章了,介于他们之间的直接可以认定为中等质量

我们可以在后面的表单中加入一行 增加一组统计列

现在我们就要做一下分组统计了  统计一下到底每种质量下的情况了

从上面的表单中的数据我们可以发现高质量的文章以及所占的数量还不是很多的。

并且我们可以 再一次证明一个道理

帕累托定则:80%的价值是来自20%的因子,其余的20%的价值则来自80%的因子

同样的高质量的文章也只有占到20%

专业的事情还是给专业的去做,就比如 POWER BI

我们由此可以制作出这样的一个对比图

想明确一件事 我们想要的是选择比较高的文章质量

高于8000浏览量的情况

高于6000浏览量的情况

看到这里可能会明白了

第一个问题就迎刃而解了 选择什么类型的文章去写呢?

答案毋庸置疑 选择护肤类的最容易写出好的文章。

并且我们再看一下这张图

护肤类文章阅读量高的文章所占比还是较大的

解答第二个问题

为了让结果更直观一点 我们决定绘制一下散点图

由 上图我们可以得出结论 标题对阅读量的情况影响不大,好一点的文章基本上标题字数都在20-30之间

解答 问题3 什么样类型的关键词看的人多

问题产生原因:因为我们现在选取的是一个美容的行业 这是一个大类,其中包含着众多的小分类,有可能每个分类中有或多或少的东西是重复使用的。所以关键词的分析也可以让我们在选材的时候,更加清晰的明确目标

为了避免一个关键词只出现一两次 等现在对于数据的影响。我们现在只选择那些出现次数大于10次的关键词进行分析处理

如下图

关键词较多人看排列表

从上图我们可以看出 有点多 分析起来的话 有点旧 我们就选择前5个吧

护肤品>伊索>一叶子>悦木之源>雪花秀

1.护肤品是一个大类 

我们可以将护肤品这个词放入到百度指数中挖掘出新的词出来

黄框中的内容是跟搜索词相关性比较强的

我们可以从中归纳出两大类

第一类  相关词  护肤

第二类  推荐词  想要知道了解哪种护肤品那种好的

第二个词

伊索  外国牌子  中高端  主打精油和面膜 属于面部护理类型

第三个词

一叶子  国产  价格较低  主打面膜  面部护理类型

第四个词

悦木之源 美国牌子 高端  主打面膜和控油精华液系列  属于肌肤护理类型

第五个词

雪秀华  韩国   高端   主打面膜和精华液  护理系列

综上所述 跟护肤相关的女性关注是比较多的

PS  我们可以从上面的的分析中得出了  ,关注度也会较大。如果我们假设关注的人就是想买或是已经买了的话,那么我们可以推断出 国人对于外国牌子普遍接受程度比较高,愿意为此付出多点的钱。至于国产的嘛  就是低价的啦。

可以说我们的问题基本上市已经解决了 现在我们要来得出结论了

1.在美容方面。如果选择的是护肤类型的话 相对而言比别的类型更容易写出爆文

2.标题字数多少与文章阅读量没什么关系。但是好的文章字数都在20-30字之间

3.女性对于护肤类关注较多。主要可能是关注面膜和精油。

4.国人对外国牌子普遍愿意接受更为高昂的价格

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,293评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,604评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,958评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,729评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,719评论 5 366
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,630评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,000评论 3 397
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,665评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,909评论 1 299
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,646评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,726评论 1 330
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,400评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,986评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,959评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,197评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 44,996评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,481评论 2 342

推荐阅读更多精彩内容

  • 关于Mongodb的全面总结 MongoDB的内部构造《MongoDB The Definitive Guide》...
    中v中阅读 31,894评论 2 89
  • 1. 早上醒来,安静的躺在床上,听着外面的鸟叫声,感觉很惬意,很宁静。 2. 看着老爸和侄女在那边玩,让我感受到倍...
    Sunshine英阅读 103评论 0 0
  • 阴恻的鸦,乜斜着 粉身碎骨的淤泥 散着柔光的莲,和着恶臭的 尸体,耀武扬威地缠住 轻盈的魂魄 肉片片脱落,蛆扭曲着...
    汤虞檀阅读 328评论 6 6