本来是想要弄公司的相关专题的,但是写这个项目就是为了作为面试的项目来着。作为数据分析的一员,职业素养尤为重要。好吧,那我只能选择另一个跟公司的毫无任何关系的类目作为分析,希望在此演示一下一般的基于公司项目的分析流程。希望借此可以起到抛砖引玉的作用
1.选择彩妆作为分析的目的
由于几年的彩妆行业快速发展,具有极好的社会发展前景,并且每天成一个正比的上升趋势。具有研究分析的可行性
2.分析的目的
主要是从文章的多个角度分析文本之间文章阅读量之间的关系
2.1 数据采集
百度了一下 选择了七丽时尚网作为采集对象。主要因为排名比较靠前,文章阅读量还算相对而言算是比较大的。便于我们用分析得出结论
工作:用了八抓鱼采集器
从爬取的工作文档中可以看到如下图所示
此时我们看到明显的缺失值
所以我们要进行数据的一个清洗,我想列出一下一般的数据清洗流程规范
1.选择子集 PS:从数据集来看的话 我们要去掉的事链接的那一行
2.重命名 PS:栏目不需要重命名了
3.删除重复值 PS:此时我们要检验的对象是标题的那一列
4.删除缺失值
5.归一化处理
6.合并数据集
但是由于我们挖掘的数据不是很足够,这是我们应当从原有的数据中挖掘出更多的有价值的东西出来。
于是我们增加了文章标题长度的和分类这两个品相
于是大胆的提出了下面的猜测
文章的质量是否与标题的长度有关?
文章的质量是否是因分类的区别而区别的?
由此可见得我们从挖掘到的数据中查找到了上面的5个字段
标题,文章浏览量,简介,关键词,分类和标题字数
文本挖掘不是这边的一个重点介绍的项目 所以基于标题和简介的这种非结构性的数据分词可以略过
为了让数据更具有说服力 我们通常应当让每个种类保留同样数据的样本,这样有利于后期的分析以及比较
所以我们要删掉多余的数据
根据上图我们应当保留每个分类下保留450条数据 才算可行的。
我们就有了以下几个的问题
什么样的分类最容易吸引人?
标题的长度是否影响人数的阅读?
什么样类型的关键词看的人数多?
PS:此时最要注意的是 不过不是有我们产生的数字数据有可能其类型不是为数值类型,那么我们就要进行转换了
专业的数据分析我们就交给专业的软件去做吧 就选用SPSS去做吧
首先我们对两组数值型数据进行主要的分析
主要看浏览人数的数值
浏览人数的图
标题字数
从上面的数据统计表中,我们不难发现浏览人数的方差比较大,数据的离散化比较严重。这也表明了不同文章之间的阅读情况存在一定的差异性。我们有必要进行对该项数据的进一步深入了解。
从表中我们可以看出文章的浏览人数还是存在着两级分化的。
此时我们可以以8000和6000为两个维度去评价一篇文章的好坏
8000以上的阅读量我们可以认为是一篇好文章,6000以下就是一篇质量较差的文章了,介于他们之间的直接可以认定为中等质量
我们可以在后面的表单中加入一行 增加一组统计列
现在我们就要做一下分组统计了 统计一下到底每种质量下的情况了
从上面的表单中的数据我们可以发现高质量的文章以及所占的数量还不是很多的。
并且我们可以 再一次证明一个道理
帕累托定则:80%的价值是来自20%的因子,其余的20%的价值则来自80%的因子
同样的高质量的文章也只有占到20%
专业的事情还是给专业的去做,就比如 POWER BI
我们由此可以制作出这样的一个对比图
想明确一件事 我们想要的是选择比较高的文章质量
高于8000浏览量的情况
高于6000浏览量的情况
看到这里可能会明白了
第一个问题就迎刃而解了 选择什么类型的文章去写呢?
答案毋庸置疑 选择护肤类的最容易写出好的文章。
并且我们再看一下这张图
护肤类文章阅读量高的文章所占比还是较大的
解答第二个问题
为了让结果更直观一点 我们决定绘制一下散点图
由 上图我们可以得出结论 标题对阅读量的情况影响不大,好一点的文章基本上标题字数都在20-30之间
解答 问题3 什么样类型的关键词看的人多
问题产生原因:因为我们现在选取的是一个美容的行业 这是一个大类,其中包含着众多的小分类,有可能每个分类中有或多或少的东西是重复使用的。所以关键词的分析也可以让我们在选材的时候,更加清晰的明确目标
为了避免一个关键词只出现一两次 等现在对于数据的影响。我们现在只选择那些出现次数大于10次的关键词进行分析处理
如下图
关键词较多人看排列表
从上图我们可以看出 有点多 分析起来的话 有点旧 我们就选择前5个吧
护肤品>伊索>一叶子>悦木之源>雪花秀
1.护肤品是一个大类
我们可以将护肤品这个词放入到百度指数中挖掘出新的词出来
黄框中的内容是跟搜索词相关性比较强的
我们可以从中归纳出两大类
第一类 相关词 护肤
第二类 推荐词 想要知道了解哪种护肤品那种好的
第二个词
伊索 外国牌子 中高端 主打精油和面膜 属于面部护理类型
第三个词
一叶子 国产 价格较低 主打面膜 面部护理类型
第四个词
悦木之源 美国牌子 高端 主打面膜和控油精华液系列 属于肌肤护理类型
第五个词
雪秀华 韩国 高端 主打面膜和精华液 护理系列
综上所述 跟护肤相关的女性关注是比较多的
PS 我们可以从上面的的分析中得出了 ,关注度也会较大。如果我们假设关注的人就是想买或是已经买了的话,那么我们可以推断出 国人对于外国牌子普遍接受程度比较高,愿意为此付出多点的钱。至于国产的嘛 就是低价的啦。
可以说我们的问题基本上市已经解决了 现在我们要来得出结论了
1.在美容方面。如果选择的是护肤类型的话 相对而言比别的类型更容易写出爆文
2.标题字数多少与文章阅读量没什么关系。但是好的文章字数都在20-30字之间
3.女性对于护肤类关注较多。主要可能是关注面膜和精油。
4.国人对外国牌子普遍愿意接受更为高昂的价格