对简书连载作者月度统计数据获取,生成排行榜的改进。
1、Scrapy爬虫爬取作者的文章信息(阅读量,喜欢数,评论数,打赏数),抓取源:作者主页(latest_articles)有分页,保存为csv格式。(每个作者抓取不超过90条数据)
2、按发表时间排序,删除一个月外的数据。
3、Excel函数提取连载作品名称(列名:文集),FIND, LEFT函数嵌套。查找标注章节的括号(全角,半角)
4、按文集、标题进行排序后筛选后,删除非连载文章(同时校正文集名的提取)
5、按文集、作者进行排序
6、进行分类汇总,按文集,对阅读量,喜欢数,评论数,打赏数数据进行汇总
7、用VBA宏,复制作者,文集(作者主页)链接信息
8、复制分类汇总数据到新的sheet页(复制时选择可见单元格)
9、按单项(阅读量,喜欢数,评论数,打赏数)进行排序,排序后取TOP25数据复制粘贴到csv文件
10、python读取csv文件,生成排行榜(markdown格式)
格式: 作品名(链接),作者:作者名, 数据
效率瓶颈:
1)提取连载文集名称,Excel函数多级嵌套判断不好用,连载文章不同作者使用了()() 【】::等不同符号标明章节。
可考虑一个Python函数来实现。
2)分类汇总后,使用了VBA复制其他需要列的信息。复制单行多列数据。
没有使用vlookup原因:汇总列匹配问题,可处理一下后用跨sheet的vlookup