我的一年(2016)

[TOC]

总觉得应该写一点什么...

一、我现阶段在干什么？

仍然是机器学习&数据挖掘的门外汉。所幸的是我已经有了几张“入场券”了:

python & R
pandas
matplotlib & ggplot2
sql
requests & bs4 & scrapy

春节前在CSDN上报了一门数据挖掘的课程，这里就不推荐了，因为实在是太。。。（吐槽点太多），week2里介绍了jieba分词，tf-idf，gensim计算文本相似度，基础知识归零，用吴军《数学之美》介绍的定义来说，就是信息熵（信息不确定性）太大，为了消除不确定，只能引入新的信息，于是去看了：

52nlp_文本相似度二
阮一峰博客_tf-idf计算
阮一峰博客_余弦定理计算相似性
models.tfidfmodel – TF-IDF model
词袋（bag-of-words)模型
gensim tutorial
从文本相似度出发，找了TF-IDF的实现原理，余弦定理计算相似度，然后看gensim的tutorial和52nlp的文本相似度的例子，才基本上搞清楚了那一节课的内容

春节期间看了一遍吴军博士的《数学之美》，自然语言处理入门知识，感觉是进入nlp的契机，然后最近入手了2本自然语言处理的教程：

信息检索导论 Christopher等
统计自然语言处理宗成庆

想到我的数据挖掘week3课程需要用到贝叶斯定理过滤垃圾邮件，于是在看Machine learning in action和数据科学入门的相关章节，数据科学入门（Data Science from Scratch）是2016-3-25购于图灵社区的，记得当时对于数据科学一片迷茫，但是从《数据科学入门》这本书看到了一丝的曙光，于是买下了这本书，只不过没想到居然是1年后的才有能力去看明白。

二、过去一年我干了什么？

2016.3上旬 sql入门

SQL基础教程_MICK
MySQL必知必会_Ben Forta

2016.3~2016.6 python入门

笨方法学python_我的耐心只维持到了习题44
廖雪峰python2.7（看到了错误、调试和测试，剩下的只看了正则，访问数据库，目前改用廖雪峰的python3.5教程用于回顾）
Edx MITx_6.00.1x 粗略看了1遍
Coursera 密西根大学_Using python to access web data
中国大学MOOC 南京大学_用Python玩转数据。。。会卖萌的女老师讲授滴
python基础教程_只看了开头看不下去了
这时候学完python基础后，我的感觉是python能用来干啥？我不知道。。。

2016.6 尝试学习Ng Andrew的Machine learning，看了2周的课程就继续不下去了，我也不不知道为什么。。。
2016.7 学堂在线MIT_6.00.1x过第2遍，完成课程作业(100h)

编程导论 Introduction to Computation and Programming Using Python
获得学堂在线结业证书

2016.8~2016.9 Soton R语言第2期 R语言入门

R语言实战_R in action(目前有2nd版，2014-6-20购于多看阅读，没想到居然会真的派上用场)
R语言核心技术手册_R in a Nutshell（参考手册）
R语言编程艺术（用编程的思维学习R）
ggplot2：数据分析与图形艺术_ggplot2_Elegant_Graphics_for_DataAnalysis by Hadley Wickham
R数据可视化手册_R Graphics Cookbook by Winston Cbang
R for Data Science by Hadley Wickham & Garrett Grolenmund(2017.1出版)
数据科学_理论、方法和R语言实践_Practical Data Science With R_R语言数据科学入门书籍，我觉得很好，可惜还是只看了前几章， Manning出版社出版，我很喜欢这个出版社出的书籍（R in action， Machine Learning in action就是他家出版滴）
机器学习使用案例解析_Machine Learning for Hackers_Soton终身会员书籍，同样只看过前几章，然后发现居然代码是用R实现的，赞一个，将来有机会才回过头开敲敲代码~
R入门的一个好处是我拥有了数据框DataFrame的思维了，为我学习pandas打下了基础
Hadley Wickham，RStudio首席科学家，R软件包ggplot2, lubridate,plyr, reshape2, stringr, httr开发者。

2016.9~2016.10 商务与经济统计 12th 看了前8章，统计与概率入门
2016.10 pandas入门

利用python进行数据分析_ python for Data analysis_我的参考手册，也是我代码敲了1遍的书，章节目录略显凌乱，但是不失为一本经典书籍
soton python课程，后来在淘宝上购买了一份
当我R入门后，R可以用来干什么？我的回答是R可以直接用来处理数据，R是为统计而生的一面语言，因此一入手就是和数据打交道的，于是我可以利用R来清洗和处理我的数据，从此Excel不再是我的主要工具了
然后利用R处理过的数据，对于相同的数据处理流程，我用pandas进行了代码移植，从此喜欢上了pandas，R则喜欢data.table包

2016.10~2016.11 纠结于不知如何入门机器学习

刻意练习_遇到瓶颈怎么办: 试着做不同的事情，而非更难的事情；也许你并非达到极限，而是动机不足......
学习之道_ A mind for numbers_Coursera learning how to learn
软技能:
1. 玩耍是一项强大的学习机制，他会激励你有足够的动力去探索，加快你的学习步伐
2. 在你阅读某个主题的书之前，大致浏览后就开始实践。不用担心自己是否知道自己在做什么。乐在其中，你就会发现随着自己的实验和探索，自己在哪些方面发现了问题。
3. 一旦你已经实践过，并积累了各式各样的问题，立刻回到书本当中。当你回去重读这些参考资料的时候，你有强烈的冲动去消化吸收其中的内容。因为你已经积攒了很多想要找到答案的问题，你对哪些内容更重要早已了然于胸。
4. 然后，你可以把自己学到的新知识重新应用于实践。看看你学到的新方法是否能解决你已有的问题。
5. 最后，你可以将自己所学的打包教给别人。教永远是一项好的学习方法。。。

2016.11~2017.1 网络爬虫入门
简单的requests爬虫例子, 知道在headers中添加user-agent
网页提取所需内容，Beautifulsoup简单例子
网易云课堂_0基础Python实战:四周实现爬虫网站
bs4官方文档
requests官方文档
实际应用到自己想爬取的网页中（大量练习），知道time.sleep， proxy代理池，随机更换User-agent， cookies
黑板客爬虫闯关
对爬取大量网页构建自己的代码，发现代码臃肿。。。不堪入目。。。，于是开始研究scrapy
scrapy入门案例
learning scrapy前半本书, 同时学习了xpath和css selector
Python大型网络爬虫项目开发实战（全套） _虽然对这老师我有很多吐槽点，但是还是可以开阔一下眼界的
scrapy官方文档
胡松涛 python网络爬虫实战——我主要用于系统回顾自己所掌握的知识
用scrapy爬取百度贴吧iphone吧的帖子，约2万个主题页，100万个帖子页(半个月)

三、接下来做什么？

Soton数据分析准备组织一起学习统计概率了，准备跟着学习一遍。
机器学习，机器学习，机器学习。。。残念。。。
写技术文章，要么极其简略的写，要么极其详尽简明扼要的写

一年前看这个博客文章后，心里面只有沮丧的感觉，1年后再回顾，虽然还是不知道那些专有名词具体是什么内容，但是已经知道那些概念在哪儿，是用来干什么的了，在这一年了所走过的仅仅是数据科学的上游：数据采集、数据清理和数据探索，后半段会更难走一点，但是知道那是数据分析师的分水岭，无论通过什么途径终究还是需要闯过去的。

未来30年的数据时代还是值得期待的。。。

凡星
2017.02.06

我的一年(2016)

一、我现阶段在干什么？

二、过去一年我干了什么？

三、接下来做什么？

推荐阅读更多精彩内容