[TOC]
总觉得应该写一点什么...
一、我现阶段在干什么?
- 仍然是机器学习&数据挖掘的门外汉。所幸的是我已经有了几张“入场券”了:
- python & R
- pandas
- matplotlib & ggplot2
- sql
- requests & bs4 & scrapy
- 春节前在CSDN上报了一门数据挖掘的课程,这里就不推荐了,因为实在是太。。。(吐槽点太多),week2里介绍了jieba分词,tf-idf,gensim计算文本相似度,基础知识归零,用吴军《数学之美》介绍的定义来说,就是信息熵(信息不确定性)太大,为了消除不确定,只能引入新的信息,于是去看了:
- 52nlp_文本相似度二
- 阮一峰博客_tf-idf计算
- 阮一峰博客_余弦定理计算相似性
- models.tfidfmodel – TF-IDF model
- 词袋(bag-of-words)模型
- gensim tutorial
- 从文本相似度出发,找了TF-IDF的实现原理,余弦定理计算相似度,然后看gensim的tutorial和52nlp的文本相似度的例子,才基本上搞清楚了那一节课的内容
- 春节期间看了一遍吴军博士的《数学之美》,自然语言处理入门知识,感觉是进入nlp的契机,然后最近入手了2本自然语言处理的教程:
- 信息检索导论 Christopher等
- 统计自然语言处理 宗成庆
- 想到我的数据挖掘week3课程需要用到贝叶斯定理过滤垃圾邮件,于是在看Machine learning in action和数据科学入门的相关章节,数据科学入门(Data Science from Scratch)是2016-3-25购于图灵社区的,记得当时对于数据科学一片迷茫,但是从《数据科学入门》这本书看到了一丝的曙光,于是买下了这本书,只不过没想到居然是1年后的才有能力去看明白。
二、过去一年我干了什么?
- 2016.3上旬 sql入门
- SQL基础教程_MICK
- MySQL必知必会_Ben Forta
- 2016.3~2016.6 python入门
- 笨方法学python_我的耐心只维持到了习题44
- 廖雪峰python2.7(看到了错误、调试和测试,剩下的只看了正则,访问数据库,目前改用廖雪峰的python3.5教程用于回顾)
- Edx MITx_6.00.1x 粗略看了1遍
- Coursera 密西根大学_Using python to access web data
- 中国大学MOOC 南京大学_用Python玩转数据。。。会卖萌的女老师讲授滴
- python基础教程_只看了开头看不下去了
- 这时候学完python基础后,我的感觉是python能用来干啥?我不知道。。。
- 2016.6 尝试学习Ng Andrew的Machine learning,看了2周的课程就继续不下去了,我也不不知道为什么。。。
- 2016.7 学堂在线MIT_6.00.1x过第2遍,完成课程作业(100h)
- 编程导论 Introduction to Computation and Programming Using Python
- 获得学堂在线结业证书
- 2016.8~2016.9 Soton R语言第2期 R语言入门
- R语言实战_R in action(目前有2nd版,2014-6-20购于多看阅读,没想到居然会真的派上用场)
- R语言核心技术手册_R in a Nutshell(参考手册)
- R语言编程艺术(用编程的思维学习R)
- ggplot2:数据分析与图形艺术_ggplot2_Elegant_Graphics_for_DataAnalysis by Hadley Wickham
- R数据可视化手册_R Graphics Cookbook by Winston Cbang
- R for Data Science by Hadley Wickham & Garrett Grolenmund(2017.1出版)
- 数据科学_理论、方法和R语言实践_Practical Data Science With R_R语言数据科学入门书籍,我觉得很好,可惜还是只看了前几章, Manning出版社出版,我很喜欢这个出版社出的书籍(R in action, Machine Learning in action就是他家出版滴)
- 机器学习使用案例解析_Machine Learning for Hackers_Soton终身会员书籍,同样只看过前几章,然后发现居然代码是用R实现的,赞一个,将来有机会才回过头开敲敲代码~
- R入门的一个好处是我拥有了数据框DataFrame的思维了,为我学习pandas打下了基础
- Hadley Wickham,RStudio首席科学家,R软件包ggplot2, lubridate,plyr, reshape2, stringr, httr开发者。
- 2016.9~2016.10 商务与经济统计 12th 看了前8章,统计与概率入门
- 2016.10 pandas入门
- 利用python进行数据分析_ python for Data analysis_我的参考手册,也是我代码敲了1遍的书,章节目录略显凌乱,但是不失为一本经典书籍
- soton python课程,后来在淘宝上购买了一份
- 当我R入门后,R可以用来干什么?我的回答是R可以直接用来处理数据,R是为统计而生的一面语言,因此一入手就是和数据打交道的,于是我可以利用R来清洗和处理我的数据,从此Excel不再是我的主要工具了
- 然后利用R处理过的数据,对于相同的数据处理流程,我用pandas进行了代码移植,从此喜欢上了pandas,R则喜欢data.table包
- 2016.10~2016.11 纠结于不知如何入门机器学习
- 刻意练习_遇到瓶颈怎么办: 试着做不同的事情,而非更难的事情;也许你并非达到极限,而是动机不足......
- 学习之道_ A mind for numbers_Coursera learning how to learn
- 软技能:
1. 玩耍是一项强大的学习机制,他会激励你有足够的动力去探索,加快你的学习步伐
2. 在你阅读某个主题的书之前,大致浏览后就开始实践。不用担心自己是否知道自己在做什么。乐在其中,你就会发现随着自己的实验和探索,自己在哪些方面发现了问题。
3. 一旦你已经实践过,并积累了各式各样的问题,立刻回到书本当中。当你回去重读这些参考资料的时候,你有强烈的冲动去消化吸收其中的内容。因为你已经积攒了很多想要找到答案的问题,你对哪些内容更重要早已了然于胸。
4. 然后,你可以把自己学到的新知识重新应用于实践。看看你学到的新方法是否能解决你已有的问题。
5. 最后,你可以将自己所学的打包教给别人。教永远是一项好的学习方法。。。
- 2016.11~2017.1 网络爬虫入门
- 简单的requests爬虫例子, 知道在headers中添加user-agent
- 网页提取所需内容,Beautifulsoup简单例子
- 网易云课堂_0基础Python实战:四周实现爬虫网站
- bs4官方文档
- requests官方文档
- 实际应用到自己想爬取的网页中(大量练习),知道time.sleep, proxy代理池,随机更换User-agent, cookies
- 黑板客爬虫闯关
- 对爬取大量网页构建自己的代码,发现代码臃肿。。。不堪入目。。。,于是开始研究scrapy
- scrapy入门案例
- learning scrapy前半本书, 同时学习了xpath和css selector
- Python大型网络爬虫项目开发实战(全套) _虽然对这老师我有很多吐槽点,但是还是可以开阔一下眼界的
- scrapy官方文档
- 胡松涛 python网络爬虫实战——我主要用于系统回顾自己所掌握的知识
- 用scrapy爬取百度贴吧iphone吧的帖子,约2万个主题页,100万个帖子页(半个月)
三、接下来做什么?
- Soton数据分析准备组织一起学习统计概率了,准备跟着学习一遍。
- 机器学习,机器学习,机器学习。。。 残念。。。
- 写技术文章,要么极其简略的写,要么极其详尽简明扼要的写
一年前看这个博客文章后,心里面只有沮丧的感觉,1年后再回顾,虽然还是不知道那些专有名词具体是什么内容,但是已经知道那些概念在哪儿,是用来干什么的了,在这一年了所走过的仅仅是数据科学的上游:数据采集、数据清理和数据探索,后半段会更难走一点,但是知道那是数据分析师的分水岭,无论通过什么途径终究还是需要闯过去的。
未来30年的数据时代还是值得期待的。。。
凡星
2017.02.06