自制力的问题真的很要命,从发现自己这个问题到现在,不知道已经下了多少次决心,可就是一而再再而三的纵容自己打破计划,最后使得每一件事情都做不好,每件事情后都后悔,不知道自己是否真的能够最后打败它……
现在我也不想再做什么计划了,我不想再规划多么远多么仔细的事情了,因为每次那种挫败感实在是太让人难受了,真的很打击人,所以,就这个样子吧,有一个终极目标,实现目标的办法就是每天都做事情,看书、跑数据、做笔记,不浪费时间在电影、综艺节目上,不去考虑那么多了,先做起来再说,先模糊的形成一套框架再说,相信再有一个量的积累后,是可以升华或者说可以体会到一些东西的,更加乐观一点,希望到时候可以形成一套知识框架以及适用于自己的学习计划,还有自己的方向。
并不是说我放弃了自己,打算以后混日子,我只是想换个方法,希望自己可以在尝试后有所收获,希望有吧,我也不知道没有收获的话应该怎么办,希望老天爷还有更好的安排。
今天看了《数据科学实战》的第一二章,从中第一次清晰了关于数据科学家的定义、基本技能,基本上要从事这个行业需要具备统计学、编程能力、数学知识架构,这也给我明确了方向,其实也不能说明确了,这几方面其实早就知道,可以说今天更加坚定了我学习这几方面的决心,一定要在这段时间把借的关于这几方面的书都看完,这样脑子里才能有东西,要不然就像没头的苍蝇一样什么也没收获。另外,关于R语言也得花时间再好好看下,以后应该也会用得到。
今天晚上打算再分析下tweets的数据,主要有以下几个任务:
- 把已经计算出的url数据再深入分析下,去除每天相同的url,看看去除后的数据是否还是呈幂律分布;
- 对tweets文本进行提取,把每天的tweets文本中的词抓取出来,这是第一步,然后看看每天的词数量是否也呈幂律分布,还有就是抓取下出现的次数最多的词(总样本中);
- 还有就是把被at的用户抓取出来,和主动at别人的用户区分开来。