读完谷歌大数据三篇著名论文,整体感觉还是很不懂,里面很多专业术语,数据间的转换存储原来这么复杂,或者是说大量数据实时的更新上传存储很复杂。
当一个系统的用户量越多,所需处理的信息越多时,工作中出现错误的情况肯定会发生,而且由于数据基数大,即使很小的出错率,也会给很多用户造成影响。记得老师上课提到过早期腾讯软件,大家在空间发布动态,动态的保存过程就会出现错误,大家上传的数据
后期查看时会发现内容不对,或丢失。说明知道公司的数据处理系统技术是否完善很重要,直接影响用户体验,对于谷歌这样一个用户广泛的大公司,其数据处理系统如果不够完善将影响多少人的生活工作。所以据我所读的关于谷歌的gfs文件系统的论文。其中日志操作记录,就是保障数据完整准确的一个重要环节。
日志操作记录中,对每个用户的操作进行记录操作日志包含了关键的元数据变更历史记录。这对GFS非常重要。这不仅仅是因为操作日志是元数据唯一的持久化存储记录,它也作为判断同步操作顺序的逻辑时间基线。文件和Chunk,连同它们的版本,都由它们创建的逻辑时间唯一的、永久的标识。 操作日志非常重要,我们必须确保日志文件的完整,确保只有在元数据的变化被持久化后,日志才对客户端是可见的。这样的操作保证了客户的上传信息可以保存下来,才有提示,而且这不仅备份在文件里,操作过程的完整保存,将可以在文件丢失时迅速恢复。
作为一个用户可能觉得这只是一个很简单的功能,很多软件都能实现。而在谷歌这样一个系统面对庞大的用户群体,做到精准的保存每个用户的数据,这对技术是一个极大的挑战。
一份数据多份备份,并且记录操作过程以防文件丢失。在尽量减少数据所占内存时,避免出错。为此研究的gfs文件系统。
写到最后其实,我最想说的是这是我第一次看论文,全程虽然不怎么懂但是总不明觉厉。强撑着看完,结合了一点所学的技术知识勉强凑出的800字。心里居然觉得很开心,仿佛窥到了学术世界的一角。希望以后自己也能接触更多专业领悟方面的知识。