拓展 统计关于用户的系统版本、浏览器版本、用户浏览的步长、广告统计。 日志文件十分巨大,采用何种压缩方式节省空间,以及压缩带来的CUP消耗。 日志文件一般为一行一行的读取,要加载一行所有的信息,可以考虑列式存储数据库,比如Syabs IQ; ETL操作(将原始文件信息加工)之后可能文件比原始文件还大,一般ETL文件的存储文件放的时间比较长,可放在冷集群上。