下面这个感觉不对,假如是三个小文件,每个100个ip,a里有34个A,33个B,33个C, b里100个B,c里34个A,33个B,33个C,根据你的逻辑最多是A而不是B,下面附上原文:“访问百度的日志中的IP取出来,逐个写入到一个大文件中。注意到IP是32位的,最多有个2^32个IP。同样可以采用映射的方法,比如%1000,把整个大文件映射为1000个小文件,再找出每个小文中出现频率最大的IP(可以采用hash_map对那1000个文件中的所有IP进行频率统计,然后依次找出各个文件中频率最大的那个IP)及相应的频率。然后再在这1000个最大的IP中,找出那个频率最大的IP,即为所求”
99%的海量数据处理面试题教你如何迅速秒杀掉:99%的海量数据处理面试题 本文经过大量细致的优化后,收录于我的新书《编程之法》第六章中,新书目前已上架京东/当当/亚马逊 作者:July 出处:结构之法...