Find Duplicate File [dropbox面试题]

这道题似乎只有HashMap这么一个解法


HashMap<> key是contents, value是list of file path with same contents.

Follow-up的问题比较难。 因为file contents 可以很大,如果用来当Hash key 不行的。

BFS一般比DFS用更多的Memory? 是因为Queue的原因吗?Locality 。

现实中mapping key用的是File size. size不一样的内容肯定不一样。size一样的 内容也可能不一样。所以hash a small part of file with equal sizes.  当Hash值一样,我们compare the file byte by byte.

最难的是split content "\\(" 部分,一开始没有想到

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容