Excel里边有个删除重复数据的功能;PowerQuery也有同样的功能。
但是Excel的去重功能,最好是扩展选区,即选择所有列,否则去重的结果就会让人很意外——它只会将选中的列去重,其他未被选中的列的数据不会发生任何变化。
PowerQuery的去重功能灵活得多:可以选中某些列来比对是否有重复,实质是将选中列的每一行合并成一个单一值,然后来比对是否有重复,有重复的话,则删除这一整行——也就是说,那些未被选中的列的那一行数据也会被删除。举个例子,A、B、C、D四列,共有10行数据,去重时选中A列和B列,发现第三行和第七行有重复数据【图1】,则点击“删除重复项”后, A、B、C、D四列的第七行都会被删除【图2】。