前景提要
经常看电视或者是一些招聘咨询的童鞋,应该就比较熟悉大数据这个概念,大数据简单的理解就是非常庞大的数据处理,数据量的提升,最直接的结果就是普通的数据处理方法越来越慢了,现在也是推出了很多种针对大数据处理的语言,比方说比较火热的python,他的pandas模块,numpy模块,完全就是为大数据而生的,说到这里肯定很多童鞋就方了,那么excel是不是就没有用处了呢?
当然不可能的啦,excel毕竟还是现在的主流办公软件,不管技术上面发展的多么的高级,毕竟全民都是程序员的时代还是非常的遥远的,并且你也不可能要求领导一定要去学习各种大数据处理知识吧,现在领导更多还是依赖于excel,数据也是集中展示在excel中的,那么在大数据的冲击下,excel能够提升处理速度呢?
最直接的方法就是多用数组,少用遍历之类的循环,不过数组的学习还是需要一定的基础和抽象的理解能力,这里我们还是继续从基础的函数出发,今天介绍的这个函数主要也是用在数组中的,针对我们常用的关键字查找功能,他的效果非常的快
函数说明
今天分享的是filter()函数,就像是我前面所说的那样,他更多的还是和数组一起嵌套使用的,它主要是用来帮助我们查找数据的,比方说通过关键字查找,是否含有某关键字,或者是否含有某内容,两列数据的相同项,不同项目的筛选,都会使用到他,今天我们就来分享下关于filter()的一点小用法
场景说明
如标题所示,我们今天主要分享如何在大数据的环境下,快速的查找我们需要的数据,首先我们模拟构造一个比较大的数据。
我们假设有一个excel文件,现在她总共有7列数据,但是每列总共有1048575行,是2013版的极限了。
文件的大小也有30M了
基本上满足了一个大型数据的文本大小了,那么现在我们来尝试下筛选数,我想要找到数据中A列的所有数据中,含有20这两个数字的所有数据,你会如何实现呢?
这个时候千万不要手贱去尝试筛选,一般的电脑基本上碰到这个筛选都死翘翘了,我们这里尝试下实用VBA来帮我们实现
代码区
Sub test()
Dim arr
arr = Range("A:A")
arr = WorksheetFunction.Transpose(arr)
arr1 = Filter(arr, 20, True)
Range(Cells(2, 2), Cells(UBound(arr1) + 1, 2)) = WorksheetFunction.Transpose(arr1)
End Sub
来看看效果。为了展示效果,我们加一个计时器,这里我们将符合条件的数据单独展示在第12行,
代码解析
既然已经说到了filter(),那就顺带说一点关于数组的知识吧,数组在VBA里面有一种说法就是他是牺牲计算机的内存来提升运行的速度的,所以他相对于我们普通的遍历,循环,自带的筛选功能等方法,有有很大的优势,时间也是证明,30M左右的数据,它也能够轻松快速的帮助我们获得想要的数据。来看看代码
arr = Range("A:A")
这是我们生成一个数组的常用方法,dim arr, 然后将我们所需要查找的数据全部放到数组里面去
arr = WorksheetFunction.Transpose(arr)
将二维数组转化为一维数组,这一步是非常有必要的额,因为filter()这个查找功能的实现,是建立在这个数组是一维数组的前提下的,所以这一步很关键
arr1 = Filter(arr, "20", True)
之后就是filter函数的使用方法了,filter(数组,条件,是否包含),数组就是我们要筛选查找的数据,就是我们前面已经构造好的数组arr,条件就是我们要查找的关键字,比方说我这里要查找的是含有20这两个数字的数据,不管是在开头,结尾,亦或者中间都算的,当然你可以替换成为准确的字符串,进行精确查找,大家可以根据自己的需要来输入条件,之后第三个函数就是boolean类型的函数,只有两个选择,TRUE或者FALSE,分别对应的意思是,含有和不含有。这里我输入的是TRUE,代表的就是含有20,如果我要反向查找,找不含有20这两个数字的,那就选择false.
Range(Cells(2, 12), Cells(UBound(arr1) + 1, 12)) = WorksheetFunction.Transpose(arr1)
这里就是将数组再次转置,直接填充到我们想要展示的某一列就可以了。