使用wget下载CIC Dataset

开头直接给答案

wget -x -r --no-parent -R "index.html*" "http://205.174.165.80/IOTDataset/CIC_IOT_Dataset2022/CICIOT/"

数据集地址

数据集主页: https://www.unb.ca/cic/datasets/iotdataset-2022.html

数据集下载地址: Index of /IOTDataset/CIC_IOT_Dataset2022/CICIOT

安装wget

该工具Linux自带,Windows要用的话,下载地址: https://eternallybored.org/misc/wget/

下载该exe文件扔到C:\Windows\System32目录下。

打开新cmd窗口输入wget -V即可检验是否🆗。

命令解析

wget -x -r --no-parent --reject=html "http://205.174.165.80/IOTDataset/CIC_IOT_Dataset2022/CICIOT/"

-x 设置下载文件保存目录与原来文件(服务器文件)的目录保持对应

-r 递归下载

--no-parent 不要追溯到父目录

--reject=html 不下载html文件

不过这样下载之后,还是会有很多奇奇怪怪的文件

我是SB,原来可以通过正则匹配不想要的文件

wget -x -r --no-parent -R "index.html*" "http://205.174.165.80/IOTDataset/CIC_IOT_Dataset2022/CICIOT/"

-R, –reject=LIST 分号分隔的不被接受的扩展名的列表。不加这个参数,结果中会包含大量的“index.html”、“index.html?C=D;O=A”、“index.html?C=D;O=D”等文件

但是也很好匹配删除,直接Python特喵的遍历删除一遍文件名里带html的文件即可。我真的不想写代码😪

噢原来可以直接命令删除

find -name "index.html*" | xargs rm

中间断网了怎么办?

在原来的命令里面加个 -c就可以断点续传,接着之前的进度继续啦。

wget -x -r -c --no-parent -R "index.html*" "http://205.174.165.80/IOTDataset/CIC_IOT_Dataset2022/CICIOT/"

Over (●'◡'●)

References

wget用法

在线正则网站

使用参数匹配不想要的那些文件

使用命令删除多余的html文件

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容