使用wget下载CIC Dataset

开头直接给答案

wget -x -r --no-parent -R "index.html*" "http://205.174.165.80/IOTDataset/CIC_IOT_Dataset2022/CICIOT/"

该工具Linux自带，Windows要用的话，下载地址： https://eternallybored.org/misc/wget/

下载该exe文件扔到C:\Windows\System32目录下。

打开新cmd窗口输入 $wget -V$ 即可检验是否🆗。

wget -x -r --no-parent --reject=html "http://205.174.165.80/IOTDataset/CIC_IOT_Dataset2022/CICIOT/"

-x 设置下载文件保存目录与原来文件（服务器文件）的目录保持对应

-r 递归下载

--no-parent 不要追溯到父目录

--reject=html 不下载html文件

不过这样下载之后，还是会有很多奇奇怪怪的文件

我是 $SB$ ，原来可以通过正则匹配不想要的文件

wget -x -r --no-parent -R "index.html*" "http://205.174.165.80/IOTDataset/CIC_IOT_Dataset2022/CICIOT/"

-R, –reject=LIST 分号分隔的不被接受的扩展名的列表。不加这个参数，结果中会包含大量的“index.html”、“index.html?C=D;O=A”、“index.html?C=D;O=D”等文件

但是也很好匹配删除，直接Python特喵的遍历删除一遍文件名里带 $html$ 的文件即可。我真的不想写代码😪

噢原来可以直接命令删除

find -name "index.html*" | xargs rm

在原来的命令里面加个 -c就可以断点续传，接着之前的进度继续啦。

wget -x -r -c --no-parent -R "index.html*" "http://205.174.165.80/IOTDataset/CIC_IOT_Dataset2022/CICIOT/"

Over (●'◡'●)

最后编辑于：2022.05.25 19:02:44

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。