wget 如何使用

学习wget

  • GNU Wget is a free utility for non-interactive download of files from the Web. It supports
    HTTP, HTTPS, and FTP protocols, as well as retrieval through HTTP proxies.

Wget is non-interactive, meaning that it can work in the background, while the user is not
logged on. This allows you to start a retrieval and disconnect from the system, letting Wget
finish the work. By contrast, most of the Web browsers require constant user's presence,
which can be a great hindrance when transferring a lot of data.

Wget can follow links in HTML, XHTML, and CSS pages, to create local versions of remote web
sites, fully recreating the directory structure of the original site. This is sometimes
referred to as "recursive downloading." While doing that, Wget respects the Robot Exclusion
Standard (/robots.txt). Wget can be instructed to convert the links in downloaded files to
point at the local files, for offline viewing.

Wget has been designed for robustness over slow or unstable network connections; if a download
fails due to a network problem, it will keep retrying until the whole file has been retrieved.
If the server supports regetting, it will instruct the server to continue the download from
where it left off.

  • 断点续传。 当文件特别大或者网络特别慢的时候,往往一个文件还没有下载完,连接就已经被切断,此 时就需要断点续传。wget的断点续传是自动的,只需要使用-c参数,例如:

wget的一些命令

wget -c

使用断点续传要求服务器支持断点续传。-t参数表示重试次数,例如需要重试100次,那么就 写-t 100,如果设成-t 0,那么表示无穷次重试,直到连接成功。-T参数表示超时等待时间,例 如-T 120,表示等待120秒连接不上就算超时。

  • 批量下载。

如果有多个文件需要下载,那么可以生成一个文件,把每个文件的URL写一行,例如生成文件 download.txt,然后用命令:wget -i download.txt 这样就会把download.txt里面列出的每个URL都下载下来。(如果列的是文件就下载文件,如果列 的是网站,那么下载首页)

  • 选择性的下载。

可以指定让wget只下载一类文件,或者不下载什么文件。例如:

wget -m --reject=gif http://target.web.site/subdirectory 表示下载http://target.web.site/subdirectory,但是忽略gif文件。--accept=LIST 可以

接受的文件类型,--reject=LIST拒绝接受的文件类型。

  • 密码和认证。

wget只能处理利用用户名/密码方式限制访问的网站,可以利用两个参数: --http-user=USER设置HTTP用户 --http-passwd=PASS设置HTTP密码 对于需要证书做认证的网站,就只能利用其他下载工具了,例如curl。

  • 利用代理服务器进行下载。

如果用户的网络需要经过代理服务器,那么可以让wget通过代理服务器进行文件的下载。此 时需要在当前用户的目录下创建一个.wgetrc文件。文件中可以设置代理服务器:

http-proxy = 111.111.111.111:8080 ftp-proxy = 111.111.111.111:8080

分别表示http的代理服务器和ftp的代理服务器。如果代理服务器需要密码则使用:

--proxy-user=USER设置代理用户

--proxy-passwd=PASS设置代理密码

这两个参数。

wget的一些参数

使用参数--proxy=on/off 使用或者关闭代理。 wget还有很多有用的功能,需要用户去挖掘。

  • wget的使用格式
  • Usage: wget [OPTION]... [URL]...
  • 用wget做站点镜像:

wget -r -p -np -k http://dsec.pku.edu.cn/~usr_name/

或者

wget -m http://dsec.pku.edu.cn/~usr_name/

wget --mirror –w 2 –p --HTML-extension –-convert-links – P ~\wget_files\example1 http://www.yourdomain.com

--mirror(-m):指定要做镜像的网站。wget会获取网站的所有链接和相关的文件。如果 本地镜像存在,还会自动覆盖最近的更新。

-w:告诉wget每个请求的间隔时间,这里是2秒。这个不是必需的,当有些站点对请求 间隔有限制时,这个参数就非常有用了。

-p:让wget获取页面上的所有元素,使其能在本地浏览。--mirror参数并不会保证所有的 图片及相关文件都被下载,所以需要加上-p来指定。

--HTML-extension:将所有不是html扩展名的文件都转换成.html。这个参数会 把CGI,ASP,PHP等结尾的文件都转换成html结尾。

-P(prefix folder):指定目标文件夹。

  • 在不稳定的网络上下载一个部分下载的文件,以及在空闲时段下载 wget -t 0 -w 31 -c http://dsec.pku.edu.cn/BBC.avi -o down.log &

或者从filelist读入要下载的文件列表

wget -t 0 -w 31 -c -B ftp://dsec.pku.edu.cn/linuxsoft -i filelist.txt -o down.log &

上面的代码还可以用来在网络比较空闲的时段进行下载。我的用法是:在mozilla中将不方便当时 下载的URL链接拷贝到内存中然后粘贴到文件filelist.txt中,在晚上要出去系统前执行上面代码 的第二条。

  • 使用代理下载

wget -Y on -p -k https://sourceforge.net/projects/wvware/

代理可以在环境变量或wgetrc文件中设定

在环境变量中设定代理

export PROXY=http://211.90.168.94:8080/ # 在~/.wgetrc中设定代理

http_proxy =

ftp_proxy = http://proxy.yoyodyne.com:18023/

  • wget各种选项分类列表 * 启动
  • <span style="font-size: 12px;"> </span>
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,657评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,662评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,143评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,732评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,837评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,036评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,126评论 3 410
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,868评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,315评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,641评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,773评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,470评论 4 333
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,126评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,859评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,095评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,584评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,676评论 2 351

推荐阅读更多精彩内容

  • 国家电网公司企业标准(Q/GDW)- 面向对象的用电信息数据交换协议 - 报批稿:20170802 前言: 排版 ...
    庭说阅读 10,934评论 6 13
  • Spring Cloud为开发人员提供了快速构建分布式系统中一些常见模式的工具(例如配置管理,服务发现,断路器,智...
    卡卡罗2017阅读 134,637评论 18 139
  • http://192.168.136.131/sqlmap/mysql/get_int.php?id=1 当给sq...
    xuningbo阅读 10,281评论 2 22
  • 如果你想知道你的服务器正在做干什么,你就需要了解一些基本的命令,一旦你精通了这些命令,那你就是一个专业的 Linu...
    七寸知架构阅读 10,836评论 1 71
  • 野蛮生长的女汉子 女生把男生蹂躏了一顿,然后告诉他,不要担心,我会对你负责的。这个挺符合我对女汉子的想象。 暂且不...
    爱读书的仙女asd阅读 346评论 0 0