不久前家里装修,想搞个书架,看到豆瓣上有这么一个相册收集了一些书房书架的图片,简单写了个shell全部抓回来参考。
分析该相册首页的源码,可以看到相册总页数含有关键字data-total-page
,每一页有18张图片,次页到最后一页的url,只要在首页url后加?start=PAGENUMBER
,其中PAGENUMBER
为18*页码
,通过字符串拼接即得到相册每一页完整的url。
get_page_url(){
num_pages=$(curl -A "${user_agent}" "${base_url}" | grep 'data-total-page' | head -n 1 | awk -F\" '{print $4}')
for ((i=0; i<=num_pages; i++))
do
page_no=$(( 18 * i))
page_url="${base_url}"?start=${page_no}
get_img_no ${page_url}
done
}
这里定义了一个函数get_page_url
用于获取相册每一页的url,并将该url传递给另一个函数get_img_no
,这是一种shell中常用的参数传递方法。
需要注意,在(())
中引用的变量不需要加前缀$
。
函数get_img_no
用于获取相册每一页中目标图片的编号,只要搜索关键词photolst_photo
即可。
get_img_no() {
curl -A "${user_agent}" "$1" | grep "photolst_photo" | awk -F\/ '{print $6}' >> /tmp/img_no.txt
}
$1
就是从get_page_url
传递过来的网址,从该网址中提取图片的编号,存储到文件/tmp/img_no.txt
中。
通过函数get_page_url
中的for
循环,反复调用get_img_no
,就把相册每一页中的图片编号全部提取出来了。
图片的url可以通过简单的字符串拼接得到,但是该页面所展示的图片只是一个缩略图,为了得到原图,需要解析“查看大图”的链接。
get_img() {
while read line
do
if !(grep $line img_done.txt)
then
img_s_url="https://www.douban.com/photos/photo/""$line""/large"
img_url=$(curl -A "${user_agent}" "$img_s_url" | grep '/large/' | awk -F\" '{print $6}')
curl -A "${user_agent}" -O "$img_url"
echo $line >> img_done.txt
sleep 20
fi
done < /tmp/img_no.txt
rm /tmp/img_no.txt
}
函数get_img
用于解析大图链接并下载图片。while
循环按行提取图片编号,拼接为图片所在网页的链接img_s_url
,该网页中的“查看大图”含有关键词/large/
,很容易解析出大图链接img_url
,下载完大图后,将该图编号追加到文件img_done.txt
中,也就是说img_done.txt
中存储了所有已下载图片的编号。
这里的if
用于确认某一张图片是否已经下载过,如果下载过则直接跳过,不再重复下载。如果每隔一段时间运行一次该脚本,就可以保证只下载最新图片。
豆瓣的反爬措施相对而言是比较完善的,不过只要稍微控制一下访问频率,爬取少量图片还不足以触发反爬程序,因此加入了一个延时sleep 20
。
完整的代码如下。
#!/usr/bin/env bash
base_url='https://www.douban.com/photos/album/84338335/'
user_agent='Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/43.0.2357.130 Safari/537.36'
touch img_done.txt
get_img() {
while read line
do
if !(grep $line img_done.txt)
then
img_s_url="https://www.douban.com/photos/photo/""$line""/large"
img_url=$(curl -A "${user_agent}" "$img_s_url" | grep '/large/' | awk -F\" '{print $6}')
curl -A "${user_agent}" -O "$img_url"
echo $line >> img_done.txt
sleep 20
fi
done < /tmp/img_no.txt
rm /tmp/img_no.txt
}
get_img_no() {
curl -A "${user_agent}" "$1" | grep "photolst_photo" | awk -F\/ '{print $6}' >> /tmp/img_no.txt
}
get_page_url(){
num_pages=$(curl -A "${user_agent}" "${base_url}" | grep 'data-total-page' | head -n 1 | awk -F\" '{print $4}')
for ((i=0; i<=num_pages; i++))
do
page_no=$(( 18 * i))
page_url="${base_url}"?start=${page_no}
get_img_no ${page_url}
done
}
get_page_url
get_img
exit 0
由于首次运行时还没有img_done.txt
文件,因此使用touch
新建一个文件,如果该文件已经存在,touch
只更新文件的属性信息。
将该文件存储为get_img.sh
,通过bash -x
可在终端中实时看到脚本运行的情况:
$ bash -x get_img.sh
如果把脚本扔到crontab
中定时运行,就可以追踪该相册的更新情况,并自动下载最新图片了。(不过这个相册貌似很久都不更新了。)
搞明白这个简单的例子,抓取豆瓣上其它类似内容都易如反掌了。
这个脚本充分体现了shell“糙、猛、快”的特点,对于一次性的自用需求,简直不能再合适了。
豆瓣上有个“害羞组”,是很多python爬虫初学者的试验目标,何不试试shell呢?