shell爬虫批量下载豆瓣相册图片

不久前家里装修，想搞个书架，看到豆瓣上有这么一个相册收集了一些书房书架的图片，简单写了个shell全部抓回来参考。

shell爬取豆瓣相册中的图片

分析该相册首页的源码，可以看到相册总页数含有关键字data-total-page，每一页有18张图片，次页到最后一页的url，只要在首页url后加?start=PAGENUMBER，其中PAGENUMBER为18*页码，通过字符串拼接即得到相册每一页完整的url。

get_page_url(){
  num_pages=$(curl -A "${user_agent}" "${base_url}" | grep 'data-total-page' | head -n 1 | awk -F\" '{print $4}')
  for ((i=0; i<=num_pages; i++))
  do
    page_no=$(( 18 * i))
    page_url="${base_url}"?start=${page_no}
    get_img_no ${page_url}
  done
}

这里定义了一个函数get_page_url用于获取相册每一页的url，并将该url传递给另一个函数get_img_no，这是一种shell中常用的参数传递方法。

需要注意，在(())中引用的变量不需要加前缀$。

函数get_img_no用于获取相册每一页中目标图片的编号，只要搜索关键词photolst_photo即可。

get_img_no() {
  curl -A "${user_agent}" "$1" | grep "photolst_photo" | awk -F\/ '{print $6}' >> /tmp/img_no.txt
}

$1就是从get_page_url传递过来的网址，从该网址中提取图片的编号，存储到文件/tmp/img_no.txt中。

通过函数get_page_url中的for循环，反复调用get_img_no，就把相册每一页中的图片编号全部提取出来了。

图片的url可以通过简单的字符串拼接得到，但是该页面所展示的图片只是一个缩略图，为了得到原图，需要解析“查看大图”的链接。

get_img() {
  while read line
  do
    if !(grep $line img_done.txt)
    then
      img_s_url="https://www.douban.com/photos/photo/""$line""/large"
      img_url=$(curl -A "${user_agent}" "$img_s_url" | grep '/large/' | awk -F\" '{print $6}')
      curl -A "${user_agent}" -O "$img_url"
      echo $line >> img_done.txt
      sleep 20
    fi
  done < /tmp/img_no.txt
  rm /tmp/img_no.txt
}

函数get_img用于解析大图链接并下载图片。while循环按行提取图片编号，拼接为图片所在网页的链接img_s_url，该网页中的“查看大图”含有关键词/large/，很容易解析出大图链接img_url，下载完大图后，将该图编号追加到文件img_done.txt中，也就是说img_done.txt中存储了所有已下载图片的编号。

这里的if用于确认某一张图片是否已经下载过，如果下载过则直接跳过，不再重复下载。如果每隔一段时间运行一次该脚本，就可以保证只下载最新图片。

豆瓣的反爬措施相对而言是比较完善的，不过只要稍微控制一下访问频率，爬取少量图片还不足以触发反爬程序，因此加入了一个延时sleep 20。

完整的代码如下。

#!/usr/bin/env bash

base_url='https://www.douban.com/photos/album/84338335/'
user_agent='Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/43.0.2357.130 Safari/537.36'

touch img_done.txt

get_img() {
  while read line
  do
    if !(grep $line img_done.txt)
    then
      img_s_url="https://www.douban.com/photos/photo/""$line""/large"
      img_url=$(curl -A "${user_agent}" "$img_s_url" | grep '/large/' | awk -F\" '{print $6}')
      curl -A "${user_agent}" -O "$img_url"
      echo $line >> img_done.txt
      sleep 20
    fi
  done < /tmp/img_no.txt
  rm /tmp/img_no.txt
}

get_img_no() {
  curl -A "${user_agent}" "$1" | grep "photolst_photo" | awk -F\/ '{print $6}' >> /tmp/img_no.txt
}

get_page_url(){
  num_pages=$(curl -A "${user_agent}" "${base_url}" | grep 'data-total-page' | head -n 1 | awk -F\" '{print $4}')
  for ((i=0; i<=num_pages; i++))
  do
    page_no=$(( 18 * i))
    page_url="${base_url}"?start=${page_no}
    get_img_no ${page_url}
  done
}

get_page_url
get_img

exit 0

由于首次运行时还没有img_done.txt文件，因此使用touch新建一个文件，如果该文件已经存在，touch只更新文件的属性信息。

将该文件存储为get_img.sh，通过bash -x可在终端中实时看到脚本运行的情况：

$ bash -x get_img.sh

如果把脚本扔到crontab中定时运行，就可以追踪该相册的更新情况，并自动下载最新图片了。(不过这个相册貌似很久都不更新了。)

搞明白这个简单的例子，抓取豆瓣上其它类似内容都易如反掌了。

这个脚本充分体现了shell“糙、猛、快”的特点，对于一次性的自用需求，简直不能再合适了。

豆瓣上有个“害羞组”，是很多python爬虫初学者的试验目标，何不试试shell呢？