package main
import (
"fmt"
"io/ioutil"
"net/http"
"regexp"
"strconv"
"strings"
"sync"
"time"
)
// 并发爬思路:
// 初始化数据管道
// 爬虫写入:所有协程向管道中添加图片链接
// 下载协程:从管道里读取链接并下载
// 任务统计协程:检查所有任务是否都完成,完成则关闭数据管道
var (
// 存放图片链接的数据管道
chanImageUrls chan string
waitGroup sync.WaitGroup
// 用于监控协程
chanTask chan string
// 正则匹配图片链接规则
reImg = `/uploads/[^"]+?(\.((jpg)|(png)|(jpeg)|(gif)|(bmp)))`
// 爬取网站根地址【彼岸图网】
baseUrl = `https://pic.netbian.com/`
// 爬取页数
downloadPage = 5
// 下载路径
downloadDir = "D:\\GoProject\\src\\test_app\\pic\\"
)
func HandleError(err error, why string) {
// 异常处理
if err != nil {
fmt.Println(why, err)
}
}
func DownloadFile(url string, filename string) (ok bool) {
// 下载图片,传入的图片叫什么
resp, err := http.Get(url)
HandleError(err, "http.get.url")
defer resp.Body.Close()
bytes, err := ioutil.ReadAll(resp.Body)
HandleError(err, "resp.body")
filename = downloadDir + filename
// 写入数据文件
err = ioutil.WriteFile(filename, bytes, 0666)
if err != nil {
return false
} else {
return true
}
}
func main() {
// 初始化管道
chanImageUrls = make(chan string, 1000000)
chanTask = make(chan string, downloadPage)
page := ""
// 爬虫协程
for i := 1; i < downloadPage+1; i++ {
waitGroup.Add(1)
if i < 2 {
page = ""
} else {
page = "_" + strconv.Itoa(i)
}
go getImgUrls(baseUrl + "index" + page + ".html")
}
// 下载协程:从管道中读取链接并下载
for i := 0; i < downloadPage; i++ {
waitGroup.Add(1)
go DownloadImg()
}
// 任务统计协程,统计所有任务是否都完成,完成则关闭管道
waitGroup.Add(1)
go CheckOK()
// 等待所有协程结束
waitGroup.Wait()
}
func DownloadImg() {
// 下载图片
for url := range chanImageUrls {
filename := GetFilenameFromUrl(url)
ok := DownloadFile(url, filename)
if ok {
fmt.Printf("%s 下载成功\n", filename)
} else {
fmt.Printf("%s 下载失败\n", filename)
}
}
waitGroup.Done()
}
func GetFilenameFromUrl(url string) (filename string) {
// 获取文件名
// 返回最后一个/的位置
lastIndex := strings.LastIndex(url, "/")
// 切出来
filename = url[lastIndex+1:]
// 时间戳解决重名
timePrefix := strconv.Itoa(int(time.Now().UnixNano()))
filename = timePrefix + "_" + filename
return
}
func CheckOK() {
// 任务统计协程,当所有协程完成下载,则关闭数据通道
var count int
for {
url := <-chanTask
fmt.Printf("%s 完成了爬取任务\n", url)
count++
if count == downloadPage {
close(chanImageUrls)
break
}
}
waitGroup.Done()
}
func getImgUrls(url string) {
// 爬图片链接到管道
urls := getImgs(url)
// 遍历切片里所有链接,存入数据管道
for _, pic_url := range urls {
chanImageUrls <- pic_url
}
// 标识当前协程完成
// 每完成一个任务,写一条数据
// 用于监控协程知道已经完成了几个任务
chanTask <- url
waitGroup.Done()
}
func getImgs(url string) (urls []string) {
// 获取当前页图片链接
pageStr := GetPageStr(url)
re := regexp.MustCompile(reImg)
results := re.FindAllStringSubmatch(pageStr, -1)
fmt.Printf("共找到%d条结果\n", len(results))
for _, result := range results {
urls = append(urls, baseUrl+result[0])
}
return
}
func GetPageStr(url string) (pageStr string) {
// 抽取根据url获取内容
resp, err := http.Get(url)
HandleError(err, "http.Get url")
defer resp.Body.Close()
// 2.读取页面内容
pageBytes, err := ioutil.ReadAll(resp.Body)
HandleError(err, "ioutil.ReadAll")
// 字节转字符串
pageStr = string(pageBytes)
return pageStr
}
Go并发爬虫小案例
最后编辑于 :
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。
相关阅读更多精彩内容
- @(go语言 黑马)[GO语言] 简单版TCP服务器 题目:搭建一个简单版TCP服务器 知识点:TCP通信 逻辑:...
- 项目地址:https://github.com/zhaojigang/go-crawler单任务版的爬虫很慢,因为...