go proxy 最快捷的代理抓取工具

golang-proxy v2.0

Golang-Proxy -- 简单高效的免费代理抓取工具通过抓取网络上公开的免费代理,来维护一个属于自己的高匿代理池,用于网络爬虫、资源下载等用途。


golang-proxy

Version 2.0

  1. 不再依赖 MySQL 和 NSQ
  2. 之前需要分别启动publisherconsumerassessor,现在 只需要启动主程序 即可!
  3. 提供了高度灵活的 API 接口,在启动主程序后,即可通过在浏览器访问localhost:9999/alllocalhost:9999/random 直接获取抓到的代理!甚至可以使用 localhost:9999/sql?query=来执行 SQL 语句来自定义代理筛选规则!
  4. 提供 WindowsLinuxMac 开箱即用版
    Download Release v2.0

安装

1. 通过编译源码

go get github.com/storyicon/golang-proxy

进入到 golang-proxy 目录,执行 go build main.go,执行生成的二进制的执行程序即可。

注意:
go build 的过程中可能出现cannot find package "github.com/gocolly/col1ly" in any of 等找不到包的情况,根据提示的地址 go get 即可

# 比如如果在 go build main.go 的时候提示
business\publisher.go:8:2: cannot find package "github.com/gocolly/col1ly" in any of:
        F:\Go\src\github.com\gocolly\col1ly (from $GOROOT)
        D:\golang\src\github.com\gocolly\col1ly (from $GOPATH)
        C:\Users\Administrator\go\src\github.com\gocolly\col1ly
        D:\ivank\src\github.com\gocolly\col1ly
执行 go get github.com/gocolly/col1ly 即可

如果觉得麻烦,可以使用 /bin 目录中提供的 开箱即用 版本。

2. 开箱即用版本

Release 页面根据系统环境提供了一些压缩包,将他们解压后执行即可。

开箱即用版下载地址: Download Release v2.0

3. Tips

项目根目录下的 ./source 是项目执行必须的文件夹,里面存储了各类网站源,其他的文件夹储存的均为项目源码。所以在编译后得到二进制程序 main 文件后,即可将 main 文件和 source 文件夹一同移动到任意地方,main 文件可以任意命名。
如果提示找不到 source文件夹, 你可以在执行程序时加上-source=参数来指定source文件夹路径,例如:

# xxx填source文件夹的相对或者绝对路径
main -source=xxx

API 接口

在程序运行后,可以通过在浏览器访问以下接口获取数据库中抓取到的代理。

1. 随机获取一条代理

地址: http://localhost:9999/random
返回示例:
{
    //状态码0表示成功,1表示错误
    "code": 0,
    "message": [{
        "id": 124,
        "content": "http://190.2.144.133:1080",
        //评估次数,次数越多,代表代理存活时间越长
        "assess_times": 13,
        //评估成功次数,success_times/assess_times可以得到评估成功率
        "success_times": 11,
        //平均响应时间,单位为秒
        "avg_response_time": 2.0831538461538464,
        //连续评估失败次数,是分数计算的重要指标
        "continuous_failed_times": 0,
        //分数,分数越高,代理质量越高
        "score": 3.2747991296955083,
        //插入时间戳(秒)
        "insert_time": 1532324791,
        //更新时间戳(秒)
        "update_time": 1532414960
    }]
}

2. 获取所有可用代理

地址: http://localhost:9999/all

3. 执行 SQL

地址: http://localhost:9999/sql/query=xxxx
将xxxx替换为要执行的sql语句即可,程序配置了两张表:
valid_proxy 存放高可用代理
crawl_proxy 抓取到的代理的缓存表(代理质量不能保证)

例如: http://localhost:9999/sql/query=SELECT * FROM VALID_PROXY WHERE 1 ORDER BY SCORE DESC
将会将所有的可用代理按照分数倒序并返回。

为什么要用 Golang-Proxy

  1. 稳定、快速。
    抓取模块,单核并发可以到达 1000 个页面/秒
  2. 高可配置性、高拓展性。
    你不需要写任何代码,花一两分钟填写一个配置文件就可以添加一个新的网站源。
  3. 评估功能。
    通过 Assessor 评估模块,周期性测试代理质量,根据代理的测试成功率、高匿性、测试次数、突变性、响应速度等独立影响因子进行综合评分,算法具有高度可配置性,可以根据项目的需要可以对因子的权重进行独立调整。

如何配置一个新的源

./source/下的所有 yml 格式的文件都是,你可以增加源,也可以通过在文件名前加上一个 . 来使程序忽略这个源,当然你也可以直接删除,来让一个源永远的消失,下面进行 Source 参数介绍:

#Page配置项
page:
    entry: "https://xxx/1.html"
    template: "https://xxx/{page}.html"
    from: 2
    to: 10
#publisher将会首先抓取entry,即 https://xxx/1.html
#然后根据 template、from 和 to 依次抓取
#  https://xxx/2.html
#  https://xxx/3.html
#  https://xxx/4.html
#  ...
#  https://xxx/10.html
#Selector配置项
selector:
    iterator: ".table tbody tr"
    ip: "td:nth-child(1)"
    port: "td:nth-child(2)"
    scheme: "td:nth-child(3)"
    filter: ""
# 以上配置用于抓取下面这种 HTML 结构
# <table class="table">
#     <tbody>
#         <tr>
#             <td>187.3.0.1</td>
#             <td>8080</td>
#             <td>HTTP</td>
#         <tr>
#         <tr>
#             <td>164.23.1.2</td>
#             <td>80</td>
#             <td>HTTPS</td>
#         <tr>
#         <tr>
#             <td>131.9.2.3</td>
#             <td>8080</td>
#             <td>HTTP</td>
#         <tr>
#     <tbody>
# <table>
# 选择器为通用的JQuery选择器,iterator为循环对象,比如表格里的行,每行一条代理,那这个行的选择器就是iterator,而ip、port、protocal则是在iterator选择器的基础上进行子元素的查找。
# protocal为空,或protocal对应的元素无法找到,则默认是HTTP类型
category:
    # 并行数
    parallelnumber: 1
    # 对于这个源,每抓取一个页面
    # 将会随机等待5~20s再抓下一个页面
    delayRange: [5, 20]
    # 间隔多长时间启用一次这个源
    # @every 10s , @every 10h...
    interval: "@every 10m"
debug: true

Request For Comments

  1. 使用中任何问题提 issues 即可
  2. 如果发现了新的好用的源,欢迎提交上来分享
  3. 来都来了点个 Star 再走呗 : )
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,717评论 6 496
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,501评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,311评论 0 350
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,417评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,500评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,538评论 1 293
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,557评论 3 414
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,310评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,759评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,065评论 2 330
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,233评论 1 343
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,909评论 5 338
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,548评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,172评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,420评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,103评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,098评论 2 352

推荐阅读更多精彩内容