最简单的万能爬虫器

最简单的万能爬虫器

项目介绍

  • 爬取指定网站url所有图片以及描述信息
  • 爬取指定网站中任何标签下的任意属性

效果展示

效果图嗯哼.jpg
1.获取所有图片以及描述信息
    ImageResult(name='142847_16a48_236.jpg', url='http://i.meizitu.net/thumbs/2018/07/142847_16a48_236.jpg', desc='艺妓的诱惑 日系美女水嫩性感柔媚多情', extendOne='')
    ImageResult(name='146379_12c46_236.jpg', url='http://i.meizitu.net/thumbs/2018/08/146379_12c46_236.jpg', desc='美到喷血! 尤果女神韩安琪美艳性感尽显成熟女人味', extendOne='')
    ImageResult(name='144268_27c28_236.jpg', url='http://i.meizitu.net/thumbs/2018/07/144268_27c28_236.jpg', desc='妩媚小女人张馨彤为诱惑而生 水湿白衬衫酥胸诱人', extendOne='')
    ImageResult(name='137510_05b45_236.jpg', url='http://i.meizitu.net/thumbs/2018/06/137510_05b45_236.jpg', desc='尤果女神李莉莉高清写真 雪白酥胸诱惑满满', extendOne='')
    ImageResult(name='147468_20f29_236.jpg', url='http://i.meizitu.net/thumbs/2018/08/147468_20f29_236.jpg', desc='气质满分!美女尤物美人骆雪淇白嫩美腿妩媚动人', extendOne='')
    ImageResult(name='150001_07b63_236.jpg', url='http://i.meizitu.net/thumbs/2018/09/150001_07b63_236.jpg', desc='微胖小姐姐白晓白 轻熟的气质让你欲罢不能', extendOne='')
    ImageResult(name='140752_29b05_236.jpg', url='http://i.meizitu.net/thumbs/2018/07/140752_29b05_236.jpg', desc='尤果美女轮番上阵诱惑升级 清凉陪你度过甜蜜盛夏', extendOne='')
    ImageResult(name='147534_20e07_236.jpg', url='http://i.meizitu.net/thumbs/2018/08/147534_20e07_236.jpg', desc='还是熟妇最有味道 成熟端庄万种风情', extendOne='')

2.获取指定标签(img)下面指定属性("data-original", "alt")
    [http://i.meizitu.net/thumbs/2018/08/148211_26b29_236.jpg, 尤果女神方子萱奶大腿长屁股翘,动作挑逗引人遐想]
    [http://i.meizitu.net/thumbs/2018/06/140460_28c43_236.jpg, 妩媚轻熟女极品美臀大胆露出 惹火身材完美勾魂]
    [http://i.meizitu.net/thumbs/2018/06/138976_16y03_236.jpg, 气质小姐姐清爽优雅魅力难挡 性感妩媚尽显轻熟女范]
    [http://i.meizitu.net/thumbs/2018/06/140116_25c19_236.jpg, 御姐气息十足,尤果模特莫妮卡尽显精致小女人气质]
    [http://i.meizitu.net/thumbs/2018/08/145201_02a09_236.jpg, 妖艳御姐萌汉药萌汉药baby撩衣露乳激情销魂]

最简单使用方式

1. Add it in your root build.gradle at the end of repositories:
allprojects {
        repositories {
            ...
            maven { url 'https://jitpack.io' }
        }
    }
2. Add the dependency
dependencies {
            implementation 'com.github.pengMaster:SpiderTool:1.0.0'
    }
3. Add use to activity

         案例: 获取妹子图网站所有图片
           //妹子图网站Url
           val url = "http://www.mzitu.com/tag/ugirls/"
           //kotlin 获取该网站所有图片以及描述信息
           SpiderUtil.getImageByUrl(url, object : ImageResultListener {
                override fun result(imageList: HashSet<ImageResult>) {
                    mTvContent.text = imageList.toString()
                    imageList.forEach {
                        Log.e("getImageByUrl", it.toString())
                    }

                }
            })
           //java 版
            SpiderUtil.Companion.getImageByUrl(url, new ImageResultListener() {
                @Override
                public void result(@NotNull HashSet<ImageResult> imageList) {

                }
            });
          案例: 获取妹子图网站所有img标签下"data-original", "alt"
            //标签
            val tag = "img"
            //要获取属性集合
            val attributeList = listOf<String>("data-original", "alt")
            SpiderUtil.getAttributeByTag(url, tag, attributeList, object : ResultListener {
                override fun result(list: HashSet<ArrayList<String>>) {
                    mTvContent.text = list.toString()
                    list.forEach {
                        Log.e("getAttributeByTag", it.toString())
                    }
                }
            })

4. add permission to your menifest
    <!--联网-->
    <uses-permission android:name="android.permission.INTERNET" />

注意

1.比如妹子图网站获取的图片url如果进行展示或者下载,需要进行防盗链处理操作
2.获取指定标签下的指定属性
例如:"<img width='236' height='354' class='lazy' alt='清纯中带着性感 尤果网女神美替极品身材一览无遗' src='http://i.meizitu.net/pfiles/img/lazy.png' data-original='http://i.meizitu.net/thumbs/2018/09/150833_14c39_236.jpg' />"

获取img标签下  alt  src 属性
tag = img
list = ("alt",  "src")

参与贡献

  1. Fork 本项目
  2. 新建 Feat_xxx 分支
  3. 提交代码
  4. 新建 Pull Request

github地址

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 211,948评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,371评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 157,490评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,521评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,627评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,842评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,997评论 3 408
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,741评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,203评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,534评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,673评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,339评论 4 330
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,955评论 3 313
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,770评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,000评论 1 266
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,394评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,562评论 2 349

推荐阅读更多精彩内容