var page = require('webpage').create(),
system = require('system'),
address='https://www.baidu.com/s?wd=';
var fs = require('fs');
if (system.args.length === 1) {
console.log('NO-KEY');
phantom.exit();
}
address += encodeURIComponent(system.args[1]);
var oldTime=new Date();
page.open(address, function(status) {
if (status !== 'success') {
console.log('失败了~');
} else {
var json=page.evaluate(function() {
var t=[];
var dom=document.getElementById('content_left').children;
console.log(dom.length)
for(var i=0;i<dom.length;i++){
var o=new Object();
o.title=dom[i].children[0].innerText;
o.info=dom[i].children[1].innerText;
o.link=dom[i].getElementsByTagName('a')[0].getAttribute('href');
var pic=dom[i].getElementsByTagName('img');
if(pic.length>0){
o.pic=pic[0].getAttribute('src');
}else{
o.pic=null;
}
t.push(o);
}
var oo=new Object();
oo.code=0;
oo.msg='抓取成功~';
oo.word=document.getElementById('kw').value;
oo.dataList=t;
return oo;
});
json.time=new Date-oldTime;
fs.write('f:/2222.txt', JSON.stringify(json), 'w');
}
phantom.exit();
});
爬取百度的例子
最后编辑于 :
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。
推荐阅读更多精彩内容
- 前言:这篇文章在大一刚入学的时候就完成了,当初刚入门 Python 爬虫不久。现在回头看看这代码,写得什么鬼屎玩意...
- (声明:本篇文章以交流技术为目的,希望大家支持正版,支持院线~) 需求背景:最近误入一个免费(daoban)资源的...