scrapy 食用注意指南

1. 使用 'scrapy genspider project domain' 来生成 spider 文件
2. 运行 scrapy 报错:
ImportError:
DLL load failed: 找不到指定的模块。

解决:

拷贝 C:\Python26\Lib\site-packages\pywin32_system32\ 这个文件夹里的文件,至 C:\Windows\System32

3. 调试请使用 pycharm,通过以下方式用 pycharm 运行 scrapy:

在 scrapy.cfg 这一级目录下新建 endpoint.py 文件,内容:

from scrapy import cmdline
cmdline.execute(['scrapy', 'crawl', 'cnblogSpider(这个是你 spide r的名字)'])

这里多说一句,运行的时候需要用 spider 的名字来运行。这个名字是在

class CnblogspiderSpider(scrapy.Spider):
    name = 'cnblogSpider'
    allowed_domains = ['cnblogs.com']
    start_urls = [
        'http://www.cnblogs.com/fnng/default.aspx?page=1'
    ]

这个地方的 name 指定的。

4. 可以将数据已指定格式输出文件。支持以下几种格式:

xml
csv
json
jsonlines
jl
pickle
marshal

运行时请带上参数指定输出格式:

scrapy crawl cnblogs_blogs –nolog -o cnblogs_blogs.json -t json

-o 后面指定了输出文件名,-t 后面指定了输出格式。

其他:待更新......

参考来自 鱼塘的鱼

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容