scrapy 食用注意指南

1. 使用 'scrapy genspider project domain' 来生成 spider 文件

2. 运行 scrapy 报错：

ImportError:
DLL load failed: 找不到指定的模块。

解决：

拷贝 C:\Python26\Lib\site-packages\pywin32_system32\ 这个文件夹里的文件，至 C:\Windows\System32

3. 调试请使用 pycharm，通过以下方式用 pycharm 运行 scrapy：

在 scrapy.cfg 这一级目录下新建 endpoint.py 文件，内容：

from scrapy import cmdline
cmdline.execute(['scrapy', 'crawl', 'cnblogSpider（这个是你 spide r的名字）'])

这里多说一句，运行的时候需要用 spider 的名字来运行。这个名字是在

class CnblogspiderSpider(scrapy.Spider):
    name = 'cnblogSpider'
    allowed_domains = ['cnblogs.com']
    start_urls = [
        'http://www.cnblogs.com/fnng/default.aspx?page=1'
    ]

这个地方的 name 指定的。

4. 可以将数据已指定格式输出文件。支持以下几种格式：

xml
csv
json
jsonlines
jl
pickle
marshal

运行时请带上参数指定输出格式：

scrapy crawl cnblogs_blogs –nolog -o cnblogs_blogs.json -t json

-o 后面指定了输出文件名，-t 后面指定了输出格式。

其他：待更新......

参考来自鱼塘的鱼

scrapy 食用注意指南

1. 使用 'scrapy genspider project domain' 来生成 spider 文件

2. 运行 scrapy 报错：

3. 调试请使用 pycharm，通过以下方式用 pycharm 运行 scrapy：

4. 可以将数据已指定格式输出文件。支持以下几种格式：

推荐阅读更多精彩内容