巫师3游戏资源入库程序第2篇

思路

第一个程序已经把资源找到了, 这个程序把资源存下来, 方便重用. 思路如下:

  • 用sqlite保存数据
  • 如果数据已经存在, 更新, 否则创建.
    这样以后使用数据库里的程序即可, 不用再找一遍.

代码

代码如下:

#! /usr/bin/python
# -*- coding: UTF-8 -*-
"""
    巫师3 books的链接.
    原链接如下: http://witcher.wikia.com/wiki/Category:The_Witcher_3_books
    在这个链接能更好地看到数据结构, 而程序里的链接是更方便获取分页查找的链接, 结构完全相同.

    作者: 萌萌哒小肥他爹
    简书: blog.yunshichen.com

"""
from bs4 import BeautifulSoup
from crawler import crawl_helper
import time
from sqlalchemy.ext.declarative import declarative_base
from sqlalchemy import Column, Integer, String, UnicodeText, TIMESTAMP
from sqlalchemy.orm import sessionmaker,relationship
from sqlalchemy import create_engine

# ---- 爬虫配置

witcher3_books_url_template = 'http://witcher.wikia.com/index.php?action=ajax&articleId=The+Witcher+3+books&method=axGetArticlesPage&rs=CategoryExhibitionAjax&page=%d'
g_domain = 'http://witcher.wikia.com'
g_count = 0  # 计算已抓取数量

# ---- 数据库配置, 使用sqlite
db_path = 'tw3_resource.db'     # 当前运行脚本的同级目录
db_engine = create_engine('sqlite:///' + db_path)
Base = declarative_base()


class WitcherResource(Base):
    """
    网络抓取的巫师3资源类表
    """
    __tablename__ = 'WitcherResource'
    id = Column(Integer,primary_key=True,autoincrement=True)
    title = Column(String(100),nullable=True)               # 标题
    content = Column(UnicodeText, nullable=True)            # 内容
    url = Column(String(500),nullable=True)                 # url
    category = Column(String(100),nullable=True)            # 分类

Base.metadata.create_all(db_engine)

Session = sessionmaker(bind=db_engine)
g_session = Session()


def do_it():

    # 书目前是20页
    start = 1
    end = 20
    for page in range(start, end + 1):
        # print(page)
        index_url = witcher3_books_url_template % page
        find_index(index_url)


def find_index(index_url):
    soup = crawl_helper.do_get(index_url, '', True)
    main_books = BeautifulSoup(soup['page'], 'html.parser')
    main_books = main_books.find_all('div', {'class': 'category-gallery-item'})

    for div in main_books:
        a_tag = div.find_all('a')[0]
        title = a_tag['title']
        book_url = g_domain + a_tag['href']
        # print('---- book: %s, url: %s' % (title, book_url))

        time.sleep(1.17)

        find_detail(book_url, title)

    g_session.commit()


def find_detail(book_url, title):
    """
    具体格式可以看这个: http://witcher.wikia.com/wiki/Hieronymus%27_notes

    :param book_url:
    :return:
    """

    book_html = crawl_helper.do_get(book_url, '', False)
    article_div = book_html.find_all('div', {'class': 'WikiaArticle'})[0]

    # wiki 里有时候用dl, 有时候用p , 咳咳...
    content_tag_list = article_div.find_all('dl')
    if content_tag_list is None:
        content_tag_list = article_div.find_all('p')

    content = None
    for dl_tag in content_tag_list:
        # print(dl_tag.text)
        content = dl_tag.text
        # todo : 未来抓取图片等信息

    # 查找是否存在
    check_query = g_session.query(WitcherResource).filter_by(title=title, category='books')
    if check_query.first() is not None:
        # 更新
        check_query.update({'title': title, 'content': content, 'url': book_url})
        print('--- book[%s]已存在, 仅更新: ' % title)
    else:
        wr = WitcherResource()
        wr.title = title
        wr.url = book_url
        wr.content = content
        wr.category = 'books'
        g_session.add(wr)
        g_session.flush()
        print('---- 新增书: %s' % title)


if __name__ == '__main__':
    do_it()


©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,544评论 6 501
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,430评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,764评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,193评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,216评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,182评论 1 299
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,063评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,917评论 0 274
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,329评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,543评论 2 332
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,722评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,425评论 5 343
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,019评论 3 326
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,671评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,825评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,729评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,614评论 2 353

推荐阅读更多精彩内容

  • Swift1> Swift和OC的区别1.1> Swift没有地址/指针的概念1.2> 泛型1.3> 类型严谨 对...
    cosWriter阅读 11,097评论 1 32
  • Android 自定义View的各种姿势1 Activity的显示之ViewRootImpl详解 Activity...
    passiontim阅读 172,077评论 25 707
  • 用两张图告诉你,为什么你的 App 会卡顿? - Android - 掘金 Cover 有什么料? 从这篇文章中你...
    hw1212阅读 12,714评论 2 59
  • 关于Mongodb的全面总结 MongoDB的内部构造《MongoDB The Definitive Guide》...
    中v中阅读 31,928评论 2 89
  • 老板:我说美女们,照顾一下顾客情绪,他们赏心悦目,我们工作就方便开展。所以工作中请大家尽量不素颜,起码还是化个淡妆...
    金指尖的花园阅读 251评论 0 1