python量化交易4——抓取股票的基本信息

stock_untitl.py


from pymongo import ASCENDING

from database import DB_CONN

from datetime import datetime,timedelta

# In[2]:

def get_trading_dates(begin_date=None, end_date=None):

    """

    获取指定日期范围的按照正序排列的交易日列表

    如果没有指定日期范围,则获取从当期日期向前365个自然日内的所有交易日

    :param begin_date: 开始日期

    :param end_date: 结束日期

    :return: 日期列表

    """

    # 当前日期

    now = datetime.now()

    # 开始日期,默认今天向前的365个自然日

    if begin_date is None:

        # 当前日期减去365天

        one_year_ago = now - timedelta(days=365)

        # 转化为str类型

        begin_date = one_year_ago.strftime('%Y-%m-%d')

    # 结束日期默认为今天

    if end_date is None:

        end_date = now.strftime('%Y-%m-%d')

    # 用上证综指000001作为查询条件,因为指数是不会停牌的,所以可以查询到所有的交易日

    daily_cursor = DB_CONN.daily.find(

        {'code': '000001', 'date': {'$gte': begin_date, '$lte': end_date}, 'index': True},

        sort=[('date', ASCENDING)],

        projection={'date': True, '_id': False})

    # 转换为日期列表

    dates = [x['date'] for x in daily_cursor]

    return dates

def get_all_codes():

    """

    获取所有股票代码列表

    :return: 股票代码列表

    """

    # 通过distinct函数拿到所有不重复的股票代码列表

    return DB_CONN.basic.distinct('code')

# In[4]:

if __name__ == '__main__':

    get_all_codes()



basic_crawler:


import traceback

from datetime import datetime,timedelta

import tushare as ts

from pymongo import MongoClient

from pandas.io import json

from pymongo import UpdateOne

from stock_util import get_trading_dates

DB_CONN = MongoClient('mongodb://127.0.0.1:27017')['quant_01']

# 从tushare获取股票基础数据,保存到本地的MongoDB数据库中

def crawl_basic(begin_date=None, end_date=None):

    """

    抓取指定时间范围内的股票基础信息

    :param begin_date: 开始日期

    :param end_date: 结束日期

    """

    # 如果没有指定开始日期,则默认为前一日

    if begin_date is None:

        begin_date = (datetime.now() - timedelta(days=1)).strftime('%Y-%m-%d')

    # 如果没有指定结束日期,则默认为前一日

    if end_date is None:

        end_date = (datetime.now() - timedelta(days=1)).strftime('%Y-%m-%d')

    # 获取指定日期范围的所有交易日列表

    all_dates = get_trading_dates(begin_date, end_date)

    # 按照每个交易日抓取

    for date in all_dates:

        try:

            # 抓取当日的基本信息

            crawl_basic_at_date(date)

        except:

            print('抓取股票基本信息时出错,日期:%s' % date, flush=True)


def crawl_basic_at_date(date):

    """

    从Tushare抓取指定日期的股票基本信息

    :param date: 日期

    """

    # 从TuShare获取基本信息,index是股票代码列表

    df_basics = ts.get_stock_basics(date)

    # 如果当日没有基础信息,在不做操作

    if df_basics is None:

        return

    # 初始化更新请求列表

    update_requests = []

    # 获取所有股票代码集合

    codes = list(set(df_basics.index))  #codes = list(set(df_basics.index))[:2]

    # 按照股票代码提取所有数据

    for code in codes:

        # 获取一只股票的数据

        doc = dict(df_basics.loc[code])

        try:

            # API返回的数据中,上市日期是一个int类型。将上市日期,20180101转换为2018-01-01的形式

            time_to_market = datetime \

                .strptime(str(doc['timeToMarket']), '%Y%m%d') \

                .strftime('%Y-%m-%d')

            # 将总股本和流通股本转为数字

            totals = float(doc['totals'])

            outstanding = float(doc['outstanding'])

            # 组合成基本信息文档

            doc.update({

                # 股票代码

                'code': code,

                # 日期

                'date': date,

                # 上市日期

                'timeToMarket': time_to_market,

                # 流通股本

                'outstanding': outstanding,

                # 总股本

                'totals': totals

            })

            # 生成更新请求,需要按照code和date创建索引

            # tushare

            # numpy.int64/numpy.float64等数据类型,保存到mongodb时无法序列化。

            # 解决办法:这里使用pandas.json强制转换成json字符串,然后再转换成dict。int64/float64转换成int,float

            update_requests.append(

                UpdateOne(

                    {'code': code, 'date': date},

                    {'$set': json.loads(json.dumps(doc))}, upsert=True))

        except:

            print('发生异常,股票代码:%s,日期:%s' % (code, date), flush=True)

            print(doc, flush=True)

            print(traceback.print_exc())

    # 如果抓到了数据

    if len(update_requests) > 0:

        update_result = DB_CONN['basic'].bulk_write(update_requests, ordered=False)

        print('抓取股票基本信息,日期:%s, 插入:%4d条,更新:%4d条' %

              (date, update_result.upserted_count, update_result.modified_count), flush=True)

if __name__ == '__main__':

    crawl_basic('2017-01-01', '2017-12-31')

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 219,635评论 6 508
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 93,628评论 3 396
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 165,971评论 0 356
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,986评论 1 295
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 68,006评论 6 394
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,784评论 1 307
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,475评论 3 420
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,364评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,860评论 1 317
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 38,008评论 3 338
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,152评论 1 351
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,829评论 5 346
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,490评论 3 331
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 32,035评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,156评论 1 272
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,428评论 3 373
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 45,127评论 2 356