Python: 从中国证券网抓取午间公告

中国证券网 抓取午间公告。

中国证券网应该是权威部门,发布的消息比较靠谱,可以及时获取公告提前埋伏。

在学习这个的过程中,顺便把困扰我很久的编码问题给解决了,也算是个意外的收获。

以下是对代码的分析:

  1. 得到编辑器的默认编码
import locale
print locale.getdefaultlocale()[1]
  1. 建立目录,存放抓取的文件
sub_folder = os.path.join(os.getcwd(), "stock")
if not os.path.exists(sub_folder):
    os.mkdir(sub_folder)
os.chdir(sub_folder)
  1. 定义下载文件的名字
temp_time = time.strftime("[%Y-%m-%d]-[%H-%M]", time.localtime())
store_filename = "StockNews-%s.log" % temp_time
fopen = codecs.open(store_filename, 'w', 'utf-8')
  1. 设置proxy
    这个要具体情况具体分析,有的可能不需要proxy,我的公司是必须定义proxy,否则脚本不能读取网页的内容。
proxy_support = urllib2.ProxyHandler({"http":"http://your_proxy:8080/"})
opener = urllib2.build_opener(proxy_support)
urllib2.install_opener(opener)
  1. 解析网页
Outer HTML: <span class="time">07-19 13:00</span>
req = urllib2.Request(url=company_news_site, headers=headers)
resp = urllib2.urlopen(req)
html = resp.read()
#print chardet.detect(html)
soup = BS(html, "html.parser")
all_content = soup.find_all("span", "time")
for i in all_content:
    news_time = i.string
    node = i.next_sibling
    title = node["title"].decode(sys.getdefaultencoding()).encode(locale.getdefaultlocale()[1])
    print news_time,"    ", title, "    ", node["href"]

代码如下:

#! /usr/bin/env python
#coding=utf-8
from bs4 import BeautifulSoup as BS
import random
import urllib2
import sys
import chardet
import time
import os
import codecs

import locale
print locale.getdefaultlocale()[1]

print sys.getdefaultencoding()
reload(sys)
sys.setdefaultencoding('utf-8')
print sys.getdefaultencoding()

sub_folder = os.path.join(os.getcwd(), "stock")
if not os.path.exists(sub_folder):
    os.mkdir(sub_folder)
os.chdir(sub_folder)

temp_time = time.strftime("[%Y-%m-%d]-[%H-%M]", time.localtime())
store_filename = "StockNews-%s.log" % temp_time
fopen = codecs.open(store_filename, 'w', 'utf-8')


stock_news_site = "http://ggjd.cnstock.com/gglist/search/ggkx/"

my_userAgent = [
        'Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10_6_8; en-us) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1 Safari/534.50',
        'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-us) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1 Safari/534.50',
        'Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0',
        'Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.0; Trident/4.0)',
        'Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.0)',
        'Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)',
        'Mozilla/5.0 (Macintosh; Intel Mac OS X 10.6; rv:2.0.1) Gecko/20100101 Firefox/4.0.1',
        'Mozilla/5.0 (Windows NT 6.1; rv:2.0.1) Gecko/20100101 Firefox/4.0.1',
        'Opera/9.80 (Macintosh; Intel Mac OS X 10.6.8; U; en) Presto/2.8.131 Version/11.11',
        'Opera/9.80 (Windows NT 6.1; U; en) Presto/2.8.131 Version/11.11',
        'Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; Maxthon 2.0)',
        'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_7_0) AppleWebKit/535.11 (KHTML, like Gecko) Chrome/17.0.963.56 Safari/535.11',
        'Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; 360SE)',
        'Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; Trident/4.0; SE 2.X MetaSr 1.0; SE 2.X MetaSr 1.0; .NET CLR 2.0.50727; SE 2.X MetaSr 1.0)']

user_agent = random.choice(my_userAgent)
headers = {'User-Agent': user_agent, 'Host': "ggjd.cnstock.com", 
           'DNT': '1',
           'Accept': 'text/html, application/xhtml+xml, */*', }
company_news_site = stock_news_site + "0"
print company_news_site

proxy_support = urllib2.ProxyHandler({"http":"your_proxy"})
opener = urllib2.build_opener(proxy_support)
urllib2.install_opener(opener)


req = urllib2.Request(url=company_news_site, headers=headers)
resp = urllib2.urlopen(req)
html = resp.read()
#print chardet.detect(html)
soup = BS(html, "html.parser")
all_content = soup.find_all("span", "time")

#print all_content

for i in all_content:
    news_time = i.string
    node = i.next_sibling
    title = node["title"].decode(sys.getdefaultencoding()).encode(locale.getdefaultlocale()[1])
    print news_time,"    ", title, "    ", node["href"]
    str_temp = "\n%s\t%s\n---> %s \n\n" % (news_time, node['title'], node['href'])
    
    fopen.write(str_temp)

fopen.close()
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

  • Spring Cloud为开发人员提供了快速构建分布式系统中一些常见模式的工具(例如配置管理,服务发现,断路器,智...
    卡卡罗2017阅读 136,054评论 19 139
  • Python入门网络爬虫之精华版 网址: https://github.com/lining0806/Python...
    ZHANG_GO阅读 3,897评论 0 2
  • Python学习网络爬虫主要分3个大的版块:抓取,分析,存储 另外,比较常用的爬虫框架Scrapy,这里最后也详细...
    楚江数据阅读 5,319评论 0 6
  • 你问我要去向何方,我指着大海的方向…… 每年总有那么一段日子,要去海边或海上度过。 因为,只有永不平静的海,能带给...
    不露声摄阅读 3,701评论 0 8
  • 穷途末路的光明, 回过头去看已是鬼影森森的深渊, 总是在自己欺骗自己。
    花唇槿伊阅读 1,432评论 2 5

友情链接更多精彩内容