需求描述:
利用requests库分别完成香港联交所(编号10801,用于file_id)的爬取。
香港联交所地址:http://www.hkexnews.hk/listedco/listconews/advancedsearch/search_active_main_c.aspx
input:外部输入一个时间段(begin_date,end_date,均为int格式),和文件预计保存的根目录,如r‘D:\pdf’
output:对爬取的结果进行解析,最终提交一个Dataframe数据,该frm数据包含以下字段:
announce_date:文件发布日期,为字符串类型,如“2018-09-22”
short_company_name:公司简称
trade_code:公司代码,如果没有,为空
pdf_title:文件名称
url_path:文件的网络地址,可以从此地址直接下载
file_id:文件的id,唯一,由三块组成,例如10102201809060,前面的10102指的是上交所监管问询意见函,中间的20180906指的是发布时间,后面的0是指从0开始0,1,2,3…10,11…依次编号。
file_path:文件预计要保存的本地地址,由文件时间目录+文件名组成,例如:r‘\2018\09\06\10801201809060.pdf’
status:状态码,默认"100"
download_date:为空
full_company_name:为空
此外,需要对结果按照url_path去重。
开发语言:python3
验收标准:
1.提交代码(包含根据当天时间完成的每日更新)。
2.提交数据:2013-01-01~2018-10-22这部分的数据(DataFrame格式)。
3.提交截图:网页显示的2013-01-01~2018-10-22这段时间数据总数和抓取下来的总数相同。
截止时间:
2018-10-25 22:00
报价:200元