Python爬虫简单的代码总结

这里只是一个简单的Python爬虫demo,主要是做个笔记,以后自己用到的时候,方便查询,如果有幸能帮助的小伙伴,那就更好了。
import time

from selenium import webdriver

import re

# 定义函数,参数设置为公司company, 目的是URL地址的时候接入不同的公司名称,爬取不同的公司信息

def eastmoney(company):

chrome_options = webdriver.ChromeOptions()

chrome_options.add_argument('--headless')

browser = webdriver.Chrome(options=chrome_options)

url ='https://so.eastmoney.com/news/s?keyword=' + company

browser.get(url)

data = browser.page_source

browser.quit()

p_title = '<div class="news-item"><h3><a href=".*?">(.*?)</a>'

p_href = '<div class="news-item"><h3><a href="(.*?)">.*?</a>'

p_date = '<p class="news-desc">(.*?) - .*?</p>'

title = re.findall(p_title, data)

href = re.findall(p_href, data)

date = re.findall(p_date, data, re.S)

for iin range(len(title)):

title[i] = re.sub('<.*?>', '', title[i])

date[i] = date[i].split(' ')[0]

print(str(i +1) +"." + title[i] +'  ' + date[i])

print(href[i])

companys = ['华能信托', '阿里巴巴', '腾讯控股', '京东']

for iin companys:

try:

eastmoney(i)

print(i +'该公司数据爬取成功')

except:

print(i +'该公司的数据爬取失败')

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容