import requests
from bs4 import BeautifulSoup
import re
jianshu_url='http://www.jianshu.com'
base_url='http://www.jianshu.com/u/54b5900965ea?order_by=shared_at&page=' #更改作者,可在此处修改?之前 /u之后的
user_agent='Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.115 Safari/537.36'
headers={'User-Agent':user_agent}
pattern='http://www.jianshu.com/users/6c7437065202/timeline' #此处/timeline 之前 /users之后的可以修改
articlePage=[]
f=open('run_write.txt','w',encoding='utf-8')
# articleList=[]
def download_page():
i = 1
while True:
r=requests.get(base_url+str(i),headers=headers)
articlePage.append(r.url)
if(r.url==pattern):break #判断出是否已经到达最后一个请求页面,如果是,则结束
print('这是第{}个请求的网页'.format(i))
i += 1
get_article_from_page(r.url)
def get_article_from_page(url):
r=requests.get(url,headers=headers)
soup=BeautifulSoup(r.text,'lxml')
articleList=soup.find_all('li',id=re.compile(r'note-\d+'))
for i in range(len(articleList)):
articleTitle = articleList[i].find('a', class_='title').text
articleUrl=jianshu_url+articleList[i].find('a',class_='title')['href']
print(articleTitle+5*' '+articleUrl)
download_page()
爬取某作者所有文章及链接
最后编辑于 :
©著作权归作者所有,转载或内容合作请联系作者
- 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
- 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
- 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
推荐阅读更多精彩内容
- 一、先说整体的解决方案 1、通过搜狗进行公众号文章的采集,这样获取到的文章URL是一个带时间戳的临时链接。 2、通...
- 我的回答是,视情况而定。 如果我主动让座,请记住,是因为我尊敬长者,尊敬您的行为,而不是年龄。是因为,我希望我的父...