Python 练习册 0007、0008题 (网页分析)

第 0008 题:一个HTML文件,找出里面的正文。

第 0009 题:一个HTML文件,找出里面的链接。

import requests
from bs4 import BeautifulSoup


def get_content(page_url):
    web_data = requests.get(page_url)
    soup = BeautifulSoup(web_data.content, 'lxml')
    contents = soup.select('div.show-content')

    result = ''
    for content in contents:
        result += content.get_text()
    print(result)
    return result


def get_href(page_url):
    web_data = requests.get(page_url)
    soup = BeautifulSoup(web_data.content, 'lxml')
    a_tags = soup.find_all('a')

    href_list = []
    for a_tag in a_tags:
        href = a_tag.get('href')
        if href:
            print(a_tag.get('href'))
            href_list.append(href)
    print(href_list)
    return href_list


page_url = 'http://www.jianshu.com/p/40fc848414ea'
get_href(page_url=page_url)
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • Android 自定义View的各种姿势1 Activity的显示之ViewRootImpl详解 Activity...
    passiontim阅读 172,896评论 25 708
  • 声明:本文讲解的实战内容,均仅用于学习交流,请勿用于任何商业用途! 一、前言 强烈建议:请在电脑的陪同下,阅读本文...
    Bruce_Szh阅读 12,763评论 6 28
  • 当我打开电脑,打算着笔写下各中脉络的时候,才意识到恋人的名字是被施了魔咒的。哪怕你们之间已经没有任何关系了,也任没...
    囚先生阅读 1,518评论 0 1
  • 今天,妈妈和爷爷带我去医院拔牙。给我拔牙的是一位阿姨,妈妈抱我躺到椅子上,我把嘴巴张大,阿姨拿了棉花涂了牙齿...
    小哈妹阅读 180评论 0 1
  • D24. 疯帽先生群-34-康康 十块钱可以买很多种东西,何况是中国制造往中国创造的路上。所以。。。。。。
    Mable康康阅读 216评论 0 0