Python webbrowser,requests,bs4 模块学习笔记(一)

# -*- coding: utf-8 -*-
# Version: Python 3.9.5
# Author: TRIX
# Date: 2021-09-07 11:33:01
# Use:
from logging import basicConfig,DEBUG,debug,CRITICAL,disable # Import debugging module
#disable(CRITICAL)# Remove # when the program is completed
basicConfig(level=DEBUG, format='%(levelname)s: %(message)s. [%(lineno)d]%(filename)s <%(asctime)s>',filename='debug.log',filemode='w')# Set debugging mode. Replace print() with debug()

u'str'#unicode字符
r'str'#非转义字符
b'str'#二进制字符

import webbrowser
webbrowser.open('url')#打开url网站

import requests
rget = requests.get('url')#对url发送http get 请求
rpost = requests.post('url', data = {'key':'value'})#对url发送http post 请求
rput = requests.put('url', data = {'key':'value'})#对url发送http put 请求
rdelete = requests.delete('url')#对url发送http delete 请求
rhead = requests.head('url')#对url发送http head 请求
roptions = requests.options('url')#对url发送http options 请求
paradict = {'key1': 'value1', 'key2': ['value2', 'value3']}
rget=requests.get('https://httpbin.org/get',params=paradict)#附加paradict参数发送请求 rget.url==https://httpbin.org/get?key1=value1&key2=value2&key2=value3
rget.url#url
rget.content#网页html内容 bytes字节码
rget.encoding#网页编码格式
rget.apparent_encoding#网页文本编码 先使用这句获取网页编码格式
rget.text#网页html内容
rget.status_code#网页状态码
#状态码 200 请求成功
#状态码 404 没有发现文件、查询或URl
#状态码 405 用户在Request-Line字段定义的方法不允许
try:rget.raise_for_status()#如果请求失败 引起异常 如果请求成功 就什么都不做
except Exception as e:print(e)
with open('web_text.txt','wb') as a:
    for n in rget.iter_content(100000):
        a.write()#向web_text.txt以wb模式写入网页内容 wb 二进制写入 能保存文本的unicode编码

import bs4#处理html 需要安装 pip install beautifulsoup4
html=bs4.BeautifulSoup(rget.text,'lxml')#处理html
html.prettify()#将html用易读的方式打印
html.title#<title>str</title>
html.head#<head>str</head>
url_tag=html.a#<a href=url>url_name</a>
url_tag.parent#父tag
parents_gener=url_tag.parents#该tag的所有父tag 返回生成器
url_tag.parent.name#父tag name
html.p#<p>paragraph</p>
html.p.next_sibling#和该tag同一级的下一个tag
html.p.prev_sibling#和该tag同一级的上一个tag
next_siblings_gener=html.p.next_siblings#和该tag同一级的下面所有tag 返回生成器
prev_siblings_gener=html.p.prev_siblings#和该tag同一级的上面所有tag 返回生成器
html.name#[document]
html.title.name#tag name
html.a.next_element#下一个tag 不分级
html.a.previous_element#上一个tag 不分级
next_elements_gener=html.p.next_elements#和该tag的下面所有tag 不分级 返回生成器
prev_elements_gener=html.p.prev_elements#和该tag的上面所有tag 不分级 返回生成器
html.a.attrs#属性字典 key="value"
html.attrs#属性字典 key="value"
html.a.string#tag内的单个文字
html.a.text#tag内的所有文字
html.body.string#tag内的单个文字
if isinstance(html.a.string,bs4.element.Comment):print(html.a.string)#如果是注释tag 就打印 有注释的tag会造成干扰
tags_list=html.head.contents#将内容以外层tag分别为元素 返回列表
tags_gener=html.head.children#将内容以外层tag分别为元素 返回生成器
tags_gener=html.descendants#将内容的所有tag分别为元素 返回生成器
text_strings_gener=html.strings#所有字符串分别为元素 返回生成器
text_strings_gener=html.stripped_strings#所有字符串去除空白字符后分别为元素 返回生成器

b_list=html.find_all('b')#搜当前tag的所有子tag 符合<b>的 返回 组成列表
b_list=html.find_all(re.compile(pattern))#搜当前tag的所有子tag 符合pattern的 返回 组成列表
b_list=html.find_all(list,recursive=False)#搜当前tag的所有子tag 符合list中任一元素的的 返回 组成列表 非递归 只搜tag同级 不搜子级
b_list=html.find_all(True,limit=5)#搜索当前tag的所有子tag 匹配任何值 但不会返回string  返回 组成列表 只返回5个tag
def cust_func(tag):
    return tag.has_attr('class') and not tag.has_attr('id')#如果tag含class 不含id属性 返回True 等效只找这一类型的tag
cust_list=html.find_all(cust_func,text='str')
cust_list=html.find_all(id='name')#只返回 id='name' 且string为str 的tag
cust_list=html.find_all(href=re.compile(pattern))#只返回 href=re.compile(pattern) 的tag
cust_list=html.find_all(href=re.compile(pattern1),class_=re.compile(pattern2))#只返回 href=re.compile(pattern1),class=re.compile(pattern2) 的tag
html.find()#返回一个结果 其他和find_all()相同
html.find_parents()#搜索当前tag的所有父级 其他和find_all()相同
html.find_parent()#搜索当前tag的所有父级 返回一个结果 其他和find()相同
html.find_next_siblings()#搜索当前tag的所有同级下面tag 其他和find_all()相同
html.find_next_sibling()#搜索当前tag的所有同级下面tag 返回一个结果 其他和find()相同
html.find_previous_siblings()#搜索当前tag的所有同级上面tag 其他和find_all()相同
html.find_previous_sibling()#搜索当前tag的所有同级上面tag 返回一个结果 其他和find()相同
html.find_all_next()#搜索当前tag的所有下面tag 其他和find_all()相同
html.find_next()#搜索当前tag的所有下面tag 返回一个结果 其他和find()相同
html.find_all_previous()#搜索当前tag的所有上面tag 其他和find_all()相同
html.find_previous()#搜索当前tag的所有上面tag 返回一个结果 其他和find()相同

html.select('div')#搜索<div></div> 的tag 返回list
html.select('.classname')#搜索class="classname" 的tag 返回list
html.select('#idname')#搜索 id="idname" 的tag 返回list
html.select('p #idname')#搜索 <p></p>中 所有 id="idname"的tag 返回list
html.select('head > title')#搜索 <head></head> 中 所有 <title></title> 的tag 返回list
html.select('a[class="classname"]')#搜索 <a></a> 中 所有 class="classname" 的tag 返回list
url_tags_list=html.select('a[href="url"]')#搜索 <a></a> 中 所有 href="url" 的tag 返回list
for url_tag in url_tags_list:url_tag.get_text()#返回string内容
for url_tag in url_tags_list:url_tag.get('href')#返回url内容


©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 217,907评论 6 506
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,987评论 3 395
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 164,298评论 0 354
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,586评论 1 293
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,633评论 6 392
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,488评论 1 302
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,275评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,176评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,619评论 1 314
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,819评论 3 336
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,932评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,655评论 5 346
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,265评论 3 329
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,871评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,994评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,095评论 3 370
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,884评论 2 354

推荐阅读更多精彩内容