python第四天

匿名函数补充

我们见过的复杂排序形式
[{}, {}, {}]
[(), (), ()] 一般都是通过字典转化过来的
示例1

l1 = [{'name': '张三', 'grade': 56},
      {'name': '张三', 'grade': 90},
      {'name': '张三', 'grade': 6}]
# 按照成绩进行排序
def sort_by(w):  # w这里相当于里面的字典
    return w['grade']
l1.sort(key= sort_by)
# 等价于
l1.sort(key=lambda w:w['grade'])
print(l1)

示例2

d = {'煎饼果子': 90, '蛋炒饭': 56, '大馅水饺': 4}
# 转化成列表
# print(d.items())
# d_list = list(d)
# print(d_list) # ['煎饼果子', '蛋炒饭', '大馅水饺']
# d_list=list(d.items())
# print(d_list)
l2 = [('煎饼果子', 90), ('蛋炒饭', 56), ('大馅水饺', 4)]
# 排序
l2.sort(key=lambda x: x[1]) # x这里相当于里面的元组
print(l2)

小结案例:三国人物top10分析(补充)

逻辑引导:一般有一堆数据,要分成有用的数据counts,和没用的数据excludes,方便进行管理。

import jieba
import imageio
from wordcloud import WordCloud
# 读取文件
mask = imageio.imread('china.jpg')
with open('novel/threekingdom.txt', 'r', encoding='UTF-8') as f:
    data = f.read()
    # 分词
    words_list = jieba.lcut(data)
    print(words_list)
    print(type(words_list)) # <class 'list'>

    # 构建一个集合,定义无关词   ,用集合因为可以去重
    excludes = {"将军", "却说", "二人", "不可", "荆州", "不能", "如此", "丞相",
                "商议", "如何", "主公", "军士", "军马", "左右", "次日", "引兵",
                "大喜", "天下", "东吴", "于是", "今日", "不敢", "魏兵", "陛下",
                "都督", "人马", "不知", "孔明曰", "玄德曰", "刘备", "云长"}
                # , ""
    #构建一个容器,存储我们要的数据
    #{"夏侯渊":34,"害怕":33...}\
    counts = {}
    print(type(counts)) # <class 'dict'>
    # 遍历wordlist 目标是筛选出人名
    for word in words_list:
        # print(word)
        if len(word) <= 1:
            # 过滤无关词语即可
            continue
        else:
            # 向字典counts里更新值
            # counts[word] = 字典中原来该词出现的次数 + 1
            # counts[word] = counts[word] + 1
            # counts["正文"] = count["正文"] + 1
            counts[word] = counts.get(word, 0) + 1
    # print(counts)

    # 指向同一个词的人进行合并 , 记得把合并的词变为无关词,放到excludes中
    counts['孔明'] = counts['孔明'] + counts['孔明曰']
    counts['玄德'] = counts['玄德'] + counts['玄德曰'] + counts['刘备']
    counts['关公'] = counts['关公'] + counts['云长']

    # 删除无关的词语
    for word in excludes:
        del counts[word]

    # 排序筛选
    # 把字典转化成列表[(),()]  [{}]
    items = list(counts.items())
    print(items)
    # 按照词频次数进行排序
    items.sort(key=lambda x: x[1], reverse=True)
    print(items)
    # 显示出现词语前10的词

    role_list = []
    # role_list = ['孔明','孔明','孔明','',] # 生成的词云词语频次越多显示的越大,所以需要有这个列表
    for i in range(10):
        # 将返回的数据拆开,拆包
        role, count = items[i]
        print(role, count)
        # i 临时变量如果不需要的话可以写成 _
        # 优点是让读代码的人能够清晰的知道此处不需要使用 i
        for _ in range(count):
            role_list.append(role)

    print(role_list)
    # 将列表变成字符串
    # text = "孔明 孔明 孔明 ......刘备 刘备 刘备 曹操 曹操"
    text = " ".join(role_list)
    print(text)
    # 展示

    WordCloud(
        background_color='white',
        mask=mask,
        font_path='msyh.ttc',
        # 是否包含两个词的搭配 设置为False即可
        collocations=False
    ).generate(text).to_file('三国人物前十展示.png')

生成词云


生成词云

爬虫

爬虫

爬虫需要的技术栈

搜索引擎的本质其实是爬虫

  • 网页知识、浏览器、app爬虫
  • 基础爬虫模块:requests,lxml,beautifulSoup,正则表达式(其中requests,lxml简单易学常用)
  • 爬虫框架:scrapy爬虫框架、mongodb等nosql数据库
浏览器
  1. HTML:超文本标记语言,作用:网站的结构体、骨架,特点:以标签形式存在,大多数是以标签对形式存在。
  2. CSS:层叠样式表,作用:网站的美化。
  3. JavaScript:作用:网站的动态。javascript是解释型语言。(Ajax很有用)
    解释型语言:逐行解释 python
    编译型语言:先编译后执行 c
html

查询技术文档网址 :https://www.w3school.com.cn/
png与jpg区别:png可以透明

<!DOCTYPE html>  <!--这里的意思是‘注意以下是HTML文档’-->
<html lang="en">
<head>
    <meta charset="UTF-8">  <!--<meta> 标签提供关于 HTML 文档的元数据。它不会显示在页面上,
但是对于机器是可读的。可用于浏览器(如何显示内容或重新加载页面),搜索引擎(关键词),
或其他 web 服务。-->
    <title>Title</title>
</head>
<body>
<h1>欢迎来到王者荣耀</h1>
<!--h1 标题标签,和我们学的markdown中的#是一个意思-->
<h2>欢迎来到王者荣耀</h2>
<p>阿萨德积分拉丝看得<br/>见拉萨的会计法</p>
<!--p 段落-->
<hr width="200">
<!--hr 水平标签-->

<!--<标签名 属性1="属性值1" 属性2="属性值2" …> 内容 </标签名>-->
<!--1.标签可以拥有多个属性,必须写在开始标签中,位于标签名后面。-->

<!--2.属性之间不分先后顺序,标签名与属性、属性与属性之间均以空格分开。-->

<!--3.任何标签的属性都有默认值,省略该属性则取默认值。-->

<!--采取  键值对 的格式   key="value"  的格式  -->

<!--无序列表-->
实现点击鲁班七号或者他的头像,都可以跳转至该英雄的详细介绍页
<ul>
    <li><a href="https://pvp.qq.com/web201605/herodetail/112.shtml"><img src="https://game.gtimg.cn/images/yxzj/img201606/heroimg/112/112.jpg" alt="">鲁班七号</a></li>
    <li>狄仁杰</li>
    <li>安琪拉</li>
    <li>貂蝉</li>
</ul>
<!--有序列表-->
<ol>
    <li>后裔</li>
    <li>伽罗</li>
    <li>米莱迪</li>
</ol>
<!--div标签是一个容器,常用于div+css现代网页布局,非常常用,特点,无色无味,独占一行-->
<div>爬虫的学习先要了解网页标签的结构</div>
<div>王者荣耀英雄池</div>
<div>
    <p>哈哈哈啊哈哈哈</p>
<!--    a标签用于链接-->
    <a href="https://www.baidu.com">点击跳转至百度</a>
</div>


<!--src 和 alt 是img 标签的属性 . 在路径表达式里表示当前文件夹
/ 用于分割文件夹 alt是图片加载不出来时显示的文本-->
<!--加载本地图片-->
<img src="./image/china.jpg" alt="图片不见了">
<!--加载服务器图片-->
<img src="https://n.sinaimg.cn/news/transform/360/w680h480/20191024/715d-ihmipqw0086368.jpg" alt="">
</body>
</html>

显示效果


页面显示
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,254评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,875评论 3 387
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,682评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,896评论 1 285
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,015评论 6 385
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,152评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,208评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,962评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,388评论 1 304
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,700评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,867评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,551评论 4 335
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,186评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,901评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,142评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,689评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,757评论 2 351