第六章:组合数据类型

A、组合数据类型概述


计算机不仅对单个变量表示的数据进行处理,更多情况,计算机需要对一组数据进行批量处理。例:

给定一组单词{python, data, function, list, loop},计算并输出每个单词的长度;

给定一个学院学生信息,统计一下男女生比例;

一次实验产生了很多组数据,对这些大量数据进行分析。

组合数据类型能够将多个同类型或不同类型的数据组织起来,通过单一的表示使数据操作更有序更容易

根据数据之间的关系,组合数据类型可以分为三类:

        序列类型集合类型映射类型

序列类型是一个元素向量,元素之间存在先后关系,通过序号访问,元素之间不排他。

集合类型是一个元素集合,元素之间无序,相同元素在集合中唯一存在。

映射类型是“键-值”数据项的组合,每个元素是一个键值对,表示为(key, value)。


联系


B、集合类型和操作


集合类型与数学中集合的概念一致,即包含0个或多个数据项的无序组合

集合中元素不可重复

集合中,元素类型只能是固定数据类型,例如:整数、浮点数、字符串、元组等。

列表、字典和集合类型本身都是可变数据类型,不能作为集合的元素出现。

由于集合是无序组合,它没有索引和位置的概念,不能分片。

集合用大括号({})表示,元素间用,分隔。

集合中元素可以动态增加或删除

建立集合类型: {} 和set()函数

建立空集合类型:必须使用set()

举例

由于集合元素是无序的,集合的打印效果与定义顺序可以不一致。

由于集合元素独一无二,使用集合类型能够过滤掉重复元素

上述操作符表达了集合类型的4种基本操作:

交集(&)、并集(|)、差集(-)、补集(^),操作逻辑与数学定义相同

集合类型有10个操作符    
集合类型有10个操作符    

集合类型的应用场景包含关系的比较

用集合数据表达这组数据,然后用其他元素与之比较

关系的比较

数据去重(进行数据重复处理)

集合类型与其他类型最大的不同在于它不包含重复元素


数据去重


C、序列类型和操作


1.序列类型

序列是具有先后关系的一组元素

序列是一维元素向量

元素可以相同(有位置信息)

元素类型可以不同

类似数学中的S0 , S1 ,…, Sn-1 , Sn

元素间由序号引导,通过下标访问序列中的特定元素

由于元素之间存在顺序关系,所以序列中可以存在相同数值但位置不同的元素

序列类型支持成员关系操作符(in)长度计算函数(len())分片([])元素本身也可以是序列类型。

序列类型是一个基类类型,Python语言中有很多数据类型都是序列类型

str(字符串) :单一字符的有序组合

tuple(元组):包含0个或多个数据项的不可变序列类型。元组生成后是固定的,其中任何数据项不能替换或删除。

list(列表):一个可以修改数据项的序列类型,使用也最灵活。

排序


2.序列处理函数及方法

序列类型有7个通用的操作符  
操作符  举例
序列类型有5个通用函数

注意:不同类不能比


D、元组类型和操作


元组(tuple)是序列类型中比较特殊的类型,因为它一旦创建就不能被修改

创建:使用()或tuple()

元组中元素用,分隔。

可以使用或者不使用小括号

构成
举例1
举例2

元组类型在表达固定数据项函数多返回值多变量同步赋值循环遍历等情况下十分有用。

举例

元组中元素不可变,除了序列类型的通用函数和方法,无特殊操作。


E、列表类型和操作


1.列表类型的概念

列表(list)是包含0个或多个对象引用的有序序列,属于序列类型。

与元组不同,列表的长度和内容都是可变的,可自由对列表中数据项进行增加、删除或替换。

列表没有长度限制,元素类型可以不同,使用非常灵活。

列表属于序列类型,所以列表也支持成员关系操作符(in)、长度计算函数(len())、分片([])。

列表可以同时使用正向递增序号和反向递减序号,可以采用标准的比较操作符(<、<=、==、!=、>=、>)进行比较,列表的比较实际上是单个数据项的逐个比较。

列表用中括号([])表示,元素间用,分隔。

创建:使用[]或list()函数

list()函数可将元组或字符串转化成列表。直接使用list()函数会返回一个空列表。不会生成新的列表对象。

举例

即:方括号[]真正创建与整数和字符串不同,列表要处理一组数据,因此列表必须通过显式的数据赋值才能生成,简单将一个列表赋值给另一个列表一个列表,赋值仅仅传递引用。

举例

2.列表类型的操作

列表类型的操作  
举例
举例

当使用一个列表改变另一个列表值时,Python不要求两个列表长度一样,但遵循“多增少减”的原则。

举例
列表类型的操作  
举例

与元组一样,列表可以通过for…in语句对其元素进行遍历,基本语法结构如下:

  for  <任意变量名>  in <列表名>:

     语句块

元素进行遍历

列表是一个十分灵活的数据结构,它具有处理任意长度、混合类型的能力,并提供了丰富的基础操作符和方法。当程序需要使用组合数据类型管理批量数据时,请尽量使用列表类型。

3.序列类型应用场景

元组用于元素不改变的应用场景,更多用于固定搭配场景

列表更加灵活,是最常用的序列类型

最主要的作用:表示一组有序数据,进而操作它们

数据保护:如果不希望数据被程序所修改,转换为元组类型

4.序列特点

序列是元素的有序组合

序列是基类,扩展类型包括:字符串、元组、和列表

元组用()或者tuple()创建,列表用[]或者list()创建

元组操作和序列操作基本相同

列表操作在序列操作基础上,增加了更多的灵活性


F、映射类型


映射类型是“键-值”数据项的组合,或者叫索引和数据的对应。-- 属性&数据的对应关系

每个元素是一个键值对,即元素是一个二元关系(key, value),元素之间是无序的。

映射类型

在Python中,映射类型主要以字典(dict)体现。

字典

字典类型的计算

1.字典类型的基本概念

通过任意键信息查找一组数据中值信息的过程叫映射,Python语言中通过字典实现映射。

字典可以通过大括号({})和dict()建立,建立模式如下:

{<键1>:<值1>,… , <键n>:<值n>}

其中,键和值通过冒号连接,不同键值对通过逗号隔开。

字典打印

字典打印出来的顺序与创建之初的顺序可能不同。

字典是集合类型的延续,各个元素并没有顺序之分。

字典是元素为键值对的集合

字典最主要的用法是查找与特定键相对应的值,通过索引符号来实现。

一般来说,字典中键值对的访问模式如下,采用中括号格式:       <值> = <字典变量>[<键>]

字典中对某个键值的修改可以通过中括号的访问和赋值实现。

通过中括号([])可以增加新的元素

举例

直接使用大括号({})可以创建一个空的字典,并通过中括号([])向其增加元素。

举例

2.字典类型的操作

字典类型的操作  
举例
字典类型的操作    
举例

与其他组合类型一样,字典可以通过for…in语句对其元素进行遍历,基本语法结构如下:

  for   <索引值>  in  <字典名>:

          语句块

举例

3.字典类型的应用场景

字典的最主要应用场景:对映射的表达

        映射无处不在,键值对无处不在

        例如:统计数据出现的次数,数据是键,次数是值à(数据,出现次数)

        最主要作用:表达键值对数据,进而操作它们


字典是实现键值对映射的数据结构,请理解如下基本原则:

    字典类型使用{} 和 dict()创建

    字典是一个键值对(key: value)的集合,该集合以键为索引,一个键信息只对应一个值信息;-- 1:1

    字典中元素以键信息为索引访问(d[key]);

    字典长度是可变的,可以通过对键信息赋值实现增加或修改键值对(d[key] = …)。

    有一批操作方法和函数,最重要的是.get()


G、jieba库的使用


1.jieba库的概述

中文分词问题:中文单词之间没有分隔符

jieba是Python中一个重要的第三方中文分词函数库

举例

jieba库是第三方库,不是安装包自带,需要通过pip指令安装

使用cmd命令行

pip install jieba 或者 pip3 install jieba

2.jieba库的功能

分词原理:将待分词的内容与中文词库进行对比

功能:

    分词

    用户添加自定义的中文单词

三种分词模式:

    精确模式:精确切分,完整且不多余地组成原始文本 – 最常用

    全模式:把句子中所有可以成词的词语都扫描出来,但是冗余性最大

    搜索引擎模式:首先执行精确模式,然后再对其中的长词进一步切分

分词函数
函数


H、文本词频统计


英文:

    单词分词简单

    有大小写、标点符号等特殊符号        ––        文本的噪音处理

中文:

    词语分词麻烦 –– jieba库

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,752评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,100评论 3 387
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 159,244评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,099评论 1 286
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,210评论 6 385
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,307评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,346评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,133评论 0 269
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,546评论 1 306
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,849评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,019评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,702评论 4 337
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,331评论 3 319
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,030评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,260评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,871评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,898评论 2 351

推荐阅读更多精彩内容