A、组合数据类型概述

计算机不仅对单个变量表示的数据进行处理，更多情况，计算机需要对一组数据进行批量处理。例：

给定一组单词{python, data, function, list, loop}，计算并输出每个单词的长度；

给定一个学院学生信息，统计一下男女生比例；

一次实验产生了很多组数据，对这些大量数据进行分析。

组合数据类型能够将多个同类型或不同类型的数据组织起来，通过单一的表示使数据操作更有序更容易

根据数据之间的关系，组合数据类型可以分为三类：

序列类型、集合类型和映射类型。

序列类型是一个元素向量，元素之间存在先后关系，通过序号访问，元素之间不排他。

集合类型是一个元素集合，元素之间无序，相同元素在集合中唯一存在。

映射类型是“键-值”数据项的组合，每个元素是一个键值对，表示为(key, value)。

联系

B、集合类型和操作

集合类型与数学中集合的概念一致，即包含0个或多个数据项的无序组合。

集合中元素不可重复。

集合中，元素类型只能是固定数据类型，例如：整数、浮点数、字符串、元组等。

列表、字典和集合类型本身都是可变数据类型，不能作为集合的元素出现。

由于集合是无序组合，它没有索引和位置的概念，不能分片。

集合用大括号（{}）表示，元素间用，分隔。

集合中元素可以动态增加或删除。

建立集合类型： {} 和set()函数

建立空集合类型：必须使用set()

举例

由于集合元素是无序的，集合的打印效果与定义顺序可以不一致。

由于集合元素独一无二，使用集合类型能够过滤掉重复元素。

上述操作符表达了集合类型的4种基本操作：

交集（&）、并集（|）、差集（-）、补集（^），操作逻辑与数学定义相同

集合类型有10个操作符

集合类型的应用场景包含关系的比较

用集合数据表达这组数据，然后用其他元素与之比较

关系的比较

数据去重（进行数据重复处理）

集合类型与其他类型最大的不同在于它不包含重复元素

数据去重

C、序列类型和操作

1．序列类型

序列是具有先后关系的一组元素

序列是一维元素向量

元素可以相同（有位置信息）

元素类型可以不同

类似数学中的S0 , S1 ,…, Sn-1 , Sn

元素间由序号引导，通过下标访问序列中的特定元素

由于元素之间存在顺序关系，所以序列中可以存在相同数值但位置不同的元素。

序列类型支持成员关系操作符（in）、长度计算函数（len()）、分片（[]），元素本身也可以是序列类型。

序列类型是一个基类类型，Python语言中有很多数据类型都是序列类型：

str(字符串) ：单一字符的有序组合

tuple(元组)：包含0个或多个数据项的不可变序列类型。元组生成后是固定的，其中任何数据项不能替换或删除。

list(列表)：一个可以修改数据项的序列类型，使用也最灵活。

排序

2.序列处理函数及方法

序列类型有7个通用的操作符

操作符举例

序列类型有5个通用函数

注意：不同类不能比

D、元组类型和操作

元组（tuple）是序列类型中比较特殊的类型，因为它一旦创建就不能被修改。

创建：使用（）或tuple（）

元组中元素用，分隔。

可以使用或者不使用小括号

构成

举例1

举例2

元组类型在表达固定数据项、函数多返回值、多变量同步赋值、循环遍历等情况下十分有用。

举例

元组中元素不可变，除了序列类型的通用函数和方法，无特殊操作。

E、列表类型和操作

1.列表类型的概念

列表（list）是包含0个或多个对象引用的有序序列，属于序列类型。

与元组不同，列表的长度和内容都是可变的，可自由对列表中数据项进行增加、删除或替换。

列表没有长度限制，元素类型可以不同，使用非常灵活。

列表属于序列类型，所以列表也支持成员关系操作符（in）、长度计算函数（len()）、分片（[]）。

列表可以同时使用正向递增序号和反向递减序号，可以采用标准的比较操作符（<、<=、==、!=、>=、>）进行比较，列表的比较实际上是单个数据项的逐个比较。

列表用中括号（[]）表示，元素间用，分隔。

创建：使用[]或list()函数

list()函数可将元组或字符串转化成列表。直接使用list()函数会返回一个空列表。不会生成新的列表对象。

举例

即：方括号[]真正创建与整数和字符串不同，列表要处理一组数据，因此列表必须通过显式的数据赋值才能生成，简单将一个列表赋值给另一个列表一个列表，赋值仅仅传递引用。

举例

2.列表类型的操作

列表类型的操作

举例

当使用一个列表改变另一个列表值时，Python不要求两个列表长度一样，但遵循“多增少减”的原则。

举例

列表类型的操作

举例

与元组一样，列表可以通过for…in语句对其元素进行遍历，基本语法结构如下：

for <任意变量名> in <列表名>:

语句块

元素进行遍历

列表是一个十分灵活的数据结构，它具有处理任意长度、混合类型的能力，并提供了丰富的基础操作符和方法。当程序需要使用组合数据类型管理批量数据时，请尽量使用列表类型。

3.序列类型应用场景

元组用于元素不改变的应用场景，更多用于固定搭配场景

列表更加灵活，是最常用的序列类型

最主要的作用：表示一组有序数据，进而操作它们

数据保护：如果不希望数据被程序所修改，转换为元组类型

4.序列特点

序列是元素的有序组合

序列是基类，扩展类型包括：字符串、元组、和列表

元组用()或者tuple()创建，列表用[]或者list()创建

元组操作和序列操作基本相同

列表操作在序列操作基础上，增加了更多的灵活性

F、映射类型

映射类型是“键-值”数据项的组合，或者叫索引和数据的对应。-- 属性&数据的对应关系

每个元素是一个键值对，即元素是一个二元关系(key, value)，元素之间是无序的。

映射类型

在Python中，映射类型主要以字典（dict）体现。

字典

字典类型的计算

1.字典类型的基本概念

通过任意键信息查找一组数据中值信息的过程叫映射，Python语言中通过字典实现映射。

字典可以通过大括号({})和dict()建立，建立模式如下：

{<键1>:<值1>,… , <键n>:<值n>}

其中，键和值通过冒号连接，不同键值对通过逗号隔开。

字典打印

字典打印出来的顺序与创建之初的顺序可能不同。

字典是集合类型的延续，各个元素并没有顺序之分。

字典是元素为键值对的集合

字典最主要的用法是查找与特定键相对应的值，通过索引符号来实现。

一般来说，字典中键值对的访问模式如下，采用中括号格式： <值> = <字典变量>[<键>]

字典中对某个键值的修改可以通过中括号的访问和赋值实现。

通过中括号（[]）可以增加新的元素

举例

直接使用大括号（{}）可以创建一个空的字典，并通过中括号（[]）向其增加元素。

举例

2.字典类型的操作

字典类型的操作

举例

字典类型的操作

举例

与其他组合类型一样，字典可以通过for…in语句对其元素进行遍历，基本语法结构如下：

for <索引值> in <字典名>:

语句块

举例

3.字典类型的应用场景

字典的最主要应用场景：对映射的表达

映射无处不在，键值对无处不在

例如：统计数据出现的次数，数据是键，次数是值à（数据，出现次数）

最主要作用：表达键值对数据，进而操作它们

字典是实现键值对映射的数据结构，请理解如下基本原则：

字典类型使用{} 和 dict()创建

字典是一个键值对(key: value)的集合，该集合以键为索引，一个键信息只对应一个值信息；-- 1:1

字典中元素以键信息为索引访问（d[key]）；

字典长度是可变的，可以通过对键信息赋值实现增加或修改键值对（d[key] = …）。

有一批操作方法和函数，最重要的是.get()

G、jieba库的使用

1.jieba库的概述

中文分词问题：中文单词之间没有分隔符

jieba是Python中一个重要的第三方中文分词函数库

举例

jieba库是第三方库，不是安装包自带，需要通过pip指令安装

使用cmd命令行

pip install jieba 或者 pip3 install jieba

2.jieba库的功能

分词原理：将待分词的内容与中文词库进行对比

功能：

分词

用户添加自定义的中文单词

三种分词模式：

精确模式：精确切分，完整且不多余地组成原始文本 – 最常用

全模式：把句子中所有可以成词的词语都扫描出来，但是冗余性最大

搜索引擎模式：首先执行精确模式，然后再对其中的长词进一步切分

分词函数

函数

H、文本词频统计

英文：

单词分词简单

有大小写、标点符号等特殊符号 –– 文本的噪音处理

中文：

词语分词麻烦 –– jieba库

第六章：组合数据类型