1 HTML 超文本标记语言
HTML是www(internet)信息的主要组织方式。可以将声音图像视频或者文本嵌入到超文本当中。
HTML通过预定义<>........</>的标签,组织不通类型的信息。
1 XML 可扩展标记语言 用<>..</> 尖括号或者标签来表达标记的形式。
XML是HTML的扩展,html是xml的一种特殊形式,xml是html发展以来的一种通用表达形式
xml 当标签内有内容用一对标签来表达信息,当标签内没有内容用一对</>来表达信息,而且还可以注释。
2 JSON 格式 有类型的键值对 key:value 键值对之间可以嵌套使用,值有多个类型用[].
JSON 有类型的键值对 key:value 表达信息的组织形式。适合程序直接使用
无论键或者值之间都需要用“”双引号来表达他的类型。
3 YAML 表达并列关系
YAML 无类型的键值对 key:value 表达信息的组织形式。更适合人类理解,也适合程序直接使用。
XML 最早的通用信息标记语言,可扩展性好,但是繁琐。
主要应用于: Internet 上的信息交互与传递。
JSON 信息有类型,适合程序处理(JS),较XML简洁。有JavaScript语言扩展而来。
主要应用于: 移动应用云端和节点的信息通信,无注释。 用在程序对接口处理的地方。
最大的价值是:json数据经过传输之后,可以作为代码的一部分,并被代码直接运行, 缺陷是无法注释。
YAML 信息无类型 文本信息(有效信息)比例最高,可读性好。
YAML 主要应用于各类系统的配置文件当中,有注释,易读。
信息标记与提取方式:
信息提取的一般方法:
<>.find_all(name,attrs,recursive,string,**kwargs)
<tag>(..) 等价于 <tag>.find_all(..)
soup(..) 等价于 soup.find_all(..)