Python有许多可以读写常见的HTML和XML格式数据的库,包括lxml、Beautiful Soup和html5lib。lxml的速度比较快,但其它的库处理有误的HTML...
Python有许多可以读写常见的HTML和XML格式数据的库,包括lxml、Beautiful Soup和html5lib。lxml的速度比较快,但其它的库处理有误的HTML...
JSON(JavaScript Object Notation的简称)已经成为通过HTTP请求在Web浏览器和其他应用程序之间发送数据的标准格式之一。它是一种比表格型文本格式...
大部分存储在磁盘上的表格型数据都能用pandas.read_table进行加载。然而,有时还是需要做一些手工处理。由于接收到含有畸形行的文件而使read_table出毛病的情...
pandas提供了一些用于将表格型数据读取为DataFrame对象的函数。表6-1对它们进行了总结,其中read_csv和read_table可能会是你今后用得最多的。 我将...
还有一类方法可以从一维Series的值中抽取信息。看下面的例子: 第一个函数是unique,它可以得到Series中的唯一值数组: 返回的唯一值是未排序的,如果需要的话,可以...
有些汇总统计(如相关系数和协方差)是通过参数对计算出来的。我们来看几个DataFrame,它们的数据来自Yahoo!Finance的股票价格和成交量,使用的是pandas-d...
pandas对象拥有一组常用的数学和统计方法。它们大部分都属于约简和汇总统计,用于从Series中提取单个值(如sum或mean)或从DataFrame的行或列中提取一个Se...
根据条件对数据集排序(sorting)也是一种重要的内置运算,要对行或列索引进行排序(按字典顺序),可使用sort_index方法,它将返回一个已排序的新对象: 对于Data...
NumPy的ufuncs(元素级数组方法)也可用于操作pandas对象: 另一个常见的操作时,将函数应用到由各列或行所形成的一维数组上。DataFrame的apply方法即可...
pandas最重要的一个功能是,它可以对不同索引的对象进行算术运算。在将对象相加时,如果存在不同的索引对,则结果的索引就是该索引对的并集。对于有数据库经验的用户,这就像在索引...
对于DataFrame的行的标签索引,我引入了特殊的标签运算符loc和iloc。它们可以让你用类似NumPy的标记,使用轴标签(loc)或整数索引(iloc),从DataFr...
Series索引(obj[...])的工作方式类似于NumPy数组的索引,只不过Series的索引值不只是整数。下面是几个例子: 利用标签的切片运算与普通的Python切片运...
丢弃某条轴上的一个或多个项很简单,只要有一个索引数组或列表即可。由于需要执行一些数据整理和集合逻辑,所以drop方法返回的是一个在指定轴上删除了指定值的新对象: 对于Data...
pandas对象的一个重要方法是reindex,其作用是创建一个新对象,它的数据符合新的索引。看下面的例子: 用该Series的reindex将会根据新索引进行重排。如果某个...
pandas的索引对象负责管理标签和其他元数据(比如轴名称等)。构建Series或DataFrame时,所用到的任何数组或其他序列的标签都会被转换成一个Index: Inde...
DataFrame是一个表格型的数据结构,它含有一组有序的列,每列可以是不同的值类型(数值、字符串、布尔值等)。DataFrame中的数据是以一个或多个二维块存放的(而不是列...
@何沉 有道理
你的空赞,我不需要!刚刚好不容易更完一篇文章,发表后,居然有十多条消息,看到这么多小红点,不知道有多开心。 点进去一看,哇,这么多赞,再一看,怎么都是同一个人点赞,他的能量条没有限制吗? 突然想...
pandas主要有两个数据结构:Series和DataFrame。虽然它们并不能解决所有问题,但它们为大多数应用提供了一种可靠的、易于使用的基础。 Series Series...
概率派和朴素贝叶斯派 概率 推动概率论 概率相比大家都学习过,但是大家可能还不知道概率背后是可重复性。我们还是拿最简单最经典的示例,也就是投硬币大家都知道只要我们做足够多一次...