CSV(来源于百度百科)
逗号分隔值(Comma-Separated Values,CSV,有时也称为字符分隔值,因为分隔字符也可以不是逗号),其文件以纯文本形式存储你表格数据(数字和文本)。文本意味着该文件是一个字符序列,不含必须像二进制数字那样被解读的数据。CSV文件由任意数目的记录组成,记录间以某种换行符分隔;每条记录由字段组成,字段间的分隔符是其他字符或字符串,最常见的是逗号或制表符。通常搜索记录都有完全相同的字段序列。通常都是纯文本文件。
使用pandas科学计算库读取并处理CSV文件
# -*- coding:utf-8 -*-
import pandas as pd
VIDEO_INFO_PATH = '/home/rjzz/dataset/video/MSVD/MSR Video Description Corpus.csv'
# Series & DataFrame是Pandas中最常用的两个对象
# Series
if __name__ == '__main__':
video_info = pd.read_csv(VIDEO_INFO_PATH)
# shape 可以得到行数和列数
print(video_info.shape)
# index保存行索引,columns保存列索引
print(video_info.columns)
print(video_info.columns.name)
# 行索引是一个表示多级索引的MultiIndex对象,每级的索引名可以通过names属性存取
print(video_info.index)
print(video_info.index.names)
# DataFrame对象有两个轴,第0轴为纵轴,第一轴为横轴
# []运算符可以通过索引标签获取指定的列,当下标是单个标签时,所得到的是Series对象
# 而当下标是列表时,则得到一个DataFrame对象
video_id = video_info['VideoID']
video_object = video_info[['VideoID', 'Start', 'End']]
# 进行去重操作
video_object = video_object.drop_duplicates()
print(video_object)
print(video_object.values)
# video_test = video_info[video_info['VideoID'].unique()]
# .loc[]可通过索引标签获取指定的行,或指定行的某个元素
# 因为这里没有行索引,所以这里报错video_one = video_info.loc['mv89psg6zh4']
s = pd.Series([1, 2, 3, 4, 5], index=["a", "b", "c", "d", "e"])
print(u" index", s.index)
print(u" values", s.values)
print(s[1:3])
print(s['b':'d'])