按字节读文件

在读取手写藏文字符数据集的时候,下载下来的文件是.pot文件,一开始以为是ppt的模块文件,后来发现ppt打不开这种文件,重读官网数据集说明,发现了下图:


图片来自http://www.csdata.org/en/p/19/

可以看出来,这个pot文件是自定义的文件格式,里面的数据按2B存储,因此读数据也要每次两个字节这样来读

with open(filename,'rb',True) as f:
    content = f.read()

由图可知,每个pot文件中的每个藏文字符的坐标点结束后的坐标是(-1,-1),每个藏文字符的每个笔画结束后的坐标是(-1,0)。b'\xff\xff\xff\xff'正是-1,-1

allData = content[:]
characters = allData.split(b'\xff\xff\xff\xff')[:-1]

for character in characters:
    count += 1
    code = int.from_bytes(character[2:4],byteorder='little') #两个字节两个字节的读
    codes.append(code)
    pointBytes = character[6:]
    length = len(pointBytes)
    print(code)
    points = []
    for i in range(math.ceil(length/2)):
        points.append(int.from_bytes(pointBytes[2*i:2*i+2],byteorder='little'))
       #两个字节两个字节的读
    pl = np.array(points).reshape(-1,2)
    #一笔一笔地将藏文字符画出来
    plt.figure(count)
    ac = plt.gca()  
    op = []
    for p in pl:
        if(p[0]==65535):
            op = np.array(op)
            ac.set_xlim([op[:,0].min()-40,op[:,0].max()+40])
            ac.set_ylim([op[:,1].min()-40,op[:,1].max()+40])
            plt.plot(op[:,0],op[:,1],c='r',linewidth='1')
            op = []
        else:
            p[1] = -1*p[1]
            op.append(list(p))
    plt.show()
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • ORA-00001: 违反唯一约束条件 (.) 错误说明:当在唯一索引所对应的列上键入重复值时,会触发此异常。 O...
    我想起个好名字阅读 5,481评论 0 9
  • 官网 中文版本 好的网站 Content-type: text/htmlBASH Section: User ...
    不排版阅读 4,509评论 0 5
  • 一、Python简介和环境搭建以及pip的安装 4课时实验课主要内容 【Python简介】: Python 是一个...
    _小老虎_阅读 5,876评论 0 10
  • 读研的时候想的很简单,觉得毕业就会有一个类似老师一样的工作,然后安逸一辈子。三年的时间可以改变很多,不善人际...
    小坎儿阅读 211评论 0 1
  • 虽然明天还有最后一天,后天就要开会了,这时候千万不能慌,抓重点,提高效率,同时监督整体进度。每个科目像显微镜一样审...
    阿童木Serena阅读 520评论 0 1