标贝语音数据集标注格式(中文)

标注格式(中文)

  1. 文本格式为 *.txt,一行文字,一行拼音。文字行句首为句子号,句子号由六位半角阿拉伯数字组成,以
    Tab健隔开,后接文本内容,句尾以回车换行符结束;拼音行句首为Tab键,后接文本拼音,拼音之间以空
    格分开,句尾以回车换行符结束。
  2. 声调:声调以 1-5 标记,1-4 对应阴平、阳平、上声、去声,5 表示轻声。
    韵律标注:
    中文韵律结构标注包含韵律词(#1)、韵律短语(#2)、语调短语(#3)、句末(#4)四个层级的标注。
    例:
    100001 该公司#1 当时#1 表示#3,将于#1 本周一#2 公布#1 正式#1 消息#4。
    gai1 gong1 si1 dang1 shi2 biao3 shi4 jiang1 yu2 ben3 zhou1 yi1 gong1 bu4 zheng4 shi4 xiao1 xi5
  3. 声韵母边界切分:
    中文切分到声韵母,标注格式为 interval 文件格式。
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容