标注格式(中文)
- 文本格式为 *.txt,一行文字,一行拼音。文字行句首为句子号,句子号由六位半角阿拉伯数字组成,以
Tab健隔开,后接文本内容,句尾以回车换行符结束;拼音行句首为Tab键,后接文本拼音,拼音之间以空
格分开,句尾以回车换行符结束。 - 声调:声调以 1-5 标记,1-4 对应阴平、阳平、上声、去声,5 表示轻声。
韵律标注:
中文韵律结构标注包含韵律词(#1)、韵律短语(#2)、语调短语(#3)、句末(#4)四个层级的标注。
例:
100001 该公司#1 当时#1 表示#3,将于#1 本周一#2 公布#1 正式#1 消息#4。
gai1 gong1 si1 dang1 shi2 biao3 shi4 jiang1 yu2 ben3 zhou1 yi1 gong1 bu4 zheng4 shi4 xiao1 xi5 - 声韵母边界切分:
中文切分到声韵母,标注格式为 interval 文件格式。