2018年1月28日
Emerson_G
《全唐诗》是唐代诗歌全面的收录,全书包括四万多首诗词,两千多位作者,非常好地覆盖了唐朝知名的诗歌。
这里整理了一份全唐诗的结构化的语料,包括简体版本和繁体版本的一一对照。
全唐诗总计900卷,每首诗的结构包括标题、作者、诗三部分。其中“卷七百九十五”和“卷七百九十六”是辑录的“佚句”,只是零散的句子,没有作者或独立成篇。所以,处理的时候,这两卷没做处理。
附语料地址:https://github.com/dream-catcher/learning_blogs/tree/master/Quantangshi_Corpus
结构化格式
整理的结构化JSON信息格式如下:
[
"index", #索引id
"volume_num",#原书的“卷名”
"simplified_author", #简体版作者
"simplified_title", #简体版标题
"simplified_poem", #简体版诗正文
"simplified_poem_orig",#简体版诗原始正文
"tradtional_author", #繁体版作者
"tradtional_title", #繁体版标题
"tradtional_poem", #繁体版诗
"tradtional_poem_orig" #繁体版诗原始正文
]
默认情况下,simplified_poem_orig及tradtional_poem_orig两个字段为null。
如果原始的诗正文中包含说明文字,如括号内的说明或破折号说明联句的作者这类情况,已经对这类句子进行了清洗,把清洗后的诗正文放在simplified_poem及tradtional_poem两个位置,而原始正文放在simplified_poem_orig及tradtional_poem_orig位置。
简单统计
整理的唐诗总计41560首,2317位诗人,简单的统计如下:
白居易:2620
杜甫:1144
李白:847
齐己:779
无名氏:765
刘禹锡:694
元稹:588
贯休:546
韦应物:543
李商隐:530
陆龟蒙:518
许浑:507
刘长卿:502
皎然:492
杜牧:490
罗隐:468
姚合:455
张籍:445
钱起:429
贾岛:401
孟郊:391
岑参:386
王建:379
韩愈:368
张祜:360
皮日休:353
王维:345
温庭筠:343
权德舆:338
方干:336