中文笔画拆解数据集

引用于github
该数据集可应用于ocr识别的中文字符纠错,ocr识别错误的中文会在笔画上相似,可以用该数据集通过编辑距离计算找到相似字符;

笔画示例


海 nnhphzznhn
每 phzznhn 45729
笔画备注:\color{#FF8C00}{三点水} 对应 \color{#FF8C00}{nnh}\color{#FF8C00}{每}对应 \color{#FF8C00}{phzznhn }

江 nnhhsh 2254
工 hsh 47101
笔画备注:\color{#FF8C00}{三点水} 对应 \color{#FF8C00}{nnh}\color{#FF8C00}{工} 对应 \color{#FF8C00}{hsh}

河 nnhhszhs 16397
可 hszhs 306919
笔画备注: \color{#FF8C00}{可}对应\color{#FF8C00}{hszhs}


数据集示例

一 h 1338743
丁 hs 11857
七 hz 14477
万 hzp 28095
丈 hpn 15697
三 hhh 58232
上 shh 501041
下 hsn 272151
不 hpsn 1011516
与 hzh 63861
丐 hshz 843
丑 zshh 5464
专 hhzn 9908
且 szhhh 54544
丕 hpsnh 68
世 hsshz 45216
丘 pshsh 3830
丙 hszpn 347
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容