拼写纠正与噪音通道

纠正拼写任务

1、拼写任务

  • 发现拼写错误
  • 纠正拼写错误
    • 自动纠正
    • 给出纠正建议(一个词)
    • 给出纠正建议(一些词)

2、拼写错误的类型

  • 拼写出来的不是单词(Non-word spelling errors):错误的单词不存在词典中;比如 graffe——giraffe
  • 拼写出来的是另一个单词(real-word erros):拼写错误,错误的单词存在于字典中
    • 打字(Typographical)错误:three——threr
    • 认知错误(同音异性):too——two

3、拼写出来的不是单词的错误(non-word spelling errors)

  • 错误发现:预先有一个字典,任何不在字典中的单词就是错误,字典越大越好;
  • 错误纠正:
    • 生成修正可选项:和错误相似的实际单词
    • 选择最好的那个:
      • 最短加权编辑距离
      • 最高噪音通道(noisy channel)概率

4、拼写出来是另一个单词(real word spelling errors)

  • 对每一个单词,生成一个候选集(candidate set)
    • 找到发音相似的候选词
    • 找到拼写相似的候选词
    • 把w也放到候选集中
  • 选择最好的候选词
    • 噪音通道
    • 分类

二、拼写的噪音通道(noisy channel)

1、噪音通道模型

  • 初始想法:一开始初始单词(original word)经过噪音通道(noisy channel)会生成噪音单词(noisy word)。我们通过对噪音单词的解码得到猜测的单词(guessed word)。

2、从拼写出来的不是单词的错误(non-word spelling error)开始

  • 错误是:acress
  • 候选词生成(candidate generation)
    • 相似拼写的单词:找到最小的编辑距离
    • 相似的发音的单词:找到发音的最小的编辑距离

代码实现(待补充)

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。