当前位置:网站首页>自然语言处理-错字识别(基于Python)kenlm、pycorrector
自然语言处理-错字识别(基于Python)kenlm、pycorrector
2020-11-06 01:21:00 【IT界的小小小学生】
转载请注明出处:https://blog.csdn.net/HHTNAN
n元分词法参见:https://blog.csdn.net/HHTNAN/article/details/62046652
关于kenlm统计语言模型:https://blog.csdn.net/HHTNAN/article/details/84231733
中文文本纠错划分
中文文本纠错任务,常见错误类型包括:
- 谐音字词,如 配副眼睛-配副眼镜
- 混淆音字词,如 流浪织女-牛郎织女
- 字词顺序颠倒,如 伍迪艾伦-艾伦伍迪
- 字词补全,如爱有天意-假如爱有天意
- 形似字错误,如 高梁-高粱
- 中文拼音全拼,如 xingfu-幸福
- 中文拼音缩写,如 sz-深圳
- 语法错误,如想象难以-难以想象
当然,针对不同业务场景,这些问题并不一定全部存在,比如输入法中需要处理前四种,搜索引擎需要处理所有类型,语音识别后文本纠错只需要处理前两种, 其中’形似字错误’主要针对五笔或者笔画手写输入等。
简单总结了一下中文别字错误类型:
-
别字: 感帽,随然,传然,呕土
-
人名,地名错误:哈蜜(正:哈密)
-
拼音错误:咳数(ke shu)—> ke sou,
-
知识性错误:广州黄浦(埔)
版权声明
本文为[IT界的小小小学生]所创,转载请带上原文链接,感谢
https://vip01.blog.csdn.net/article/details/84103070
边栏推荐
- 网络安全工程师演示:原来***是这样获取你的计算机管理员权限的!【维持】
- 高级 Vue 组件模式 (3)
- 6.7 theme resolver theme style parser (in-depth analysis of SSM and project practice)
- Flink on paasta: yelp's new stream processing platform running on kubernetes
- (1)ASP.NET Core3.1 Ocelot介紹
- Polkadot series (2) -- detailed explanation of mixed consensus
- 事半功倍:在没有机柜的情况下实现自动化
- [C#] (原創)一步一步教你自定義控制元件——04,ProgressBar(進度條)
- 如何将分布式锁封装的更优雅
- Want to do read-write separation, give you some small experience
猜你喜欢
随机推荐
自然语言处理之命名实体识别-tanfordcorenlp-NER(一)
Flink的DataSource三部曲之二:内置connector
用Keras LSTM构建编码器-解码器模型
【QT】 QThread部分原始碼淺析
PPT画成这样,述职答辩还能过吗?
Computer TCP / IP interview 10 even asked, how many can you withstand?
选择站群服务器的有哪些标准呢?
面经手册 · 第12篇《面试官,ThreadLocal 你要这么问,我就挂了!》
[译] 5个Vuex插件,给你的下个VueJS项目
条码生成软件如何隐藏部分条码文字
Dapr實現分散式有狀態服務的細節
小白量化投资交易入门课(python入门金融分析)
Cocos Creator 原始碼解讀:引擎啟動與主迴圈
对pandas 数据进行数据打乱并选取训练机与测试机集
一时技痒,撸了个动态线程池,源码放Github了
Every day we say we need to do performance optimization. What are we optimizing?
人工智能学什么课程?它将替代人类工作?
业内首发车道级导航背后——详解高精定位技术演进与场景应用
TF flags的简介
连肝三个通宵,JVM77道高频面试题详细分析,就这?