当前位置:网站首页>自然语言处理-错字识别(基于Python)kenlm、pycorrector
自然语言处理-错字识别(基于Python)kenlm、pycorrector
2020-11-06 01:21:00 【IT界的小小小学生】
转载请注明出处:https://blog.csdn.net/HHTNAN
n元分词法参见:https://blog.csdn.net/HHTNAN/article/details/62046652
关于kenlm统计语言模型:https://blog.csdn.net/HHTNAN/article/details/84231733
中文文本纠错划分
中文文本纠错任务,常见错误类型包括:
- 谐音字词,如 配副眼睛-配副眼镜
- 混淆音字词,如 流浪织女-牛郎织女
- 字词顺序颠倒,如 伍迪艾伦-艾伦伍迪
- 字词补全,如爱有天意-假如爱有天意
- 形似字错误,如 高梁-高粱
- 中文拼音全拼,如 xingfu-幸福
- 中文拼音缩写,如 sz-深圳
- 语法错误,如想象难以-难以想象
当然,针对不同业务场景,这些问题并不一定全部存在,比如输入法中需要处理前四种,搜索引擎需要处理所有类型,语音识别后文本纠错只需要处理前两种, 其中’形似字错误’主要针对五笔或者笔画手写输入等。
简单总结了一下中文别字错误类型:
-
别字: 感帽,随然,传然,呕土
-
人名,地名错误:哈蜜(正:哈密)
-
拼音错误:咳数(ke shu)—> ke sou,
-
知识性错误:广州黄浦(埔)
版权声明
本文为[IT界的小小小学生]所创,转载请带上原文链接,感谢
https://vip01.blog.csdn.net/article/details/84103070
边栏推荐
- C language 100 question set 004 - statistics of the number of people of all ages
- Troubleshooting and summary of JVM Metaspace memory overflow
- 连肝三个通宵,JVM77道高频面试题详细分析,就这?
- 微服務 - 如何解決鏈路追蹤問題
- Elasticsearch database | elasticsearch-7.5.0 application construction
- Why do private enterprises do party building? ——Special subject study of geek state holding Party branch
- 利用 AWS SageMaker BlazingText 对不均衡文本进行多分类
- DTU连接经常遇到的问题有哪些
- Flink on paasta: yelp's new stream processing platform running on kubernetes
- 技術總監,送給剛畢業的程式設計師們一句話——做好小事,才能成就大事
猜你喜欢
(1) ASP.NET Introduction to core3.1 Ocelot
神经网络简史
一时技痒,撸了个动态线程池,源码放Github了
如何将数据变成资产?吸引数据科学家
用Keras LSTM构建编码器-解码器模型
Troubleshooting and summary of JVM Metaspace memory overflow
Computer TCP / IP interview 10 even asked, how many can you withstand?
How do the general bottom buried points do?
技術總監7年經驗,告訴大家,【拒絕】才是專業
被老程式設計師壓榨怎麼辦?我不想辭職
随机推荐
选择站群服务器的有哪些标准呢?
普通算法面试已经Out啦!机器学习算法面试出炉 - kdnuggets
Basic principle and application of iptables
C++和C++程序员快要被市场淘汰了
[performance optimization] Nani? Memory overflow again?! It's time to sum up the wave!!
DTU连接经常遇到的问题有哪些
Python自动化测试学习哪些知识?
Menu permission control configuration of hub plug-in for azure Devops extension
读取、创建和运行多个文件的3个Python技巧
C language 100 question set 004 - statistics of the number of people of all ages
连肝三个通宵,JVM77道高频面试题详细分析,就这?
如何使用ES6中的参数
如何对Pandas DataFrame进行自定义排序
制造和新的自动化技术是什么?
高级 Vue 组件模式 (3)
Using tensorflow to forecast the rental price of airbnb in New York City
利用 AWS SageMaker BlazingText 对不均衡文本进行多分类
【新閣教育】窮學上位機系列——搭建STEP7模擬環境
词嵌入教程
不吹不黑,跨平臺框架AspNetCore開發實踐雜談