当前位置:网站首页>【科学文献计量】中英文文献标题及摘要分词字数与频数统计与可视化
【科学文献计量】中英文文献标题及摘要分词字数与频数统计与可视化
2022-07-20 04:46:00 【百木从森】
1 PubMed文献数据分析
1.1 数据读入与字段查看
新建一个ipynb文件,导入需要使用到的库(和上一个博客导入的是相同的库,这里不再进行列出),进行读取PubMed文献数据。
由于字段很多,可以利用Record对象中的getAltName()方法进行具体字段名称的获取,方便查找到预分析的字段。
如果进一步需要查看某一行的字段名称与其对应的结果,指定行数后可以进行循环输出。输出结果如下,图中只截取部分输出信息。
1.2 探究文献标题的词汇量分布
导入的PubMed文献数据的标题中,单词之间均是由空格进行分割。因此按照空格进行分隔提取标题中的词汇数量,并赋值为新建字段。
由于DataFrame数据省略显示问题,标题中的单词被部分隐去,为了进一步核实统计结果的正确性,可以对数据进行逐项输出并核对单词数量。比如这里进行前三条数据进行核实
边栏推荐
- Structure completion (flexible array)
- Password key hard coding check
- Constructeur de liste STL, taille
- Apache Flink's yarn session submission process
- How to set percentage color for Excel data bar? Excel data bar auto fill color by percentage tutorial
- Record the uni app and package it into APK to get the location
- Check whether the date is valid
- Calculate the date after adding the given number of working days
- [flower carving experience] 20 Music Visualization: esp32_ Series attempts of C3 and ws2812b
- Jenkins Automated Deployment
猜你喜欢
How to delete headers, footers and horizontal lines in word documents
How to delete different text in Excel spreadsheet in batch?
Difi: a go as you pay Wi Fi access system intensive reading notes (II)
Difi: a go as you pay Wi Fi access system intensive reading notes (III)
Detailed explanation of getchar () function in C language
Jenkins自动化部署
从概念到安全实践:软件供应链基础指南
How to add columns in PPT histogram
使用renren-generator逆向生成CRUD代码
【FAQ】接入HMS Core推送服务,服务端下发消息常见错误码原因分析及解决方法
随机推荐
Technical dry goods | average surface distance of image segmentation based on mindspire
3种工厂模式详解
织梦添加栏目修改栏目时提示“保存目录数据时失败,请检查你的输入资料是否存在问题”
What 111
Love to learn blog - life is short, only good classes!
[Android开发学iOS系列] 语言篇: Swift vs Kotlin
STL list构造函数、大小
Lombok详细介绍
标志信号(flag)
【FAQ】接入HMS Core推送服务,服务端下发消息常见错误码原因分析及解决方法
What is integer lifting (instance)
Check whether the date is between the other two dates
Laravel scheduled task
HMS core audio editing service supports 7 kinds of audio effects to help one-stop audio processing
STL list constructor, size
【微信小程序】文本域输入带最大字数限制(1/100)
[Muduo socket] InetAddress encapsulates the socket address type
Apache Flink's yarn session submission process
Densenet learning notes (core vs. RESNET):
[Android development IOS series] Language: swift vs kotlin