当前位置:网站首页>数据分析与挖掘2
数据分析与挖掘2
2022-07-21 16:49:00 【强仔fight】
一.数据探索:对样本数据的结构和规律进行分析的过程(数据质量分析 / 数据特征分析)。
1.数据质量分析的主要任务是检查原始数据中是否存在脏数据【缺失值,异常值,不一致的值,重复数据及含有特殊符号的数据等】。
缺失值分析:
记录的缺失/记录中某个字段信息的缺失
缺失值的处理:删除存在缺失值的记录/对可能值进行插补/不处理
异常值分析:
①简单统计量分析
data.describe() #查看数据基本情况
②3theta原则
如果数据服从正态分布,在3 原则下,异常值被定义为一组测定值与平均值的偏差超过三倍标准差的值。
③箱型图分析
箱型图提供了识别异常值的一个标准:异常值通常被定义为小于Ql-1.5IQR或大于Qu+1.5IQR的值。Ql称为下四分位数,Qu称为上四分位数。IQR称为四分位数间距。
箱型图判断异常值的标准以四分位数和四分位距为基础,四分位数具有一定的鲁棒性:多达25%的数据可以变得任意远而不会很大地扰动四分位数,所以异常值不能对这个标准施加影响。
一致性分析:
可能是对于重复存放的数据未能进行一致性更新造成的。
举例:两张表都存储了用户的电话号码,但在用户的电话号码发生改变时只更新了一张表中的数据,两张表就有了不一致的数据
2.数据特征分析
分布分析:
对于定量数据 可通过绘制频率分布表,频率分布直方图,茎叶图 直观分析
步骤:
1求极差
2决定组距和组数
3决定分点
4列出频率分布表
5绘制频率分布直方图
对于定性数据 可用饼图和条形图 直观显示
对比分析:
绝对数比较:
相对数比较:
||||
结构相对数 如:食品支出额占消费支出总额比重。
比例相对数:
比较相对数:
强度相对数:性质不同但有一定联系的总量指标进行对比。
动态相对数:将同一现象在不同时期的指标数值进行对比,说明发展方向和变化速度。
||||
统计量分析:
用统计指标对定量数据进行统计描述,常从集中趋势和离中趋势两个方面进行分析。
集中趋势度量:
1.均值 mean() 2. 中位数 3.众数
离中趋势度量: 极差:最大值减最小值
变异系数:标准差相对于均值的离中趋势。CV=s/x*100%
四分位数间距: 上四分位数与下四分位数之差。值越大,说明数据变异程度越大。
方差var() s
标准差std()
协方差cov()
计算样本的偏度(三阶矩)/峰度(四阶矩)skew() kurt()
describe() //直接给出样本数据的一些基本的统计量
sum() //计算样本数据的总和
statistics=data.describe()
statistics.loc['range'] = statistics.loc['max']-statistics.loc['min'] #极差
statistics.loc['var'] = statistics.loc['std']/statistics.loc['mean'] #变异系数
statistics.loc['dis'] = statistics.loc['75%']-statistics.loc['25%'] #四分位数间距
周期性分析:
周期性分析是探索某个变量是否随着时间变化而呈现出某种周期变化趋势
贡献度分析:
相关性分析:
1.直接绘制散点图
2.绘制散点图矩阵
3.计算相关系数
Pearson相关系数 / Sepearman相关系数 / 判定系数
数据样本的相关系数矩阵D.corr(method=’ ')
统计作图函数:
plot() 绘制线性二维图,折线图
pie() 绘制饼型图
hist()绘制二维条形直方图
boxplot()绘制样本数据的箱型图
plot(logy=True)绘制y轴的对数图形
plot(yerr=error)绘制误差条形图
二.数据预处理
三.分类与预测
分类主要是预测分类标号 而预测主要是建立连续值函数模型
边栏推荐
- Map与List的遍历速度比较
- R language uses the mean function to calculate the relative frequency of the specified variables in the sample (observation) data: calculate the proportion of the observation samples in the dataframe
- Wechat payment native (I) preparation and related knowledge
- 一文教你检测MOS管好坏的五大诀窍「建议收藏」
- 使用OpenCv+Arduino实现挂机自动打怪
- WebSockets 和 Server-Sent Events
- Property dataSource is required 异常处理 [IDEA]
- SSM项目完整源码[通俗易懂]
- Tell me, is it convenient to find someone to open a stock account? Excuse me, is it safe to open a stock account by mobile phone?
- Using opencv+arduino to realize automatic killing on hook
猜你喜欢
强连通分量
Linux(Centos)安装Mysql
wallys/new product/DR7915/MT7915+MT7975/WiFi6 MiniPCIe Module 2T2R
MySql中on与where的区别个人总结——分清楚条件应该写在哪里
性能测试----测试执行
Generating function (linear recursive relationship, generating function concept and formula derivation, violent calculation) 4000 word detailed analysis, with examples
如何设置抓包手机端
Read the paper with me - multi model text recognition network
Interface document evolution atlas, some ancient interface document tools, you may not have used them
How to design product MVP to maximize value
随机推荐
控制臺字體怎麼改為console?
同花顺开户安全么 中国十大证券公司排名
西门子博图安装期间反复重启的问题处理
Programming in CoDeSys to realize serial communication
Fast Fourier transform, Lagrange interpolation, three thousand words with examples, sister chapters, application of FFT and string matching
串应用- 计算一个串的最长的真前后缀
R语言的&和&&注意事项
DS图—图的最短路径(不含代码框架)
PMP candidates note that the examinations in these regions will be postponed
[case design] event distributor - sharing and implementation of cross class event response ideas
Unified payment callback interface of Alipay (applicable to H5, PC and APP)
Percona XtraDB Cluster安装
R language tests the significance of correlation coefficient: use cor.test function to calculate the value and confidence interval of correlation coefficient and its statistical significance (if the v
Next.js 与 Remix
状态管理之 Zustand
R语言使用ggpubr包的ggarrange函数将多幅图像组合起来、使用ggexport函数将可视化图像保存为png格式(width参数指定宽度、height参数指定高度、res参数指定分辨率)
Extjs4实例地址和中文文档地址
Web3 couldn't escape the palm of these old giants
DS二叉树——二叉树之父子结点
物理地址介绍「建议收藏」