当前位置:网站首页>对pandas 数据进行数据打乱并选取训练机与测试机集
对pandas 数据进行数据打乱并选取训练机与测试机集
2020-11-06 01:27:00 【IT界的小小小学生】
描述
在机器学习中,拿到一堆训练数据一般会需要将数据切分成训练集和测试集,或者切分成训练集、交叉验证集和测试集,为了避免切分之后的数据集在特征分布上出现偏倚,我们需要先将数据打乱,使数据随机排序,然后在进行切分。
需要用的方法如下:
注:df代表一个pd.DataFrame
df = df.sample(frac=1.0): 按100%的比例抽样即达到打乱数据的效果
df = df.reset_index():打乱数据之后index也是乱的,如果你的index没有特征意义的话,直接重置就可以了,否则就在打乱之前把index加进新的一列,再生成无意义的index
train = df.loc[0:a]: 进行切分操作,切分比例看情况定
cv = df.loc[a+1:b]:
test = df.loc[b+1:-1]:
版权声明
本文为[IT界的小小小学生]所创,转载请带上原文链接,感谢
https://vip01.blog.csdn.net/article/details/93796160
边栏推荐
- mac 下常用快捷键,mac启动ftp
- TRON智能钱包PHP开发包【零TRX归集】
- 网络安全工程师演示:原来***是这样获取你的计算机管理员权限的!【维持】
- Jmeter——ForEach Controller&Loop Controller
- GUI 引擎评价指标
- [C#] (原創)一步一步教你自定義控制元件——04,ProgressBar(進度條)
- Kitty中的动态线程池支持Nacos,Apollo多配置中心了
- 通过深层神经网络生成音乐
- 关于Kubernetes 与 OAM 构建统一、标准化的应用管理平台知识!(附网盘链接)
- Working principle of gradient descent algorithm in machine learning
猜你喜欢
随机推荐
從小公司進入大廠,我都做對了哪些事?
Aprelu: cross border application, adaptive relu | IEEE tie 2020 for machine fault detection
熬夜总结了报表自动化、数据可视化和挖掘的要点,和你想的不一样
神经网络简史
PHPSHE 短信插件说明
Filecoin最新动态 完成重大升级 已实现四大项目进展!
python 保存list数据
在大规模 Kubernetes 集群上实现高 SLO 的方法
Analysis of ThreadLocal principle
In depth understanding of the construction of Intelligent Recommendation System
前端模組化簡單總結
小白量化投资交易入门课(python入门金融分析)
iptables基礎原理和使用簡介
条码生成软件如何隐藏部分条码文字
接口压力测试:Siege压测安装、使用和说明
技術總監,送給剛畢業的程式設計師們一句話——做好小事,才能成就大事
[performance optimization] Nani? Memory overflow again?! It's time to sum up the wave!!
html
Ubuntu18.04上安裝NS-3
Use of vuepress