当前位置:网站首页>对pandas 数据进行数据打乱并选取训练机与测试机集
对pandas 数据进行数据打乱并选取训练机与测试机集
2020-11-06 01:27:00 【IT界的小小小学生】
描述
在机器学习中,拿到一堆训练数据一般会需要将数据切分成训练集和测试集,或者切分成训练集、交叉验证集和测试集,为了避免切分之后的数据集在特征分布上出现偏倚,我们需要先将数据打乱,使数据随机排序,然后在进行切分。
需要用的方法如下:
注:df代表一个pd.DataFrame
df = df.sample(frac=1.0): 按100%的比例抽样即达到打乱数据的效果
df = df.reset_index():打乱数据之后index也是乱的,如果你的index没有特征意义的话,直接重置就可以了,否则就在打乱之前把index加进新的一列,再生成无意义的index
train = df.loc[0:a]: 进行切分操作,切分比例看情况定
cv = df.loc[a+1:b]:
test = df.loc[b+1:-1]:
版权声明
本文为[IT界的小小小学生]所创,转载请带上原文链接,感谢
https://vip01.blog.csdn.net/article/details/93796160
边栏推荐
猜你喜欢
mac 下常用快捷键,mac启动ftp
【新閣教育】窮學上位機系列——搭建STEP7模擬環境
DTU连接经常遇到的问题有哪些
Filecoin最新动态 完成重大升级 已实现四大项目进展!
Cos start source code and creator
Technical director, to just graduated programmers a word - do a good job in small things, can achieve great things
How to demote a domain controller in Windows Server 2012 and later
通过深层神经网络生成音乐
Didi elasticsearch cluster cross version upgrade and platform reconfiguration
车的换道检测
随机推荐
Technical director, to just graduated programmers a word - do a good job in small things, can achieve great things
Asp.Net Core學習筆記:入門篇
Elasticsearch 第六篇:聚合統計查詢
Pattern matching: The gestalt approach一种序列的文本相似度方法
Every day we say we need to do performance optimization. What are we optimizing?
【效能優化】納尼?記憶體又溢位了?!是時候總結一波了!!
2018个人年度工作总结与2019工作计划(互联网)
python 保存list数据
Working principle of gradient descent algorithm in machine learning
做外包真的很难,身为外包的我也无奈叹息。
EOS创始人BM: UE,UBI,URI有什么区别?
钻石标准--Diamond Standard
xmppmini 專案詳解:一步一步從原理跟我學實用 xmpp 技術開發 4.字串解碼祕笈與訊息包
Want to do read-write separation, give you some small experience
Cos start source code and creator
条码生成软件如何隐藏部分条码文字
自然语言处理之命名实体识别-tanfordcorenlp-NER(一)
How do the general bottom buried points do?
JetCache埋点的骚操作,不服不行啊
一时技痒,撸了个动态线程池,源码放Github了