【Python】交叉验证 KFold/StratifiedKFold/GroupKFold
创始人
2025-05-28 22:26:33

KFold/StratifiedKFold/GroupKFold

  • 1. sklearn.model_selection.KFold
    • 1.1 KFold().split(x) 循环获取分割数据
    • 1.2 cross_validate(cv=KFold()) 作为cv参数
  • 2. sklearn.model_selection.StratifiedKFold
  • 3. sklearn.model_selection.GroupKFold

1. sklearn.model_selection.KFold

1.1 KFold().split(x) 循环获取分割数据

from sklearn.model_selection import KFoldX = [0, 1, 2, 3, 4, 5, 6, 7, 8, 9] # 索引与值一样
'''
不管样本的标签(y)分布
shuffle 每次分割前打乱顺序
random_state shuffle=True时使用,设定后重复运行数据分组不变
'''
kf = KFold(n_splits=5, shuffle=False)
for train, test in kf.split(X, y):print(train, test)
'''
[2 3 4 5 6 7 8 9] [0 1]
[0 1 4 5 6 7 8 9] [2 3]
[0 1 2 3 6 7 8 9] [4 5]
[0 1 2 3 4 5 8 9] [6 7]
[0 1 2 3 4 5 6 7] [8 9]
'''
kf = KFold(n_splits=5, shuffle=True)
for train, test in kf.split(X, y):print(train, test)
'''
[0 1 2 4 5 6 7 9] [3 8]
[1 2 3 4 5 7 8 9] [0 6]
[0 1 3 4 6 7 8 9] [2 5]
[0 1 2 3 5 6 8 9] [4 7]
[0 2 3 4 5 6 7 8] [1 9]
'''

1.2 cross_validate(cv=KFold()) 作为cv参数

  • 【sklearn】sklearn.model_selection.cross_val_score/cross_validate

2. sklearn.model_selection.StratifiedKFold

  • 作用: 划分后的训练集和测试集数据分布与原数据相同
    即:原始标签中类别占比=训练标签中类别占比=验证标签中类别占比
  • 【sklearn】模型融合_堆叠法 StackingClassfier\Regressor参数cv
from sklearn.model_selection import StratifiedKFoldX = [0, 1, 2, 3, 4, 5, 6, 7, 8, 9]
y = [0, 0, 0, 0, 1, 1, 1, 1, 1, 1]skf = StratifiedKFold(n_splits=5, shuffle=False)
for train, test in skf.split(X, y):print(train, test)
'''
[1 2 3 5 6 7 8 9] [0 4]
[0 2 3 4 6 7 8 9] [1 5]
[0 1 3 4 5 7 8 9] [2 6]
[0 1 2 4 5 6 8 9] [3 7]
[0 1 2 3 4 5 6 7] [8 9]
'''
skf = StratifiedKFold(n_splits=5, shuffle=True)
for train, test in skf.split(X, y):print(train, test)
'''
[0 1 2 4 5 6 7 8] [3 9]
[0 1 3 4 6 7 8 9] [2 5]
[1 2 3 4 5 6 8 9] [0 7]
[0 2 3 4 5 6 7 9] [1 8]
[0 1 2 3 5 7 8 9] [4 6]
'''

3. sklearn.model_selection.GroupKFold

  • 只有n_splits一个参数
  • 作用: 保证同一个group的样本不会同时出现在训练集和测试集上
    即:一个group的多个样本要么出现在训练集,要么都出现在测试集
  • 意义: 若一个group中的样本即用于训练也用于测试,模型能充分学习该group样本的特征并在测试集表现良好,但遇到新group会表现较差。
from sklearn.model_selection import GroupKFoldX = [0, 1, 2, 3, 4, 5, 6, 7, 8, 9]
y = [0, 0, 0, 0, 1, 1, 1, 1, 1, 1]
groups = [1, 1, 1, 2, 3, 3, 4, 4, 5, 5]gkf = GroupKFold(n_splits=5)
for train, test in gkf.split(X, y, groups=groups):print(train, test)
'''
[3 4 5 6 7 8 9] [0 1 2]
[0 1 2 3 4 5 6 7] [8 9]
[0 1 2 3 4 5 8 9] [6 7]
[0 1 2 3 6 7 8 9] [4 5]
[0 1 2 4 5 6 7 8 9] [3]
'''

相关内容

热门资讯

Spring —— Sprin... JavaEE传送门 JavaEE Servlet —— Servlet API Spring —— ...
知识点16--k8s资源清单定... 上一篇知识点是k8s使用方式的入门,主要对标的是非专业运营人员日常测试使用࿰...
牛客MySQL题库总结(一) 1、INNER JOIN(内连接、等值连接) 作用:获取两...
Java8新特性——Strea... 前言 Java 8引入了Stream API,这是一种新的API,可让开...
小菜鸟Python历险记:(第... 今天写的文章是记录我从零开始学习Python的全过程。在上一篇学习分享的文章中分享了一个将数字强制转...
【刷题版】掌握算法的一揽子计划... 文章目录深搜和回溯总结基本概念常见例题自然数的拆分排列型枚举全排列 I全排列 II组合型枚举组合 I...
2023年全国最新二级建造师精... 百分百题库提供二级建造师考试试题、二建考试预测题、二级建造师考试真题、二建证考试题库等,...
大学四年..就混了毕业证的我,... 时间如白驹过隙,一恍就到了2023年,今天最于我来说是一个值得纪念的日子...
文心一言实测:什么是文心一言? 我不了解百度,能用五百字向我介绍这个公司吗? 百度是一家全球领先的互联...
给数据标注系统加个2D标注功能 文章目录前言0.复原示例1.初始化2.注册标注拖拽事件3.注册鼠标落下事件4.注册鼠标移动事件&星标...
Baumer工业相机堡盟相机如... 项目场景 Baumer工业相机堡盟相机是一种高性能、高质量的工业相机,可用于各种应用场...
Threadlocal相关问题 Threadlocal相关问题 ​ 核心问题 ​ 1、 什么是ThreadLocal?...
字节跳动软件测试岗,前两面过了... 阎王易见,小鬼难缠。我一直相信这个世界上好人居多,但是也没想到自己也会在...
unity--相机跟随与屏幕自... 文章目录相机跟随与屏幕自适应的实现相机跟随屏幕自适应 相机跟随与屏幕自适应的实现 相机跟随 如何让相...
内核延迟执行-sleep-de... mdelay mdelay采用的忙等待的方法一直占用cpu资源,延时准确,...
【ROS知识】Graham-S... 一、说明         其实实现凸包问题至少有五个方法,这里只介绍Graham-Sc...
SpringBoot-后台管理... 项目前端资源下载链接 https://wwa.lanzoui.com/iGD3xl6i5ni 项目源...
QLineEdit 使用总结 前 言 QLineEdit是一个单行文本编辑控件。 使用者可以通过很多函数,输入和编辑...
【JavaScript】42_... 7、事件 事件(event) 事件就是用户和页面之间发生的交互行为 比...
【数据结构】KMP算法细节详解 KMP算法细节详解前言一、字符串匹配问题1.BF算法2.KMP算法二、next数组三、手写nex思想...
【中间间】Redis与MySQ... 文章目录前言谈谈一致性三个经典的缓存模式Cache-Aside PatternCache-Aside...
【CSS】盒子模型内边距 ④ ... 文章目录一、盒子模型内部尺寸计算1、设置内边距和边框对盒子模型的影响2、盒子模型尺寸计算二、代码示例...
TIA博途中添加程序注释的具体... TIA博途中添加程序注释的具体方法示例_汇总 添加程序注释可以帮助自己和阅读程序的技术人员更好地理...
[LsSDK][tool] l... 文章目录一、首先是界面介绍。二、工具的目的三、ls_gpio.h模板四、ls_syscfg.h 模板...
Linux的目录结构 目录 一:重要性和基本介绍 二:目录结构​编辑 ​编辑 2.1 bin...
java中IO流的操作 对于java中io流的一些操作和类进行总结 io流的分类:  字节流:...
HydroD 实用教程(七)静... 目 录一、前言二、稳性分析三、Hydrostatic Rule Checks四、AVCG Analy...
记录使用Dockerfile来... 一准备一个安装了docker的虚拟机 首先准备一个安装好了docker的虚拟机,我的d...
Nginx学习笔记(三)Lin... 目录一、官网下载二、配置基本信息1.上传 Linux2.解压3.安装编译环境4.执行命令4.1 配置...
怎样展示你在项目中的重要性? 今天我们聊聊面试中,怎样介绍你的项目,以及怎样突出你的重要性。面试中除了...