博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
机器学习入门-数据过采样(上采样)1. SMOTE
阅读量:5850 次
发布时间:2019-06-19

本文共 875 字,大约阅读时间需要 2 分钟。

from imblearn.over_sampling import SMOTE  # 导入

overstamp = SMOTE(random_state=0)

# 对训练集的数据进行上采样,测试集的数据不需要

SMOTE_train_x, SMOTE_train_y = overstamp.fit_sample(train_x, train_y)

由于数据分布的不均衡,因此对数据进行上采样,上采样的数据指的是将少数的样本扩增到与多数样本相同的样本数

使用的方法:

            取少数样本中的一个数据,求出该样本与其他样本的距离,根据欧式距离进行排序,取出前5个数据

           新数据的位置   X_new = X + rand(0, 1) * distance     X表示当前数据的位置, distance表示与另外一个数据的欧式距离,乘上了一个随机值

# 进行数据过采样操作from imblearn.over_sampling import SMOTEfrom sklearn.cross_validation import train_test_splitX = data.loc[:, data.columns != 'Class']y = data.loc[:, data.columns == 'Class']train_x, test_x, train_y, test_y = train_test_split(X, y, test_size=0.3, random_state=0)overstamp = SMOTE(random_state=0)SMOTE_train_x, SMOTE_train_y = overstamp.fit_sample(train_x, train_y)# 统计数据的标签0,1个数print(pd.value_counts(SMOTE_train_y, sort=True).sort_index())

 

转载于:https://www.cnblogs.com/my-love-is-python/p/10271295.html

你可能感兴趣的文章
项目实战-友盟项目介绍以及环境搭建
查看>>
2015年个人总结
查看>>
C#编程(六)------------枚举
查看>>
高性能 Windows Socket 组件 HP-Socket v2.3.1-beta-2 发布
查看>>
零基础学python-2.24 一些经常使用函数
查看>>
hdu4762Cut the Cake(概率+大数操作(java)+C++高精度模板)
查看>>
ZOJ 3316 Game 一般图最大匹配带花树
查看>>
《系统架构师》——操作系统和硬件基础
查看>>
津津的储蓄计划
查看>>
Windows Management Framework 中修改WinRM监听端口
查看>>
IDC通信实验
查看>>
中国联通上线“新沃云平台” 31个省级公司全面受理阿里云服务
查看>>
Python实现获取微信企业号access_token的Class
查看>>
Windows Phone SDK 8.0安装步骤
查看>>
nginx qos计算sql
查看>>
Celerra(十)--checkpoint
查看>>
VEEAM 7 tape还原的各类小麻烦
查看>>
Hadoop分布式文件系统模拟桩HDFS_MOCK
查看>>
如何在java服务器上部署Rational PurifyPlus(Step by Step)
查看>>
svchost.exe造成CPU使用率占用100%的常见问题分析
查看>>