关于深度学习:恒源云Gpushare今日炼丹小疑问如何给数据加权重

41次阅读

共计 1892 个字符，预计需要花费 5 分钟才能阅读完成。

文章起源 | 恒源云社区

原文地址 |【炼丹保姆】

原文作者 | 阿洲

工夫：2022 年 5 月 6 号
情绪：解体边缘
起因：居家隔离一月无余……且解封不知何时……

算了，我摊牌了，我开始摆烂了！
因为情绪💢不好，所以工作消极！

挑个简短精干的帖子分享，你们爱看不看🙈，就是这么拽🕶️

import numpy as np
import torch
from torch.utils.data import WeightedRandomSampler
from torch.utils.data import DataLoader
from torch.utils.data import TensorDataset

# 假如是一个三分类的问题，每一类的样本数别离为 10，1000，3000
class_counts = np.array([10, 1000, 3000])
#  样本总数
n_samples = class_counts.sum() # 4010
# 标签
labels = []
for i in range(len(class_counts)):
    labels.extend([i]*class_counts[i])

Y = torch.from_numpy(np.array(labels, dtype=np.int64))
# 随机生成一些数据，不重要
X = torch.randn(n_samples)

# 给每一类一个权重
class_weights = [n_samples/class_counts[i] for i in range(len(class_counts))]
# [401.0, 4.01, 1.3367]
# 对每个样本生成权重
weights = [class_weights[i] for i in labels]

train_dataset = TensorDataset(X, Y)
sampler =  WeightedRandomSampler(weights, int(n_samples),replacement=True)

train_loader = DataLoader(train_dataset, batch_size=1024,sampler=sampler, drop_last=True)

for i, (x,y) in enumerate(train_loader):
    print(f"batch index {i}, n_0: {(y==0).sum()}, n_1: {(y==1).sum()}, n_2: {(y==3).sum()}")
# output:
# 第一个 batch，每类的数量别离为 349, 344, 331
# 第二个 batch，每类的数量别离为 344, 360, 320
# 第三个 batch，每类的数量别离为 339, 348, 337

sampler =  WeightedRandomSampler(weights, int(num_samples),replacement=False)

train_loader = DataLoader(train_dataset, batch_size=1024,sampler=sampler, drop_last=True)

for i, (x,y) in enumerate(train_loader):
    print(f"batch index {i}, n_0: {(y==0).sum()}, n_1: {(y==1).sum()}, n_2: {(y==3).sum()}")
# output:
# 第一个 batch，每类的数量别离为 10, 466, 548
# 第二个 batch，每类的数量别离为 0, 333, 691
# 第三个 batch，每类的数量别离为 0, 173, 851

train_loader = DataLoader(train_dataset, batch_size=20,shuffle=True, drop_last=True)

for i, (x,y) in enumerate(train_loader):
    print(f"batch index {i}, n_0: {(y==0).sum()}, n_1: {(y==1).sum()}, n_2: {(y==3).sum()}")
# output:
# 第一个 batch，每类的数量别离为 0, 227, 797
# 第二个 batch，每类的数量别离为 1, 271, 752
# 第三个 batch，每类的数量别离为 6, 257, 761

应用 WeightedRandomSampler 并且容许样本重复使用的话根本能够保障样本的平衡采样。

正文完

深度学习

发表至：深度学习

2022-05-06

0

关于深度学习:机器学习洞察-JAX机器学习领域的新面孔

关于深度学习:论文导读CoAtNet是如何完美结合-CNN-和-Transformer的

关于深度学习:从Core-Dump中提取CUDA的报错信息

关于深度学习:狗尾巴的故事数智时代的第一性原理｜科创人数智未来私董会

关于redis:Redis知识点面试题总结

关于深度学习:恒源云Gpushare今日炼丹小疑问如何给数据加权重

来吧，展现🀄️：

筹备工作：

生成数据

生成权重

数据封装

试验 A：加权调配应用 replacement (样本可重复使用)

试验 B：加权调配不应用 replacement (样本不可重复使用)

试验 C：简略随机调配

论断

Just My Socks（注册教程内含优惠码）

关于深度学习:恒源云Gpushare今日炼丹小疑问如何给数据加权重

来吧，展现🀄️：

筹备工作：

生成数据

生成权重

数据封装

试验 A：加权调配应用 replacement (样本可重复使用)

试验 B：加权调配不应用 replacement (样本不可重复使用)

试验 C：简略随机调配

论断

Just My Socks（注册教程 内含优惠码）

Just My Socks（注册教程内含优惠码）