训练模型时loss和acc的值相同

Question

Pavel

Asked:2020-04-08 23:04:28 +0000 UTC2020-04-08 23:04:28 +0000 UTC 2020-04-08 23:04:28 +0000 UTC

值从列表到数据框列的随机分布

772

同事们，下午好！

帮助解决将列表中的值替换为列的问题。有 2 个数据框（旧的和新的）和一个列表：

spisok = ['伊万诺夫'，'彼得罗夫'，'西多罗夫']

df_old：

id     score    revie_date   in_charge
111      4      08.10.2019     Petrov
123      2      04.03.2019     Sidorov
145      5      04.04.2019     Ivanov
135      6      20.05.2019     Petrov
222      5      25.06.2019     Sidorov

df_new

id     score    revie_date   in_charge
367      6      18.07.2019     
123      2      04.03.2019     
257      5      04.06.2019     
945      6      01.05.2019     
222      5      25.06.2019

该任务，您需要从 spisok 随机分配一个执行程序，但以使任务或多或少平均分配的方式执行此操作（即数据帧中可以有超过 1000 行）。

与旧列表进行比较，如果有 id 匹配，则从旧列表中取出/替换艺术家。

所以结果会是这样的：

df_new：

id     score    revie_date   in_charge
367      6      18.07.2019     Ivanov
123      2      04.03.2019     Sidorov
257      5      04.06.2019     Petrov
945      6      01.05.2019     Ivanov
222      5      25.06.2019     Sidorov

我试图通过

df_new['in_charge'] = np.random.choice(spisok, size=len(df_new))

但是结果是绝对不一样的，分布不均，然后怎么和前面的df_old比较。

1 个回答

Voted

MaxU - stop genocide of UA · Answer 1 · 2020-04-10T22:32:57Z

np.random.choice ()函数允许您设置应该从列表中选择相应元素的概率。

您可以尝试使用它 - 为此，您需要计算列表中元素的概率，同时考虑到已经存在的元素。

例子：

names = ['a','b','c','d']

np.random.seed(321)

old = pd.DataFrame({
    'id': np.arange(10),
    'in_charge': np.random.choice(names, 10, p=[0.4, 0.25, 0.2, 0.15])
})

new = pd.DataFrame({'id': np.arange(100)})

首先添加new值进行匹配id：

new['in_charge'] = new['id'].map(old.set_index('id')['in_charge'])

价值分配：

In [75]: new['in_charge'].fillna('NaN').value_counts()
Out[75]:
NaN    90
d       4
a       3
b       2
c       1
Name: in_charge, dtype: int64

计算新的概率：

tgt_probs = pd.Series([1 / len(names)] * len(names), index=names)
cur_probs = new['in_charge'].value_counts() / len(new)
new_probs = (tgt_probs - cur_probs).clip(lower=0) / (new['in_charge'].isna().sum() / len(new))
new_probs = new_probs.fillna(1 / len(names))

发生了：

In [76]: cur_probs
Out[76]:
a    0.04
c    0.02
d    0.02
b    0.02
Name: in_charge, dtype: float64

In [77]: new_probs
Out[77]:
a    0.233333
b    0.255556
c    0.255556
d    0.255556
dtype: float64

按照计算出的概率填入数值：

new.loc[new['in_charge'].isna(), 'in_charge'] = np.random.choice(names, new['in_charge'].isna().sum(), p=new_probs)

结果：

In [80]: new['in_charge'].value_counts()
Out[80]:
a    28
d    28
b    26
c    18
Name: in_charge, dtype: int64

PS 由于自然原因，无法实现完美均匀的分布np.random.choice

值从列表到数据框列的随机分布

根据浏览器窗口的大小调整背景图案的大小

理解for循环的执行逻辑

复制动态数组时出错（C++）

Or and If,elif,else 构造[重复]

如何构建支持 x64 的 APK

如何使按钮的输入宽度？

如何显示对象变量的名称？

如何循环一个函数？

LOWORD 宏有什么作用？

从字符串的开头删除直到并包括一个字符

值从列表到数据框列的随机分布

1 个回答

相关问题