需要根据历史数据将随机数量的客人分配到时间间隔内。是否可以让 Excel 计算出某个时间段内客人总数的百分比,并根据星期一测试列中的旧数据分发一个新的随机数?例子:
我研究了通过数据透视表或输入每个时间段的手动百分比来解决此问题的方法。也许有一个特殊的工具可以解决这个问题?
各位同事,下午好!
出现了以下任务:有一个很大的数据框,其中包括客户的全名和他通过的程序。我需要比较df_1和df_2,从而识别那些在新年之前来的人和那些在新年之后又来的人。
我尝试使用#s1 = pd.merge(df_1, df_2, how='inner', on=['Отбор:'])
,但 collab 只是给出了有关超出 RAM 量的错误。
下面是一个示例数据框。
Indx Отбор:
201 Павловский Александр Танцыс
202 Штраф за задержку в клубе
203 Посещение 2 часа
204 Посещение 2 часа (Выходные дни)
205 Посещение 3 часа (Выходные дни)
206 Татинцян Оганес Валерьевич
207 Штраф за задержку в клубе
208 Посещение 2 часа
209 Посещение 1 час
210 Посещение 1 час (Выходные дни)
211 Посещение 2 часа (Выходные дни)
212 Шмелев Владислав
213 Штраф за задержку в клубе
214 Посещение 2 часа (Выходные дни)
215 Посещение 3 часа (Выходные дни)
216 Агафонов Алексей Владимирович
217 Штраф за задержку в клубе
218 Посещение 1 час
219 Посещение 1 час (Выходные дни)
220 Посещение 2 часа
221 Афанасьев Николай Максимович
222 Штраф за задержку в клубе
223 Посещение 1 час
224 Посещение 1 час (Выходные дни)
225 Иванова Мария Александровна
226 Штраф за задержку в клубе
227 Посещение 1 час
228 Посещение 1 час (Выходные дни)
229 Посещение 2 часа
一般来说,我需要在两个数据框中找到全名的匹配项。数据帧没有什么不同,只是时间段不同。
各位同事,大家好!我有以下数据:
import matplotlib.pyplot as plt
weather_data = {
'01.12': -4,
'02.12': -5,
'03.12': -5,
'04.12': -7,
'05.12': -10,
'06.12': -11,
'07.12': -11,
'08.12': -13,
'09.12': -13,
'10.12': -11,
'11.12': -6,
'12.12': -5,
'13.12': -7,
'14.12': -9,
'15.12': -8,
'16.12': -4,
'17.12': +2,
'18.12': +2,
'19.12': +4,
'20.12': +3,
'21.12': +1,
'22.12': +1,
'23.12': +1
}
value_clients = {
'01.12': 285,
'02.12': 496,
'03.12': 487,
'04.12': 254,
'05.12': 190,
'06.12': 236,
'07.12': 206,
'08.12': 267,
'09.12': 452,
'10.12': 384,
'11.12': 218,
'12.12': 252,
'13.12': 254,
'14.12': 265,
'15.12': 241,
'16.12': 425,
'17.12': 369,
'18.12': 256,
'19.12': 186,
'20.12': 255,
'21.12': 238,
'22.12': 277,
'23.12': 347
}
days = list(weather_data.keys())
temperatures = list(weather_data.values())
days = list(value_clients.keys())
value = list(value_clients.values())
# Создание графика
plt.figure(figsize=(15, 5)) # Указываем размер графика
plt.plot(days, temperatures, marker='o', linestyle='-', color='b') # График температуры
plt.title('Температура в Твери по дням') # Заголовок графика
plt.xlabel('День недели') # Ось X
plt.ylabel('Температура, °C') # Ось Y
plt.grid(True, which='both', linestyle='--', linewidth=0.5) # Сетка
plt.tight_layout() # Автоматическое распределение пространства
# Создание второго графика
plt.figure(figsize=(15, 5)) # Указываем размер графика
plt.plot(days, value, marker='o', linestyle='-', color='r') # График температуры
plt.title('Количество клиентов посетивших комплекс') # Заголовок графика
plt.xlabel('День месяца') # Ось X
plt.ylabel('Количество человек') # Ось Y
plt.grid(True, which='both', linestyle='-', linewidth=0.5) # Сетка
plt.tight_layout() # Автоматическое распределение пространства
# Отображение графика
plt.show()
接下来它向我显示以下图表:
如何为每个图点添加值标签?还有一个问题,如何找到这两个图之间的相关性?
各位同事,向大家问好!我有以下任务:我有一个包含条件列的 DataFrame,它有许多其他类别,我需要将它们取消分组。
df_3['Критерий'].unique()
array(['views', 'visitors', 'gender', 'age', 'gender_age', 'members',
'reach_subscribers'], dtype=object)
我还附上了数据的片段:
Дата Критерий Парам. №1 Парам. №2 Значение
0 26.12.2023 views NaN NaN 201
1 26.12.2023 visitors NaN NaN 139
2 26.12.2023 gender Ж NaN 95
3 26.12.2023 gender М NaN 33
4 26.12.2023 age 1-18 NaN 2
5 26.12.2023 age 18-21 NaN 5
6 26.12.2023 age 21-24 NaN 14
7 26.12.2023 age 24-27 NaN 8
8 26.12.2023 age 27-30 NaN 14
9 26.12.2023 age 30-35 NaN 29
10 26.12.2023 age 35-45 NaN 36
11 26.12.2023 age 45+ NaN 17
12 26.12.2023 gender_age Ж 1-18 2
13 26.12.2023 gender_age Ж 18-21 3
14 26.12.2023 gender_age Ж 21-24 9
15 26.12.2023 gender_age Ж 24-27 6
16 26.12.2023 gender_age Ж 27-30 12
17 26.12.2023 gender_age Ж 30-35 20
18 26.12.2023 gender_age Ж 35-45 27
19 26.12.2023 gender_age Ж 45+ 14
20 26.12.2023 gender_age М 18-21 2
21 26.12.2023 gender_age М 21-24 5
22 26.12.2023 gender_age М 24-27 2
23 26.12.2023 gender_age М 27-30 2
24 26.12.2023 gender_age М 30-35 9
25 26.12.2023 gender_age М 35-45 9
26 26.12.2023 gender_age М 45+ 3
60 26.12.2023 members Новые участники NaN 7
61 25.12.2023 views NaN NaN 1375
62 25.12.2023 visitors NaN NaN 765
63 25.12.2023 gender Ж NaN 521
64 25.12.2023 gender М NaN 180
我需要按名称取消对条件的分组,例如:所有条件的年龄、视图、访问者等,并使它们成为具有其值的 DataFrame 的一部分。
我尝试用这个命令来做到这一点:
#df_3.groupby('Критерий', as_index =False).aggregate({'Значение' : 'sum'})
事实并非如此:
Критерий Значение
0 age 24012
1 gender 24543
2 gender_age 24012
3 members 2958
4 reach_subscribers 287952
5 views 45416
6 visitors 25892
我想看到的结果是:
Дата Критерий Парaметр Значение
26.12.2023 gender-age Ж,1-18 5
26.12.2023 gender-age М,1-18 7
26.12.2023 gender-age Ж,18-21 11
26.12.2023 gender-age М,18-21 13
26.12.2023 views - 1000
同事们,美好的一天。有 2 个 2 个月的数据框有用户数据,您需要比较这 2 个数据框并找到 2 个月内重复的用户。目前,我只留下了所需的列,并且似乎创建了一个包含该值(重复或不重复)的新列。链接到源数据
m = (october.merge(november, how='outer', on=['Структурная единица'],
suffixes=['', '_new'], indicator=True))
结构单元 | _合并 |
---|---|
0 客户 | 两个都 |
1 TsSO 特维尔 | 两个都 |
2 1760 | 仅左 |
3 1760 | 仅左 |
4 6251 | 仅左 |
... | ... |
23984 | 瓦列里·奥列戈维奇 亚什克维奇 |
23985 | 亚什克维奇维罗妮卡 |
23986 | 尼古拉·亚什克维奇 |
23987 | 亚绍夫·扎哈尔·杰尼索维奇 |
23988 | 亚绍娃·纳迪亚·穆斯哈托芙娜 right_only |
23989 行 × 2 列