vagiinalover提出的问题

vagiinalover

Asked: 2024-08-10 05:46:14 +0000 UTC

熊猫。包含文本和数字字段值的数据透视表

大家好！请帮忙。我有这个数据框：

df = pd.DataFrame({
    'sku_sellout': ['a', 'a', 'b', 'c', 'a'],
    'labels': ['менее 100%', '100-200%', 'более 200%', 'более 200%', 'менее 100%'],
    'price': [100, 200, 300, 1000, 100],
    'ranges': ['0-100', '100-200', '200-300', '900-1000', '0-100'],
    'rur_extr': [1, 2, 3, 4, 1],
    'qnt_extr': [10, 20, 30, 40, 15]
})

sku_售完	标签	价格	范围	鲁尔外部	qnt_extr
一个	低于100%	100	0-100	1	10
一个	100-200%	200	100-200	2	20
乙	超过200%	300	200-300	3	30
c	超过200%	1000	900-1000	4	40
一个	低于100%	100	0-100	1	15

我需要从中得到这个：

df2 = pd.DataFrame({
    'sku_sellout': ['a', 'a', 'a', 'b', 'b', 'b', 'c', 'c', 'c'],
    'metrics':['ranges', 'rur_extr','qnt_extr','ranges', 'rur_extr','qnt_extr','ranges', 'rur_extr','qnt_extr'],
    'менее 100%': ['0-100',2,25,None,None,None,None,None,None],
    '100-200%': ['100-200%',2,20,None,None,None,None,None,None],
    'более 200%': [None,None,None,'200-300',3,30,'900-1000',4,40]
})

sku_售完	指标	低于100%	100-200%	超过200%
一个	范围	0-100	100-200%	没有任何
一个	鲁尔外部	2	2	没有任何
一个	qnt_extr	25	20	没有任何
乙	范围	没有任何	没有任何	200-300
乙	鲁尔外部	没有任何	没有任何	3
乙	qnt_extr	没有任何	没有任何	30
c	范围	没有任何	没有任何	900-1000
c	鲁尔外部	没有任何	没有任何	4
c	qnt_extr	没有任何	没有任何	40

那些。本质如下 - 行中有测量 sku_sellout 和指标（ranges、rur_extr、qnt_extr），列中有标签的值。十字路口处有：

如果是rur_extr或qnt_extr，则对应字段的和。
如果这是范围，则为此 sku_sellout 和标签找到的第一个值 (aggfunc='first') - 它将始终相同。

我通过melt 和pivot_table 完成了此操作，但无法将条件逻辑应用于该列：应用“first”或“sum”。

vagiinalover

Asked: 2023-10-08 23:43:16 +0000 UTC

快速从 Postgres 到 ClickHouse 的 ETL

Postgres上有一个OLTP数据库，您需要在ClickHouse中从该数据库获取查询结果。那些。创建某种简化的 DWH，其中将存储简单的“视图”，以便在 BI 工具中进一步可视化。

Postgres 和 ClickHouse 位于两台不同的机器上。如何尽快（或至少正确）执行此操作？

到目前为止，出于无知，我正在这样做：

使用 read_sql 读取 Pandas 中的查询结果。
无论我是否使用这个数据框做其他事情，它都是可选的。
我将数据帧逐行拆分为元组列表，并通过批量插入 50-100k 条记录将它们加载到 ClickHouse 中。

Python 本身又在我的 PC 上使用，即我首先将 Postgres 中的所有内容下载到我的 PC，然后从 PC 下载到 ClickHouse。效果不是很快，我觉得还有其他方法。

有一个类似的主题，但它讨论如何将特定表从一个数据库传输到另一个数据库。 https://stackoverflow.com/questions/73377036/how-to-etl-my-postgresql-data-into-a-clickhouse-datawarehouse

也许我的方法从根本上是错误的，我需要将所有表传输到 ClickHouse，并在此基础上执行查询？

熊猫。包含文本和数字字段值的数据透视表

快速从 Postgres 到 ClickHouse 的 ETL

我看不懂措辞

请求的模块“del”不提供名为“default”的导出

"!+tab" 在 HTML 的 vs 代码中不起作用

我正在尝试解决“猜词”的问题。Python

可以使用哪些命令将当前指针移动到指定的提交而不更改工作目录中的文件？

Python解析野莓

问题：“警告：检查最新版本的 pip 时出错。”

帮助编写一个用值填充变量的循环。解决这个问题

尽管依赖数组为空，但在渲染上调用了 2 次 useEffect

数据不通过 Telegram.WebApp.sendData 发送

vagiinalover's questions