是否可以以某种方式自定义 QTabWidget？

Question

mrgervant

Asked:2024-07-31 13:38:55 +0800 CST2024-07-31 13:38:55 +0800 CST 2024-07-31 13:38:55 +0800 CST

将源数据库中的列数据类型保存到 pandas dataframe

772

我使用 pandas 数据框作为临时数据存储实时将数据从一个数据库 (postgresql) 传输到另一个数据库 (greenplum)。通过 df.to_sql() 向目标数据库插入数据时遇到类型不匹配错误：

psycopg2.errors.DatatypeMismatch 列“created_at”的类型为 bigint，但表达式的类型为文本

我使用 dtypes 推导了数据帧数据类型，结果发现除了一列之外的所有列都变得简单object。

在这次讨论的帮助下，我们能够编写工作代码，并明确指示 dtype 中 to_sql 的键：

dtypes = {
    "product_id": sqlalchemy.types.BIGINT(),
    "id": sqlalchemy.types.VARCHAR(length=256),
    "created_at": sqlalchemy.types.BIGINT()
    # и другие колонки
}

df.to_sql(
    table,
    db_engine,
    if_exists='replace',
    index=False,
    schema=TMP_SCHEMA,
    method='multi',
    chunksize=CHUNKSIZE,
    dtype=dtypes
)

但是，此方法不适合进一步处理多个表 - 我想自动替换源列的数据类型。

上面的答案提供了映射csv 第一行的示例。在我的数据库中，可能存在NULL，这将阻止我们确定数据类型。有没有办法解决保留原始数据类型的问题，而不必为每个表手动指定它们？

1 个回答

Voted

mrgervant · Answer 1 · 2024-07-31T16:38:19+08:00

根据@strawdog的提示，PostgreSQL 中列类型的数据可以从系统表中获取information_schema.columns。为此，有data_type和udt_name列- 我发现 udt_name 中的数据很方便：

sql_text = f'''
            select column_name, udt_name
            from information_schema.columns
            where table_name = '{table}';
            '''
with src_engine.connect() as conn:
    df = pd.read_sql(sqlalchemy.text(sql_text), conn)
column_types = dict(zip(df.column_name, df.udt_name))

结果，我们得到一个字典column_types，其中键是列的名称，值是它们的类型。我们使用生成的字典将字符串替换为来自 SQLAlchemy 的类的数据类型名称：

def mapping_types(column_types_dict):
    dtypedict = {}
    for key, value in column_types_dict.items():
        if 'int' in value:
            dtypedict[key] = sqlalchemy.types.BIGINT()
        if 'varchar' in value:
            dtypedict[key] = sqlalchemy.types.VARCHAR(length=256)
        # и другие требуемые типы данных
    return dtypedict

我们可以将新字典作为参数传递给dtypedf.to_sql() 函数，我们用它来将数据发送到另一个数据库 - pandas 将指示传递的数据类型。

将源数据库中的列数据类型保存到 pandas dataframe

我看不懂措辞

请求的模块“del”不提供名为“default”的导出

"!+tab" 在 HTML 的 vs 代码中不起作用

我正在尝试解决“猜词”的问题。Python

可以使用哪些命令将当前指针移动到指定的提交而不更改工作目录中的文件？

Python解析野莓

问题：“警告：检查最新版本的 pip 时出错。”

帮助编写一个用值填充变量的循环。解决这个问题

尽管依赖数组为空，但在渲染上调用了 2 次 useEffect

数据不通过 Telegram.WebApp.sendData 发送

将源数据库中的列数据类型保存到 pandas dataframe

1 个回答

相关问题