RError.com

RError.com Logo RError.com Logo

RError.com Navigation

  • 主页

Mobile menu

Close
  • 主页
  • 系统&网络
    • 热门问题
    • 最新问题
    • 标签
  • Ubuntu
    • 热门问题
    • 最新问题
    • 标签
  • 帮助
主页 / 问题 / 1591717
Accepted
polsok
polsok
Asked:2024-08-24 03:30:16 +0000 UTC2024-08-24 03:30:16 +0000 UTC 2024-08-24 03:30:16 +0000 UTC

将各种yaml文件解析到一张表中

  • 772

有几个yaml文件:

文件1

name: phone1
spec:
  type1:
    - name: cpu
      value: 8 core
    - name: RAM
      value: 8Gb
      type:
        - name: ttt1
        - name: ttt2
  color: gold

文件2

name: phone2
spec:
  type1:
    - name: cpu
      value: 4 core
    - name: RAM
      value: 4Gb
      type:
        - name: ttt3
        - name: ttt4
  size:
    length: 80
    height: 10
    weight: 40

文件3

name: phone3
spec:
  type1:
    - name: cpu
      value: 2 core
    - name: RAM
      value: 2Gb
      type:
        - name: ttt5
        - name: ttt6

它们需要以表格形式呈现,其中第一列是键,其余是值。如果密钥不在文件中,则单元格保持为空

该表将如下所示:

电话 文件1 文件2 文件3
姓名 电话1 电话2 电话3
规格.type1.0.名称 中央处理器 中央处理器 中央处理器
规格.type1.0.值 8核 4核 2核
规格.类型1.1.名称 内存 内存 内存
规格.类型1.1.值 8Gb 4GB 2GB
规格.type1.1.type.0.名称 TT1 ttt3 ttt5
规格.type1.1.type.1.名称 TT2 TT4 TT6
规格尺寸长度 80
规格尺寸高度 10
规格尺寸重量 40
规格颜色 金子

其实这样的文件还有很多,我只是举了一些例子

我正在尝试解析所有这些:这是一个文件的示例:

import yaml
import pandas as pd

# Загрузка YAML-файла в словарь
def GetData(data, prefix):
    if isinstance(data, dict):
        for k, v in data.items():
            yield from GetData(v, f'{prefix}/{k}')
    elif isinstance(data, list):
        for i, v in enumerate(data):
            yield from GetData(v, f'{prefix}/{i}')
    else:
        yield (prefix, data)

# Путь к YAML-файлу
def var1(filename: str):
    with open(filename, "r") as f:
        yaml_data = yaml.safe_load(f)
        retval = pd.DataFrame(GetData(yaml_data, ''), columns=['0', filename])
    return retval

var1('file1.yaml').to_csv('data.csv', index=False)

结果:

电话 文件1
姓名 电话1
规格.type1.0.名称 中央处理器
规格.type1.0.值 8核
规格.类型1.1.名称 内存
规格.类型1.1.值 8Gb
规格.type1.1.type.0.名称 TT1
规格.type1.1.type.1.名称 TT2
规格颜色 金子

所有内容都适用于一个文件,但不可能合并多个文件中的数据。

这是多个文件的选项:

import yaml
import pandas as pd
files = ["file1.yaml", "file2.yaml", "file3.yaml"]

def var2(filename: str):
    with open(filename, "r") as f:
        retval = pd.DataFrame(pd.json_normalize(yaml.safe_load(f))).T
        retval = retval.rename(columns={0:filename})
    return retval
pd.concat([var2(file) for file in files], axis=1).to_csv('results/data2.csv', index=True)

结果:

电话 文件1 文件2 文件3
姓名 电话1 电话2 电话3
规格类型1 "[{'name': 'cpu', 'value': '8 核'}, {'name': 'RAM', 'value': '8Gb', 'type': [{'name': 'ttt1 '}, {'name': 'ttt2'}]}]" "[{'name': 'cpu', 'value': '4 核'}, {'name': 'RAM', 'value': '4Gb', 'type': [{'name': 'ttt3 '}, {'name': 'ttt4'}]}]" "[{'name': 'cpu', 'value': '2 核'}, {'name': 'RAM', 'value': '2Gb', 'type': [{'name': 'ttt5 '}, {'name': 'ttt6'}]}]"
规格颜色 金子
规格尺寸长度 80
规格尺寸高度 10
规格尺寸重量 40

这里还有另一个问题:嵌套键未被解析。

帮助解决:为了解析所有文件,每个嵌套键都输入到单独的行中,并且空键也显示在表中

python
  • 1 1 个回答
  • 18 Views

1 个回答

  • Voted
  1. Best Answer
    strawdog
    2024-08-24T05:18:48Z2024-08-24T05:18:48Z

    对于具有嵌套列表的结构,json_normalize它不适合您的情况。只需首先更改数据帧索引来组合您的GetDatac函数:pd.concat

    def GetData(data, prefix):
        if isinstance(data, dict):
            for k, v in data.items():
                yield from GetData(v, f'{prefix}/{k}')
        elif isinstance(data, list):
            for i, v in enumerate(data):
                yield from GetData(v, f'{prefix}/{i}')
        else:
            yield (prefix, data)
    
    def var2(file: str):    
        with open(file, "r") as f:
            yaml_data = yaml.safe_load(f)
            retval = pd.DataFrame(GetData(yaml_data, '')).set_index(0)
            retval = retval.rename(columns={1:file})
        return(retval)
    
    files = ["file1.yaml", "file2.yaml", "file3.yaml"]
    
    res = pd.concat([var2(file) for file in files], axis=1)
    

    资源:

                                  file1.yaml     file2.yaml     file3.yaml
    0                                                                     
    /name                             phone1         phone2         phone3
    /spec/type1/0/name                   cpu            cpu            cpu
    /spec/type1/0/value               8 core         4 core         2 core
    /spec/type1/1/name                   RAM            RAM            RAM
    /spec/type1/1/value                  8Gb            4Gb            2Gb
    /spec/type1/1/type/0/name           ttt1           ttt3           ttt5
    /spec/type1/1/type/1/name           ttt2           ttt4           ttt6
    /spec/color                         gold            NaN            NaN
    /spec/size/length                    NaN             80            NaN
    /spec/size/height                    NaN             10            NaN
    /spec/size/weight                    NaN             40            NaN
    
    • 1

相关问题

  • 是否可以以某种方式自定义 QTabWidget?

  • telebot.anihelper.ApiException 错误

  • Python。检查一个数字是否是 3 的幂。输出 无

  • 解析多个响应

  • 交换两个数组的元素,以便它们的新内容也反转

Sidebar

Stats

  • 问题 10021
  • Answers 30001
  • 最佳答案 8000
  • 用户 6900
  • 常问
  • 回答
  • Marko Smith

    我看不懂措辞

    • 1 个回答
  • Marko Smith

    请求的模块“del”不提供名为“default”的导出

    • 3 个回答
  • Marko Smith

    "!+tab" 在 HTML 的 vs 代码中不起作用

    • 5 个回答
  • Marko Smith

    我正在尝试解决“猜词”的问题。Python

    • 2 个回答
  • Marko Smith

    可以使用哪些命令将当前指针移动到指定的提交而不更改工作目录中的文件?

    • 1 个回答
  • Marko Smith

    Python解析野莓

    • 1 个回答
  • Marko Smith

    问题:“警告:检查最新版本的 pip 时出错。”

    • 2 个回答
  • Marko Smith

    帮助编写一个用值填充变量的循环。解决这个问题

    • 2 个回答
  • Marko Smith

    尽管依赖数组为空,但在渲染上调用了 2 次 useEffect

    • 2 个回答
  • Marko Smith

    数据不通过 Telegram.WebApp.sendData 发送

    • 1 个回答
  • Martin Hope
    Alexandr_TT 2020年新年大赛! 2020-12-20 18:20:21 +0000 UTC
  • Martin Hope
    Alexandr_TT 圣诞树动画 2020-12-23 00:38:08 +0000 UTC
  • Martin Hope
    Air 究竟是什么标识了网站访问者? 2020-11-03 15:49:20 +0000 UTC
  • Martin Hope
    Qwertiy 号码显示 9223372036854775807 2020-07-11 18:16:49 +0000 UTC
  • Martin Hope
    user216109 如何为黑客设下陷阱,或充分击退攻击? 2020-05-10 02:22:52 +0000 UTC
  • Martin Hope
    Qwertiy 并变成3个无穷大 2020-11-06 07:15:57 +0000 UTC
  • Martin Hope
    koks_rs 什么是样板代码? 2020-10-27 15:43:19 +0000 UTC
  • Martin Hope
    Sirop4ik 向 git 提交发布的正确方法是什么? 2020-10-05 00:02:00 +0000 UTC
  • Martin Hope
    faoxis 为什么在这么多示例中函数都称为 foo? 2020-08-15 04:42:49 +0000 UTC
  • Martin Hope
    Pavel Mayorov 如何从事件或回调函数中返回值?或者至少等他们完成。 2020-08-11 16:49:28 +0000 UTC

热门标签

javascript python java php c# c++ html android jquery mysql

Explore

  • 主页
  • 问题
    • 热门问题
    • 最新问题
  • 标签
  • 帮助

Footer

RError.com

关于我们

  • 关于我们
  • 联系我们

Legal Stuff

  • Privacy Policy

帮助

© 2023 RError.com All Rights Reserve   沪ICP备12040472号-5