Angelina提出的问题

Angelina

Asked: 2025-02-28 05:28:23 +0000 UTC

如何将具有不同结构的 JSON 字符串正确解析为一列（PostgreSQL）？

4

有一个表，其中 pars_col 列包含不同结构的 json 字符串。第一行类型：{'values': [{'test': 'A', 'values': [{'value': 8, 'test': 'B'}]}]}，第二行类型：{'values': [{'value': 21.0, 'test': 'D'}]}。一行可以包含多个在测试中含义不同、名称不同的值。我需要提取每一行的所有值并将它们相加。所有这些都需要保存在一列中。

代码有几个错误，感谢@ValNik，他的评论使它变得更好。还剩下一个问题，我的代码没有从数组双重嵌套的行中提取所有值。

例如表格中包含一行：{"values": [{"test": "A", "values": [{"value": 2, "test": "B"}]}, {"test": "D", "values": [{"value": 3, "test": "E"}]}]}'::TEXT)，代码只会从中提取2，但是需要提取2和3并将它们相加。

我的代码：

-- временная таблица для примера 
CREATE TEMP VIEW df AS
SELECT
    prg_id,
    name,
    dt,
    pars_col::json as pars_col
FROM
(
    SELECT
        prg_id,
        name,
        dt,
        pars_col
    FROM
        (VALUES
            (1, 'Product A', '2023-01-01'::DATE, '{"values": [{"test": "A", "values": [{"value": 8, "test": "B"}]}]}'::TEXT),
            (2, 'Product B', '2023-02-01'::DATE, '{"values": [{"value": 21.0, "test": "D"}]}'::TEXT),
            (23, 'Product C', '2023-01-01'::DATE, '{"values": [{"test": "A", "values": [{"value": 5, "test": "B"}]}, {"value": 10, "test": "D"}]}'::TEXT),
            (245, 'Product D', '2023-02-01'::DATE, '{"values": [{"test": "A", "values": [{"value": 2, "test": "B"}]}, {"test": "D", "values": [{"value": 3, "test": "E"}]}]}'::TEXT),
            (32, 'Product E', '2023-01-01'::DATE, '{"values": [{"value": 15, "test": "F"}]}'::TEXT),
            (31, 'Product G', '2023-02-01'::DATE, '{"values": [{"test": "G", "values": [{"value": 7, "test": "H"}]}]}'::TEXT)
        ) AS data(prg_id, name, dt, pars_col)
) as sub; 

-- запрос, с помощью которого я пытаюсь распарсить строки в колонке pars_col
SELECT
    prg_id,
    name,
    dt,
    sum(combined.value)
FROM df 
    CROSS JOIN LATERAL (
        SELECT
            SUM((elem ->> 'value')::numeric) AS value
        FROM
            pg_catalog.json_array_elements(pars_col -> 'values') AS elem

        UNION 

        SELECT
            SUM((elem2 ->> 'value')::numeric) AS value
        FROM
            pg_catalog.json_array_elements((pars_col -> 'values') -> 0 -> 'values') AS elem2
    ) AS combined
GROUP BY prg_id, name, dt

输出为：

该表显示 prg_id 245 未完全提取值。请帮我修复错误。

Angelina

Asked: 2024-08-01 20:43:17 +0000 UTC

如何在图表中靠近反向边缘的地方指定两个不同颜色的箭头？网络x，Python

8

我试着把反面的肋骨做成不同的颜色。但我不能 =( 现在如果你看一下图表，边 AL 和 LA 的颜色相同：

如何使一个方向的反向边缘（例如，蓝色）和相反方向的橙色？而且筋条的厚度还取决于筋条的重量。我想保留直肋骨，它们的颜色和线条也有所不同。

使用networkx、matplotlib.pyplot、matplotlib.patches、python 我的代码：

#Визуальное разделение прямых и обратных ребер
connectionstyle = []
edge_colors=[]
 
for v,u in G.edges():
    if G1.has_edge(v,u):
        connectionstyle.append('arc3, rad=0')
        edge_colors.append('#000000')
    else:
        connectionstyle.append('arc3, rad=0.4')
        edge_colors.append('#4682B4')

#Выводим основной график
Arrow = mpl.ArrowStyle.CurveB(head_length=0.3, head_width=.4) #стиль стрелки
pos = nx.shell_layout(G) #расположение нодов
 
fig, ax = plt.subplots(figsize=(8,7))
edges = nx.draw_networkx_edges(G, pos, node_size=200, arrowsize=15, arrowstyle=Arrow, width=width)
 
#Стиль отображения узлов
for p in pos:
    if pos[p][0] < 0:
        pos[p][0] -= 0.02
        plt.text(pos[p][0],pos[p][1],s=p, bbox=dict(facecolor='#87CEFA', edgecolor='None', alpha=0.5),
             horizontalalignment='right', fontsize=11)
    else:
        pos[p][0] += 0.02
        plt.text(pos[p][0],pos[p][1],s=p, bbox=dict(facecolor='#87CEFA', edgecolor='None', alpha=0.5),
             horizontalalignment='left', fontsize=11)
 
#Отображение весов ребер
edge_labels = nx.get_edge_attributes(G2,'weight')
 
#Задаем параметры отображения линий, т.е. прямых и обратных ребер:
M = G.number_of_edges()
for i in range(M):
    edges[i].set_connectionstyle(connectionstyle[i])
    edges[i].set_color(edge_colors[i])
    edges[i].set_alpha(0.7)
 
 
#Выводим текстом инф о прямых ребрах:
xmin, xmax = ax.get_xlim()
ymin, ymax = ax.get_ylim()
 
s = ' \n'.join([v+'-->'+u+'  '+str(w['weight']) for v,u,w in G1.edges.data()])
plt.text(1.4,-0.2, s='Прямые ребра \n\n'+s, 
         bbox=dict(facecolor='#87CEFA', edgecolor='None', alpha=0.8),
         fontsize=11, horizontalalignment='center', color='white')
 
plt.tight_layout()
plt.axis('off')
plt.savefig('net2.svg')
plt.show()

Angelina

Asked: 2024-07-10 19:06:18 +0000 UTC

如何解析 pandas 中的 json 列？

5

数据框有一列包含以下行：{\'name\': {\'type\': \'STRING\', \'value\': \'test\'}, \'company\': {\ ' 类型\'：\'字符串\'，\'值\'：\'Roga Kopyta LLC\'}，\'角色\'：{\'类型\'：\'字符串\'，\'值\' : \'用户\'}}

我试图将每个自定义参数解析为单独的列，获取自定义参数列的名称并用 value 中的值填充它。

我的代码：

temp_table = pd.json_normalize(data.custom)
list_col = [x for x in temp_table.columns if x.split('.')[1] == 'type']
temp_table = temp_table.drop(columns=list_col)
temp_table.columns = [x.split('.')[0] for x in temp_table.columns]
data = data[['col1', 'col2']].join(temp_table)

问题是当pd.json_normalize(data.custom)我返回一个空表时。我的假设是问题出在单引号中，我尝试替换它们：

data.custom=data.custom.apply(lambda x: x.replace("'", '"'))
data.custom=data.custom.str.replace('"', '\\\"', regex=True)

没有帮助。我尝试匹配这样的行：

data.custom=data.custom.apply(lambda x: json.loads(json.dumps(x)))

也没有帮助。现在我相信我没有正确确定原因。也许整个问题出在我的代码中。

Angelina

Asked: 2024-07-03 18:55:37 +0000 UTC

如何查找一个用户会话中包含的某些事件之间的平均时间？

5

请帮我找出一次会话中某些事件之间的平均时间。

例如，有一个数据框：

data = {
'id': [1, 1, 1, 2, 2, 2, 3, 3, 3, 4, 4, 4, 5],
'event': ['login', 'news', 'comment', 'login', 'news', 'advt', 'login', 'like', 'comment', 'login', 'news', 'comment', 'login'],
'data': ['2023-03-15 10:00:00', '2023-03-15 10:05:00', '2023-03-15 10:10:00', '2023-03-15 10:15:00', 
         '2023-03-16 11:00:01', '2023-03-16 11:05:06', '2023-03-16 11:10:10',
         '2023-03-17 12:00:02', '2023-03-17 12:05:00', '2023-03-17 12:10:30',
         '2023-03-18 13:00:05', '2023-03-18 13:05:11', '2023-03-18 13:10:00', '2023-03-18 13:10:00']}

id 是会话 ID。如何找到每个会话 ID 登录之间以及新闻或广告事件之间的平均时间？步骤顺序严格，第一步是登录，第二步是选择事件。有时在会话中似乎登录较晚。另外，如何优化代码以便尽快处理大型数据帧？

Angelina

Asked: 2023-10-19 01:12:39 +0000 UTC

Pandas：如何将 19 列分成三部分？

4

在数据框中，19 列每个单元格中有 3 个值，用 \n 分隔。这些值必须分为三个附加列：“绝对数”、“粗略”、“具体重量，%”。这样每个新列都有一个带有旧列名称的附言，例如“绝对数_0-4”、“粗_0-4”、“具体重量，%_0-4”。旧的列需要移除。

我尝试这样做：

new_data = {}

for key, value in data.items():

    column_values = value.str.split('\n', expand=True)
    
    if len(column_values) >= 3:
        new_data[key] = {
            'Абс.число': column_values[0],
            'Грубый': column_values[1],
            'Уд.вес,%': column_values[2]
        }

该代码不起作用。还有一个问题是，除了 19 列之外，还有 3 列每个单元格只有一个值。

一般来说，您可以将每个单独的列拆分为三个新列并重命名，但结果是代码庞大且缺乏吸引力。我不明白如何才能把代码写得更简洁、漂亮，同时又节省时间（

Angelina

Asked: 2023-06-01 18:38:56 +0000 UTC

如何在函数中使用 .style 将表列中的数字减少到百分之二？Python

5

我正在编写一个函数来显示具有相同样式的表格。我无法将浮动列中的数字减少到百分之二。相反，删除多余的零。

现在桌子看起来像这样。

我的代码：

def style_data(data):

data = np.round(data, decimals=2)

#оглавление  
th_props = [
    ('font-size', '14px'),
    ('text-align', 'center'),
    ('border', "0.5px solid black")
]

#офоромление содержания 
td_props = [
    ('font-size', '13px'),
    ('text-align', 'center'),
    ('border', "0.5px solid black")
]

#set style
styles = [
    dict(selector="th", props=th_props), #наименование колонок
    dict(selector="td", props=td_props), #данные таблицы
    dict(selector="caption",             #оглавление таблицы
         props=[("text-align", "center"),
                ("font-size", "125%"),
                ('font-weight', 'bold'),
                ("color", 'black'),
                ('border', "1px solid black")])
]
 
return (data
        .style   
        .set_table_styles(styles)                             #применение set styles
        .set_caption('Топ 5 игровых платформ за весь период')
        .set_properties(**{'width': '200px'})                 #изменение ширины ячеек
        .hide_index()
       )

问题是表带有不同数量的列。如果应用于 .style - .format('{:.2f}')，则在没有子集的情况下，代码会对具有非数字数据类型的列发誓。然后我尝试使用 d = None 设置参数（禁用不重要参数的能力），尝试了 *args、**kwargs。它对我不起作用，但总的来说我不想手动设置一堆参数。

也不是代码：

data = np.round(data, decimals=2)

我做了：

for i in top_platforms.columns:
    if pd.api.types.is_numeric_dtype(top_platforms.columns):
        top_platforms.columns=round(top_platforms.columns), 2

它没有用，但总的来说我认为结果很草率。

我希望函数在没有大量参数输入的情况下工作，并且在数字列中四舍五入到百分之二而没有额外的零。请帮忙

Angelina

Asked: 2023-05-31 15:29:42 +0000 UTC

根据来自另一列的数据在列中填充 NaN，如果这些不包含在某个列表中？

6

数据框：

姓名	发布年份	平台
雷曼竞技场	2001.0	PS2
雷曼竞技场	2002.0	大湾区
雷曼竞技场	钠盐	GC
劲爆橄榄球 2004	2003.0	XB
劲爆橄榄球 2004	钠盐	大湾区
劲爆橄榄球 2004	钠盐	PS2

我想用year_of_release相同游戏名称但在不同平台上的年份填充 NaN 列。有一个问题是相同的标题可能有不同的发行年份——在这种情况下，保留 NaN。

我决定首先创建一个列表，在其中过滤掉具有不同发行年份的相同标题，然后使用 apply 我尝试在列中填充 NaN year_of_release，排除标题落入列表的行。所有没有相同名称和同一年发布的东西，我决定保留为 NaN。我决定填中间，因为如果你选择中位数，那么 NaN 多的地方的名字就变成 NaN。目前，标题不会被创建的列表过滤。

创建一个列表，其中包含具有不同发行年份的相同标题：

excludae_list = df.groupby('name')['year_of_release'].agg(['min', 'max']).reset_index()
excludae_list = excludae_list[excludae_list['min'] != excludae_list['max']]
excludae_list = excludae_list['name']

填补列中的空白year_of_release：

df['year_of_release'] = df.groupby('name')['year_of_release'].apply(lambda x: x.fillna(np.mean(x)) if x.name not in exclude_list else np.nan)

如何将具有不同结构的 JSON 字符串正确解析为一列（PostgreSQL）？

如何在图表中靠近反向边缘的地方指定两个不同颜色的箭头？网络x，Python

如何解析 pandas 中的 json 列？

如何查找一个用户会话中包含的某些事件之间的平均时间？

Pandas：如何将 19 列分成三部分？

如何在函数中使用 .style 将表列中的数字减少到百分之二？Python

根据来自另一列的数据在列中填充 NaN，如果这些不包含在某个列表中？

我看不懂措辞

请求的模块“del”不提供名为“default”的导出

"!+tab" 在 HTML 的 vs 代码中不起作用

我正在尝试解决“猜词”的问题。Python

可以使用哪些命令将当前指针移动到指定的提交而不更改工作目录中的文件？

Python解析野莓

问题：“警告：检查最新版本的 pip 时出错。”

帮助编写一个用值填充变量的循环。解决这个问题

尽管依赖数组为空，但在渲染上调用了 2 次 useEffect

数据不通过 Telegram.WebApp.sendData 发送

Angelina's questions