Alex Brunno提出的问题

Alex Brunno

Asked: 2022-07-17 00:15:02 +0000 UTC

根据标签进行bs4文本抓取

0

在 HTML 页面的两列中，您需要：

只选择绿色的文本。
如果文本不是绿色，而是黑色，则改为保留 NaN。
将所有这些值存储在 pandas 数据框中。

HTML 表格的示例（对不起，excel）：

我想在最终数据框中得到的结果是：

编码：

from bs4 import BeautifulSoup
import pandas as pd

cons_df = pd.DataFrame()
data = []

with open("test.html", encoding='utf-8') as html:
    soup = BeautifulSoup(html, "html.parser") #заранее взята страница из таблицами
    table = soup.select('font[color="#00875a"]') #выбор по зеленому цвету (текст, который мне нужно скрепить находится только под этим тегом "font[color"
for i in range(0,len(table)):
    rows = [table[i].get_text()]
    data.append(rows)
df = pd.DataFrame(data, columns=['mix']) #датафрейм только с зелеными значениями

df['mix'] = df['mix'].str.strip()

#мне нужно было каким-то образом разделить стринги от дат и я решил выфильтровать их с помощью startswith:

val_list = ['A', 'B', 'C', 'D', 'E', 'F', 'G', 'H', 'I', 'J', 'K', 'L', 'M', 'N', 'O', 'P', 'Q', 'R', 'S', 'T', 'U', 'V', 'W', 'X', 'Y', 'Z']

str_val = df[df.mix.str.startswith(tuple(val_list))]
dates = df[~df.mix.str.startswith(tuple(val_list))]

str_val = str_val.reset_index(drop=True)
dates = dates.reset_index(drop=True)

cons_df = pd.concat([cons_df, str_val, dates], axis=1)

代码似乎工作正常，但我需要添加一个会留下 NaN 而不是黑色值的部分。使用此代码，我得到以下结果：

这是我在 Google 上找到的，但我无法为自己重写：

A function for BeautifulSoup in Python that returns the text of the first tag if it exists, or an empty string if not. Useful for web scraping where empty string NaNs are desired. This function is one I use a lot for scraping projects, but it is likely something you should modify for your own needs.

Parameters: soup-> the bs4 soup item, tag_class-> the class of the desired tag (optional), return_text-> should the function return the text of the item if possible or the item itself(?).
def get_text_if_exists(soup, tag, tag_class=None, return_text=True):
    if tag_class:
        item = soup.find(tag, {"class":tag_class})
    else:
        item = soup.find(tag)
    if item and return_text:
        return item.text
    elif item:
        return item
    return ""

[更新]

测试.html：

屏幕上大约有50-60个这样的项目，但它们都有相同的结构。

html表格代码：

<div class="table-wrap">
<table class="confluenceTable"><tbody>
<tr>
<td class="confluenceTd"><b>1column</b></td>
<td class="confluenceTd"><b>2column</b></td>
<td class="confluenceTd"><b>3column</b></td>
<td class="confluenceTd"><b>4column</b></td>
</tr>
<tr>
<td class="confluenceTd">1A</td>
<td class="confluenceTd">&nbsp;<font color="#00875a"><b>TEST1</b></font></td>
<td class="confluenceTd">&nbsp;<font color="#00875a"><b>15-Jul-2022 6 PM CET</b></font></td>
<td class="confluenceTd">&nbsp;</td>
</tr>
<tr>
<td class="confluenceTd">2A</td>
<td class="confluenceTd">&nbsp;TEST2</td>
<td class="confluenceTd">18 July 2022 1 PM CET</td>
<td class="confluenceTd">&nbsp;</td>
</tr>
<tr>
<td class="confluenceTd">3A</td>
<td class="confluenceTd">&nbsp;<font color="#00875a"><b>TEST3</b></font></td>
<td class="confluenceTd">18 July 2022 1 PM CET</td>
<td class="confluenceTd">&nbsp;</td>
</tr>
<tr>
<td class="confluenceTd">4A</td>
<td class="confluenceTd">&nbsp;<font color="#00875a"><b>TEST4</b></font></td>
<td class="confluenceTd">&nbsp;<font color="#00875a"><b>15-Jul-2022 6 PM CET</b></font></td>
<td class="confluenceTd">&nbsp;</td>
</tr>
<tr>
<td class="confluenceTd">5A</td>
<td class="confluenceTd">&nbsp;TEST5</td>
<td class="confluenceTd">18 July 2022 1 PM CET</td>
<td class="confluenceTd">&nbsp;</td>
</tr>
<tr>
<td class="confluenceTd">6A</td>
<td class="confluenceTd">&nbsp;<font color="#00875a"><b>TEST6</b></font></td>
<td class="confluenceTd">&nbsp;<font color="#00875a"><b>15-Jul-2022 6 PM CET</b></font></td>
<td class="confluenceTd">&nbsp;</td>
</tr>
<tr>
<td class="confluenceTd">7A</td>
<td class="confluenceTd">&nbsp;TEST7</td>
<td class="confluenceTd">18 July 2022 1 PM CET</td>
<td class="confluenceTd">&nbsp;</td>
</tr>
<tr>
<td class="confluenceTd">8A</td>
<td class="confluenceTd">&nbsp;</td>
<td class="confluenceTd">&nbsp;</td>
<td class="confluenceTd">&nbsp;</td>
</tr>
<tr>
<td class="confluenceTd">9A</td>
<td class="confluenceTd">&nbsp;</td>
<td class="confluenceTd">&nbsp;</td>
<td class="confluenceTd">&nbsp;</td>
</tr>
<tr>
<td class="confluenceTd">10A</td>
<td class="confluenceTd">&nbsp;<font color="#00875a"><b>TEST8</b></font></td>
<td class="confluenceTd">18 July 2022 1 PM CET</td>
<td class="confluenceTd">&nbsp;</td>
</tr>
<tr>
<td class="confluenceTd">11A</td>
<td class="confluenceTd">&nbsp;</td>
<td class="confluenceTd">&nbsp;</td>
<td class="confluenceTd">&nbsp;</td>
</tr>
<tr>
<td class="confluenceTd">12A</td>
<td class="confluenceTd">&nbsp;</td>
<td class="confluenceTd">&nbsp;</td>
<td class="confluenceTd">&nbsp;</td>
</tr>
<tr>
<td class="confluenceTd">16A</td>
<td class="confluenceTd">&nbsp;</td>
<td class="confluenceTd">&nbsp;</td>
<td class="confluenceTd">&nbsp;</td>
</tr>
<tr>
<td class="confluenceTd">17A</td>
<td class="confluenceTd">&nbsp;</td>
<td class="confluenceTd">&nbsp;</td>
<td class="confluenceTd">&nbsp;</td>
</tr>
</tbody></table>
</div>

Alex Brunno

Asked: 2022-08-18 15:41:09 +0000 UTC

分隔列的内容

1

有DF：

Project name
0   ABC-ND-SON-Project-a
1   ABC-ND-SON-Project-a
2   ABC-ND-SON-Project-a
3   ABC-WD-SON-Project-b
4   ABC-WD-SON-Project-b
5   ABC-LI-SON-Project-c
6   ABC-LI-SON-Project-c
7   ABC-KD-SON-Project-d
8   ABC-KD-SON-Project-d

其中，我需要删除前 4 个字符以摆脱“ABC-”部分，然后对于“LI-SON”和“KD-SON”项目，只保留测试的前两个部分。对于其他类型的项目，留下3个部分。

这是我想要得到的结果：

Project name
0   ND-SON-Project
1   ND-SON-Project
2   ND-SON-Project
3   WD-SON-Project
4   WD-SON-Project
5   LI-SON
6   LI-SON
7   KD-SON
8   KD-SON

编码：

import pandas as pd
df_list = pd.read_html('Table.html', match='Projects:')
df = pd.concat([df_list], axis=1) #датафрейм с изначальным списком

df['Project name'] = df['Project name'].str[4:] #удаление "ABC-" 
df = df['Project name'].str.split('-', 3,  expand=True)
cols = [0, 1, 2]
df['New'] = df[cols].apply(lambda row: '-'.join(row.values.astype(str)), axis=1) #новый столбец, в котором все Project names содержат только первые 3 части текста (без ABC-)
df = df.drop(columns=[0, 1, 2, 3])
print(df)

在这个阶段，我不能只删除 LI 和 KD 项目的“-Project”部分：

New
0   ND-SON-Project
1   ND-SON-Project
2   ND-SON-Project
3   WD-SON-Project
4   WD-SON-Project
5   LI-SON-Project
6   LI-SON-Project
7   KD-SON-Project
8   KD-SON-Project

我试图只删除“LI”：

def row(df):
    for k in df['New']:
        if k.startswith('LI'):
            k.str.split('-', 1)[0]
df['New'] = df['New'].apply(row)

但它给出了这个错误：

TypeError                                 Traceback (most recent call last)
Input In [66], in <module>
      3         if k.startswith('LI'):
      4             k.str.split('-', 1)[0]
----> 5 df['New'] = df['New'].apply(row)

Input In [66], in row(df)
      1 def row(df):
----> 2     for k in df['New']:
      3         if k.startswith('LI'):
      4             k.str.split('-', 1)[0]

TypeError: string indices must be integers

dramarama

Asked: 2022-06-24 21:37:57 +0000 UTC

对熊猫列进行排序

0

大家好！我正在学习熊猫，但我无法以任何方式解决一个问题

有一个包含 2 列的 DataFrame，其中我需要的信息由空单元格分隔

这是一个例子：

    A   B
0   NaN NaN
1   NaN NaN
2   H   1.0
3   G   2.0
4   F   3.0
5   E   4.0
6   D   5.0
7   C   6.0
8   B   7.0
9   NaN NaN
10  NaN NaN
11  NaN NaN
12  O   1.0
13  N   2.0
14  M   3.0
15  L   4.0
16  K   5.0
17  J   6.0
18  I   7.0
19  NaN NaN
20  NaN NaN
21  NaN NaN
22  O   1.0
23  NaN NaN
24  NaN NaN
25  NaN NaN
26  Q   1.0
27  P   2.0
28  NaN NaN
29  NaN NaN
30  V   1.0
31  U   2.0
32  T   3.0
33  NaN NaN

我正在寻找一种方法来确定空单元格之后和之前的行并按字母顺序分别对它们进行排序

这是我根据第一个示例尝试做的事情：

    A   B
0   NaN NaN
1   NaN NaN
2   B   7.0
3   C   6.0
4   D   5.0
5   E   4.0
6   F   3.0
7   G   2.0
8   H   1.0
9   NaN NaN
10  NaN NaN
11  NaN NaN
12  I   7.0
13  J   6.0
14  K   5.0
15  L   4.0
16  M   3.0
17  N   2.0
18  O   1.0
19  NaN NaN
20  NaN NaN
21  NaN NaN
22  O   1.0
23  NaN NaN
24  NaN NaN
25  NaN NaN
26  P   2.0
27  Q   1.0
28  NaN NaN
29  NaN NaN
30  T   3.0
31  U   2.0
32  V   1.0
33  NaN NaN

之后，我可以使用 df.dropna() 删除空单元格并获得所需的结果

在部件之前和之后，几乎总是有不同数量的空单元格，这些部件本身也包含随机数量的行。我试图以某种方式解决它，但没有想出任何东西）

我希望我解释得正确和清楚，并提前感谢您的回答！

根据标签进行bs4文本抓取

分隔列的内容

对熊猫列进行排序

我看不懂措辞

请求的模块“del”不提供名为“default”的导出

"!+tab" 在 HTML 的 vs 代码中不起作用

我正在尝试解决“猜词”的问题。Python

可以使用哪些命令将当前指针移动到指定的提交而不更改工作目录中的文件？

Python解析野莓

问题：“警告：检查最新版本的 pip 时出错。”

帮助编写一个用值填充变量的循环。解决这个问题

尽管依赖数组为空，但在渲染上调用了 2 次 useEffect

数据不通过 Telegram.WebApp.sendData 发送

Alex Brunno's questions