关于【beautiful-soup】的问题- 第1页

Матвей Прощенков

Asked: 2022-08-22 13:28:13 +0000 UTC

无法从所有页面收集数据

0

我正在尝试从需要手动导航到下一页的站点收集数据。但我的数据并不总是从整个第一页收集。

for i in range(0, 500, 25):
url = f'https://www.livelib.ru/reviews~{i}'

review_page = requests.get(url)
result = review_page.content
soup = BeautifulSoup(result, 'lxml')
reviews_marks = [soup.find(class_='lenta-card__rating').find('span').text]

执行代码后，我在列表中得到 21-22 项。并且代码要么只是运行而没有错误。或者有一个例外——“NoneType”对象没有“find”属性。但即使有这样的例外，也可以收集一些数据。

Alex Brunno

Asked: 2022-07-17 00:15:02 +0000 UTC

根据标签进行bs4文本抓取

0

在 HTML 页面的两列中，您需要：

只选择绿色的文本。
如果文本不是绿色，而是黑色，则改为保留 NaN。
将所有这些值存储在 pandas 数据框中。

HTML 表格的示例（对不起，excel）：

我想在最终数据框中得到的结果是：

编码：

from bs4 import BeautifulSoup
import pandas as pd

cons_df = pd.DataFrame()
data = []

with open("test.html", encoding='utf-8') as html:
    soup = BeautifulSoup(html, "html.parser") #заранее взята страница из таблицами
    table = soup.select('font[color="#00875a"]') #выбор по зеленому цвету (текст, который мне нужно скрепить находится только под этим тегом "font[color"
for i in range(0,len(table)):
    rows = [table[i].get_text()]
    data.append(rows)
df = pd.DataFrame(data, columns=['mix']) #датафрейм только с зелеными значениями

df['mix'] = df['mix'].str.strip()

#мне нужно было каким-то образом разделить стринги от дат и я решил выфильтровать их с помощью startswith:

val_list = ['A', 'B', 'C', 'D', 'E', 'F', 'G', 'H', 'I', 'J', 'K', 'L', 'M', 'N', 'O', 'P', 'Q', 'R', 'S', 'T', 'U', 'V', 'W', 'X', 'Y', 'Z']

str_val = df[df.mix.str.startswith(tuple(val_list))]
dates = df[~df.mix.str.startswith(tuple(val_list))]

str_val = str_val.reset_index(drop=True)
dates = dates.reset_index(drop=True)

cons_df = pd.concat([cons_df, str_val, dates], axis=1)

代码似乎工作正常，但我需要添加一个会留下 NaN 而不是黑色值的部分。使用此代码，我得到以下结果：

这是我在 Google 上找到的，但我无法为自己重写：

A function for BeautifulSoup in Python that returns the text of the first tag if it exists, or an empty string if not. Useful for web scraping where empty string NaNs are desired. This function is one I use a lot for scraping projects, but it is likely something you should modify for your own needs.

Parameters: soup-> the bs4 soup item, tag_class-> the class of the desired tag (optional), return_text-> should the function return the text of the item if possible or the item itself(?).
def get_text_if_exists(soup, tag, tag_class=None, return_text=True):
    if tag_class:
        item = soup.find(tag, {"class":tag_class})
    else:
        item = soup.find(tag)
    if item and return_text:
        return item.text
    elif item:
        return item
    return ""

[更新]

测试.html：

屏幕上大约有50-60个这样的项目，但它们都有相同的结构。

html表格代码：

<div class="table-wrap">
<table class="confluenceTable"><tbody>
<tr>
<td class="confluenceTd"><b>1column</b></td>
<td class="confluenceTd"><b>2column</b></td>
<td class="confluenceTd"><b>3column</b></td>
<td class="confluenceTd"><b>4column</b></td>
</tr>
<tr>
<td class="confluenceTd">1A</td>
<td class="confluenceTd">&nbsp;<font color="#00875a"><b>TEST1</b></font></td>
<td class="confluenceTd">&nbsp;<font color="#00875a"><b>15-Jul-2022 6 PM CET</b></font></td>
<td class="confluenceTd">&nbsp;</td>
</tr>
<tr>
<td class="confluenceTd">2A</td>
<td class="confluenceTd">&nbsp;TEST2</td>
<td class="confluenceTd">18 July 2022 1 PM CET</td>
<td class="confluenceTd">&nbsp;</td>
</tr>
<tr>
<td class="confluenceTd">3A</td>
<td class="confluenceTd">&nbsp;<font color="#00875a"><b>TEST3</b></font></td>
<td class="confluenceTd">18 July 2022 1 PM CET</td>
<td class="confluenceTd">&nbsp;</td>
</tr>
<tr>
<td class="confluenceTd">4A</td>
<td class="confluenceTd">&nbsp;<font color="#00875a"><b>TEST4</b></font></td>
<td class="confluenceTd">&nbsp;<font color="#00875a"><b>15-Jul-2022 6 PM CET</b></font></td>
<td class="confluenceTd">&nbsp;</td>
</tr>
<tr>
<td class="confluenceTd">5A</td>
<td class="confluenceTd">&nbsp;TEST5</td>
<td class="confluenceTd">18 July 2022 1 PM CET</td>
<td class="confluenceTd">&nbsp;</td>
</tr>
<tr>
<td class="confluenceTd">6A</td>
<td class="confluenceTd">&nbsp;<font color="#00875a"><b>TEST6</b></font></td>
<td class="confluenceTd">&nbsp;<font color="#00875a"><b>15-Jul-2022 6 PM CET</b></font></td>
<td class="confluenceTd">&nbsp;</td>
</tr>
<tr>
<td class="confluenceTd">7A</td>
<td class="confluenceTd">&nbsp;TEST7</td>
<td class="confluenceTd">18 July 2022 1 PM CET</td>
<td class="confluenceTd">&nbsp;</td>
</tr>
<tr>
<td class="confluenceTd">8A</td>
<td class="confluenceTd">&nbsp;</td>
<td class="confluenceTd">&nbsp;</td>
<td class="confluenceTd">&nbsp;</td>
</tr>
<tr>
<td class="confluenceTd">9A</td>
<td class="confluenceTd">&nbsp;</td>
<td class="confluenceTd">&nbsp;</td>
<td class="confluenceTd">&nbsp;</td>
</tr>
<tr>
<td class="confluenceTd">10A</td>
<td class="confluenceTd">&nbsp;<font color="#00875a"><b>TEST8</b></font></td>
<td class="confluenceTd">18 July 2022 1 PM CET</td>
<td class="confluenceTd">&nbsp;</td>
</tr>
<tr>
<td class="confluenceTd">11A</td>
<td class="confluenceTd">&nbsp;</td>
<td class="confluenceTd">&nbsp;</td>
<td class="confluenceTd">&nbsp;</td>
</tr>
<tr>
<td class="confluenceTd">12A</td>
<td class="confluenceTd">&nbsp;</td>
<td class="confluenceTd">&nbsp;</td>
<td class="confluenceTd">&nbsp;</td>
</tr>
<tr>
<td class="confluenceTd">16A</td>
<td class="confluenceTd">&nbsp;</td>
<td class="confluenceTd">&nbsp;</td>
<td class="confluenceTd">&nbsp;</td>
</tr>
<tr>
<td class="confluenceTd">17A</td>
<td class="confluenceTd">&nbsp;</td>
<td class="confluenceTd">&nbsp;</td>
<td class="confluenceTd">&nbsp;</td>
</tr>
</tbody></table>
</div>

MSerega

Asked: 2022-08-10 02:23:07 +0000 UTC

BeautifulSoup 如何解析块内的元素？

0

情况如下。具有单元 unit_temperature_c 和 unit_temperature_f 类的重复跨度包含不同日期的温度。并且有一个块，其中有相同的跨度负责此刻的温度，我需要对其进行解析。但是......如何使温度分别以摄氏温度和华氏温度分别解析？

temperatura = soup.find('div', class_='now-weather').text

<div class="now-weather">
<span class="unit unit_temperature_c">
<span class="sign">+</span>19
<span class="lower">,4</span>
 </span>
<span class="unit unit_temperature_f">
<span class="sign"></span>
67</span>
</div>

Sergey

Asked: 2022-06-29 20:40:53 +0000 UTC

BeautifulSoup - 无法按类名找到标签

0

有一个包含文档模板列表的站点。你必须解析它。

我正在编写一个简单的程序：

# Библиотеки для скрапинга
from bs4 import BeautifulSoup
import requests

# Начальный URL
url = 'https://uristhome.ru/document'

# Делаем запрос и получаем html
html_text = requests.get(url).text

# Парсим HTML  в дерево тегов
soup = BeautifulSoup(html_text, 'lxml')

# Ищем строки таблицы
table_rows = soup.findAll('li')
#table_rows = soup.findAll(class_="ln-а")
#table_rows = soup.findAll('li', attrs={'class':'ln-a'})

print(f"Найдено {len(table_rows)} строк в таблице")

#寻找表格行（这些是第15-18行）之后写的内容理论上应该选择我感兴趣的那些li标签。但事实证明，除了最简单的选项外，没有什么是行不通的。

如果您取消注释第 15 行，则按标签名称搜索将起作用并给出：

Найдено 4049 строк в таблице

但是，我需要一个更准确的样本。剩下的三个选项给出一个空结果：

Найдено 0 строк в таблице

似乎我做了所有事情，就像在不同的例子中一样，但什么也没发生。可能是什么问题呢？

无法从所有页面收集数据

根据标签进行bs4文本抓取

BeautifulSoup 如何解析块内的元素？

BeautifulSoup - 无法按类名找到标签

我看不懂措辞

请求的模块“del”不提供名为“default”的导出

"!+tab" 在 HTML 的 vs 代码中不起作用

我正在尝试解决“猜词”的问题。Python

可以使用哪些命令将当前指针移动到指定的提交而不更改工作目录中的文件？

Python解析野莓

问题：“警告：检查最新版本的 pip 时出错。”

帮助编写一个用值填充变量的循环。解决这个问题

尽管依赖数组为空，但在渲染上调用了 2 次 useEffect

数据不通过 Telegram.WebApp.sendData 发送

问题[beautiful-soup]