2020年新年大赛！

Question

Sergey

Asked:2022-06-29 20:40:53 +0000 UTC2022-06-29 20:40:53 +0000 UTC 2022-06-29 20:40:53 +0000 UTC

BeautifulSoup - 无法按类名找到标签

772

有一个包含文档模板列表的站点。你必须解析它。

我正在编写一个简单的程序：

# Библиотеки для скрапинга
from bs4 import BeautifulSoup
import requests

# Начальный URL
url = 'https://uristhome.ru/document'

# Делаем запрос и получаем html
html_text = requests.get(url).text

# Парсим HTML  в дерево тегов
soup = BeautifulSoup(html_text, 'lxml')

# Ищем строки таблицы
table_rows = soup.findAll('li')
#table_rows = soup.findAll(class_="ln-а")
#table_rows = soup.findAll('li', attrs={'class':'ln-a'})

print(f"Найдено {len(table_rows)} строк в таблице")

#寻找表格行（这些是第15-18行）之后写的内容理论上应该选择我感兴趣的那些li标签。但事实证明，除了最简单的选项外，没有什么是行不通的。

如果您取消注释第 15 行，则按标签名称搜索将起作用并给出：

Найдено 4049 строк в таблице

但是，我需要一个更准确的样本。剩下的三个选项给出一个空结果：

Найдено 0 строк в таблице

似乎我做了所有事情，就像在不同的例子中一样，但什么也没发生。可能是什么问题呢？

2 个回答

Voted

Universall · Answer 1 · 2022-06-29T22:24:11Z

作为一种选择，您可以先找到列表，并在其中查找元素和必要的链接。最有可能的是，ln-а在页面加载期间使用 JS 替换了该类，因此解析器找不到任何东西（因为它只下载了 html）。要完全加载页面，您可以使用selenium.

soup = BeautifulSoup(html_text, 'html.parser')

# Ищем список
list_ = soup.find("ul", class_="y_articles-document-list")
# Ищем элементы списка
list_elements = list_.findAll("li")
# Поиск по всему списку
links_1 = list_.findAll("a", class_="rubr") 
# Поиск по элементам списка
links_2 = [element.find("a", class_="rubr") for element in list_elements]
# Получение текста и ссылок
data = [{"text": link.text, "url": link.get("href")} for link in links_2]
print(data)

示例selenium

import os
import time
from bs4 import BeautifulSoup
from selenium import webdriver  # pip install selenium
from selenium.webdriver.chrome.service import Service
from webdriver_manager.chrome import ChromeDriverManager  # pip install webdriver-manager


with webdriver.Chrome(service=Service(ChromeDriverManager().install())) as driver:  # Открываем хром
    driver.get("https://uristhome.ru/document")  # Открываем страницу
    time.sleep(5)  # Время на прогрузку страницы
    soup = BeautifulSoup(driver.page_source, 'html.parser')  # Получаем готовый html и парсим его

list_ = soup.find("ul", class_="y_articles-document-list")
list_elements = list_.findAll("li", class_="ln-а")
# links_1 = list_.findAll("a", class_="rubr")
# links_2 = [element.find("a", class_="rubr") for element in list_elements] 
# data = [{"text": link.text, "url": link.get("href")} for link in links_1]

Сергей Ш · Answer 2 · 2022-06-30T00:35:02Z

Сергей Ш

2022-06-30T00:35:02Z2022-06-30T00:35:02Z

table_rows = soup.findAll('a', class_="rubr")
for i in table_rows:
    print(i.text)
    print(f'''https://uristhome.ru{i['href']}''')

2

BeautifulSoup - 无法按类名找到标签

我看不懂措辞

请求的模块“del”不提供名为“default”的导出

"!+tab" 在 HTML 的 vs 代码中不起作用

我正在尝试解决“猜词”的问题。Python

可以使用哪些命令将当前指针移动到指定的提交而不更改工作目录中的文件？

Python解析野莓

问题：“警告：检查最新版本的 pip 时出错。”

帮助编写一个用值填充变量的循环。解决这个问题

尽管依赖数组为空，但在渲染上调用了 2 次 useEffect

数据不通过 Telegram.WebApp.sendData 发送

BeautifulSoup - 无法按类名找到标签

2 个回答

相关问题