有一个包含文档模板列表的站点。你必须解析它。
我正在编写一个简单的程序:
# Библиотеки для скрапинга
from bs4 import BeautifulSoup
import requests
# Начальный URL
url = 'https://uristhome.ru/document'
# Делаем запрос и получаем html
html_text = requests.get(url).text
# Парсим HTML в дерево тегов
soup = BeautifulSoup(html_text, 'lxml')
# Ищем строки таблицы
table_rows = soup.findAll('li')
#table_rows = soup.findAll(class_="ln-а")
#table_rows = soup.findAll('li', attrs={'class':'ln-a'})
print(f"Найдено {len(table_rows)} строк в таблице")
#寻找表格行(这些是第15-18行)之后写的内容理论上应该选择我感兴趣的那些li标签。但事实证明,除了最简单的选项外,没有什么是行不通的。
如果您取消注释第 15 行,则按标签名称搜索将起作用并给出:
Найдено 4049 строк в таблице
但是,我需要一个更准确的样本。剩下的三个选项给出一个空结果:
Найдено 0 строк в таблице
似乎我做了所有事情,就像在不同的例子中一样,但什么也没发生。可能是什么问题呢?
作为一种选择,您可以先找到列表,并在其中查找元素和必要的链接。最有可能的是,
ln-а在页面加载期间使用 JS 替换了该类,因此解析器找不到任何东西(因为它只下载了 html)。要完全加载页面,您可以使用selenium.示例
selenium