RError.com

RError.com Logo RError.com Logo

RError.com Navigation

  • 主页

Mobile menu

Close
  • 主页
  • 系统&网络
    • 热门问题
    • 最新问题
    • 标签
  • Ubuntu
    • 热门问题
    • 最新问题
    • 标签
  • 帮助
主页 / 问题 / 1443490
Accepted
jiezzzzzzzzz
jiezzzzzzzzz
Asked:2022-08-28 19:24:06 +0000 UTC2022-08-28 19:24:06 +0000 UTC 2022-08-28 19:24:06 +0000 UTC

解析器返回一个空列表

  • 772

我正在尝试解析 Avito,但无论我写什么,都会显示一个空列表,而不是任何数据。任何类,任何标签 - 仍然返回一个空列表。该怎么办?这是我的代码:

import requests
from bs4 import BeautifulSoup


url = 'https://www.avito.ru/'
html = requests.get(url)

soup = BeautifulSoup(html.text, 'lxml')
a = soup.find_all('div', class_='body-titleRow-AvL3d')
print(a)
python
  • 1 1 个回答
  • 41 Views

1 个回答

  • Voted
  1. Best Answer
    Johan
    2022-08-28T21:00:01Z2022-08-28T21:00:01Z

    如果您只是打印响应终端中的请求而到达的 html,您将看到以下内容:

    在此处输入图像描述

    好吧,因此,如果您将相同的代码保存到文件中,您将看到:

    在此处输入图像描述

    但是,如果您通过常规浏览器访问 Avito,您会看到一切正常。事实证明,Avito 可以识别您请求中的自动请求,即使您设置了标头和 cookie,答案也是一样的。

    但是你可以使用 selenium,这是在评论中写的。为此,您需要通过运行以下命令使用 pip 安装它:

    pip install selenium。

    然后,您需要下载适用于您操作系统的 Web 驱动程序,例如 Chrome 的驱动程序,请点击此处。

    更多详细信息,您可以在项目本身的页面上阅读。

    如果您尚未安装 Google Chrome 浏览器(例如),请安装它。

    好吧,这里有一个小例子,它使用 Avito 的页面加载。

    import os
    import time
    from platform import system
    
    from bs4 import BeautifulSoup
    from selenium import webdriver
    from selenium.webdriver.chrome.options import Options
    from selenium.webdriver.chrome.service import Service
    from selenium_stealth import stealth
    
    options = Options()
    # options.add_argument("--headless")
    options.add_argument("start-maximized")
    options.add_experimental_option("excludeSwitches", ["enable-automation"])
    options.add_experimental_option('useAutomationExtension', False)
    
    executable_path = None
    
    if system() == "Windows":
        executable_path = os.path.join(os.getcwd(), 'chromedriver', 'chromedriver.exe')
    elif system() == "Linux":
        executable_path = os.path.join(os.getcwd(), 'chromedriver', 'chromedriver')
    
    browser = webdriver.Chrome(options=options, service=Service(log_path=os.devnull, executable_path=executable_path))
    
    stealth(driver=browser,
            user_agent='Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) '
                       'Chrome/83.0.4103.53 Safari/537.36',
            languages=["ru-RU", "ru"],
            vendor="Google Inc.",
            platform="Win32",
            webgl_vendor="Intel Inc.",
            renderer="Intel Iris OpenGL Engine",
            fix_hairline=True,
            run_on_insecure_origins=True,
            )
    
    url = 'https://www.avito.ru/'
    browser.get(url)
    time.sleep(1)
    
    soup = BeautifulSoup(browser.page_source, 'lxml')
    a = soup.find_all('div', class_='body-titleRow-AvL3d')
    print(a)
    
    browser.quit()
    

    这里发生了什么?浏览器以所谓的隐身模式加载,这有助于隐藏浏览器由自动化软件控制的事实。但是,并非总是如此,也并非在所有网站上都如此。然后某些选项被设置到浏览器。转换到 Avito 页面,加载页面,然后我使用你的代码,只加载浏览器接收到的结果。现在,您要查找的标签已成功找到。

    在此处输入图像描述

    所以,是的,对于像 Avito 这样的网站,具有动态内容和各种解析器和抓取工具的保护,您可以使用 selenium。

    UPD:我忘了提到,在这个例子中,驱动程序应该在项目目录的“chromedriver”文件夹中。

    希望我的解释对你有一点帮助。

    • 2

相关问题

  • 是否可以以某种方式自定义 QTabWidget?

  • telebot.anihelper.ApiException 错误

  • Python。检查一个数字是否是 3 的幂。输出 无

  • 解析多个响应

  • 交换两个数组的元素,以便它们的新内容也反转

Sidebar

Stats

  • 问题 10021
  • Answers 30001
  • 最佳答案 8000
  • 用户 6900
  • 常问
  • 回答
  • Marko Smith

    我看不懂措辞

    • 1 个回答
  • Marko Smith

    请求的模块“del”不提供名为“default”的导出

    • 3 个回答
  • Marko Smith

    "!+tab" 在 HTML 的 vs 代码中不起作用

    • 5 个回答
  • Marko Smith

    我正在尝试解决“猜词”的问题。Python

    • 2 个回答
  • Marko Smith

    可以使用哪些命令将当前指针移动到指定的提交而不更改工作目录中的文件?

    • 1 个回答
  • Marko Smith

    Python解析野莓

    • 1 个回答
  • Marko Smith

    问题:“警告:检查最新版本的 pip 时出错。”

    • 2 个回答
  • Marko Smith

    帮助编写一个用值填充变量的循环。解决这个问题

    • 2 个回答
  • Marko Smith

    尽管依赖数组为空,但在渲染上调用了 2 次 useEffect

    • 2 个回答
  • Marko Smith

    数据不通过 Telegram.WebApp.sendData 发送

    • 1 个回答
  • Martin Hope
    Alexandr_TT 2020年新年大赛! 2020-12-20 18:20:21 +0000 UTC
  • Martin Hope
    Alexandr_TT 圣诞树动画 2020-12-23 00:38:08 +0000 UTC
  • Martin Hope
    Air 究竟是什么标识了网站访问者? 2020-11-03 15:49:20 +0000 UTC
  • Martin Hope
    Qwertiy 号码显示 9223372036854775807 2020-07-11 18:16:49 +0000 UTC
  • Martin Hope
    user216109 如何为黑客设下陷阱,或充分击退攻击? 2020-05-10 02:22:52 +0000 UTC
  • Martin Hope
    Qwertiy 并变成3个无穷大 2020-11-06 07:15:57 +0000 UTC
  • Martin Hope
    koks_rs 什么是样板代码? 2020-10-27 15:43:19 +0000 UTC
  • Martin Hope
    Sirop4ik 向 git 提交发布的正确方法是什么? 2020-10-05 00:02:00 +0000 UTC
  • Martin Hope
    faoxis 为什么在这么多示例中函数都称为 foo? 2020-08-15 04:42:49 +0000 UTC
  • Martin Hope
    Pavel Mayorov 如何从事件或回调函数中返回值?或者至少等他们完成。 2020-08-11 16:49:28 +0000 UTC

热门标签

javascript python java php c# c++ html android jquery mysql

Explore

  • 主页
  • 问题
    • 热门问题
    • 最新问题
  • 标签
  • 帮助

Footer

RError.com

关于我们

  • 关于我们
  • 联系我们

Legal Stuff

  • Privacy Policy

帮助

© 2023 RError.com All Rights Reserve   沪ICP备12040472号-5