2020年新年大赛！

Question

Raharasomaha

Asked:2020-12-28 22:24:52 +0000 UTC2020-12-28 22:24:52 +0000 UTC 2020-12-28 22:24:52 +0000 UTC

在 python 中解析带有 SPA 的站点的最佳方法是什么？

772

我为此编写了这段代码：

import requests
from bs4 import BeautifulSoup


def get_html():
    r = requests.get(url='https://www.atptour.com/en/players/felix-auger-aliassime/ag37/overview')
    return r.text
html = get_html()

def get_career(html):
    soup = BeautifulSoup(html, 'lxml')
    career = soup.find('tr')
    print(career)


get_career(html)

但事情是这样的，我正在解析的链接是一个单页应用程序，因此，我需要的数据没有出现在页面的完整 html 代码中。

使用 SPA 抓取网站的最佳方法是什么？

1 个回答

Voted

anshap · Answer 1 · 2020-12-29T15:24:23Z

Best Answer

anshap

2020-12-29T15:24:23Z2020-12-29T15:24:23Z

from selenium import webdriver

chromedriver = 'C:\\Program Files (x86)\\chromedrv\\chromedriver.exe'   # путь к драйверу может быть любым
opts = webdriver.ChromeOptions()
opts.add_argument('headless')
browser = webdriver.Chrome(options=opts, executable_path=chromedriver)
# browser.implicitly_wait(20)
browser.get('https://www.atptour.com/en/players/felix-auger-aliassime/ag37/player-stats')
mtlist = browser.find_elements_by_class_name('mega-table')
for mt in  mtlist:
    print(mt.text + '\n')

使用 Selenium 库和 Chrome 浏览器的解析选项。

2

在 python 中解析带有 SPA 的站点的最佳方法是什么？

根据浏览器窗口的大小调整背景图案的大小

理解for循环的执行逻辑

复制动态数组时出错（C++）

Or and If,elif,else 构造[重复]

如何构建支持 x64 的 APK

如何使按钮的输入宽度？

如何显示对象变量的名称？

如何循环一个函数？

LOWORD 宏有什么作用？

从字符串的开头删除直到并包括一个字符

在 python 中解析带有 SPA 的站点的最佳方法是什么？

1 个回答

相关问题