是否可以以某种方式自定义 QTabWidget？

Question

Елена Сергеева

Asked:2022-06-12 23:11:05 +0000 UTC2022-06-12 23:11:05 +0000 UTC 2022-06-12 23:11:05 +0000 UTC

如何使用正则表达式从 html 页面获取所有 url？

772

如何从页面代码中获取所有网址？

有一个像这样的正则表达式：

pattern = r'''http[\:/a-zA-Z0-9\.\?\=&]*'''

但它切断了一些链接，也就是说，如果有一个像“https://ria.ru/20220111/kazakhstan-1767350602.html”这样的链接，那么输出就是“https://ria.ru/20220111/kazakhstan” "

1 个回答

Voted

Universall · Answer 1 · 2022-06-13T03:02:56Z

Best Answer

Universall

2022-06-13T03:02:56Z2022-06-13T03:02:56Z

出于您的目的，我建议不要使用正则表达式，而是使用更快的表达式。例如图书馆bs4。

import bs4
import requests

soup = bs4.BeautifulSoup(requests.get("https://www.google.com").text, "html.parser")
urls = soup.find_all("a")
clear_urls = [url.get("href") for url in urls]
print(clear_urls)

好吧，或者这里是解析 URL 的完整正则表达式：

3

如何使用正则表达式从 html 页面获取所有 url？

我看不懂措辞

请求的模块“del”不提供名为“default”的导出

"!+tab" 在 HTML 的 vs 代码中不起作用

我正在尝试解决“猜词”的问题。Python

可以使用哪些命令将当前指针移动到指定的提交而不更改工作目录中的文件？

Python解析野莓

问题：“警告：检查最新版本的 pip 时出错。”

帮助编写一个用值填充变量的循环。解决这个问题

尽管依赖数组为空，但在渲染上调用了 2 次 useEffect

数据不通过 Telegram.WebApp.sendData 发送

如何使用正则表达式从 html 页面获取所有 url？

1 个回答

相关问题