究竟是什么标识了网站访问者？

Question

federk

Asked:2020-02-27 01:21:44 +0000 UTC2020-02-27 01:21:44 +0000 UTC 2020-02-27 01:21:44 +0000 UTC

Python，解析文本中URL的正则表达式

772

最简单的正则表达式成功处理纯文本链接：

r'(https?://[\S]+)'

一切都适合它，但有时 html 到达，有必要将链接与标签隔离开来a。如果有类似的东西some text <a href="http://ya.ru">some text进来，结果将是：http://ya.ru>some

这是一个表达式：

r'(https?://[\S]+[>$])'

返回可接受的结果（末尾带有字符的链接>，然后可以简单地将其切断），但不再处理纯文本链接。

在Python中如何将这两个表达式合二为一，使用OR原理，一个一个地得到所有的匹配项？

试过了()|()- 它不起作用。第三方库在这个任务上做得很好，但是需要通过最简单的正则表达式来达到预期的结果。

3 个回答

Voted

Роман Владимиров · Answer 1 · 2020-02-27T01:59:27Z

Best Answer

Роман Владимиров

2020-02-27T01:59:27Z2020-02-27T01:59:27Z

最简单的：

(https?://[\w.-]+)

但它也会寻找无效链接。例如：https://.-ya_.5 如果您确定文本中链接的有效性，那么它是一个非常有效的选项。

1

l3ns · Answer 2 · 2020-07-20T18:06:31Z

l3ns

2020-07-20T18:06:31Z2020-07-20T18:06:31Z

这是它应该如何工作，试试看：

https?://[\S][^>]+

0

jfs · Answer 3 · 2020-02-27T13:07:23Z

jfs

2020-02-27T13:07:23Z2020-02-27T13:07:23Z

如果你想从 html 中获取链接，那么你应该使用 html 解析器。例如，美丽的汤：

#!/usr/bin/env python3
import bs4  # $ pip install beautifulsoup4

soup = bs4.BeautifulSoup(html_text, 'html.parser')
all_links = soup.find_all('a', href=True)

一般来说，正则表达式不适合 html 识别，即使在可以使用正则表达式的情况下，它也可能不是最佳选择。

-1

Python，解析文本中URL的正则表达式

Python 3.6 - 安装 MySQL (Windows)

C++ 编写程序“计算单个岛屿”。填充一个二维数组 12x12 0 和 1

返回指针的函数

我使用 django 管理面板添加图像，但它没有显示

这些条目是什么意思，它们的完整等效项是什么样的

浏览器仍然缓存文件数据

在 Excel VBA 中激活工作表的问题

为什么内置类型中包含复数而小数不包含？

获得唯一途径

告诉我一个像幻灯片一样创建滚动的库

Python，解析文本中URL的正则表达式

3 个回答

相关问题