如何从页面代码中获取所有网址?
有一个像这样的正则表达式:
pattern = r'''http[\:/a-zA-Z0-9\.\?\=&]*'''
但它切断了一些链接,也就是说,如果有一个像“https://ria.ru/20220111/kazakhstan-1767350602.html”这样的链接,那么输出就是“https://ria.ru/20220111/kazakhstan” "
如何从页面代码中获取所有网址?
有一个像这样的正则表达式:
pattern = r'''http[\:/a-zA-Z0-9\.\?\=&]*'''
但它切断了一些链接,也就是说,如果有一个像“https://ria.ru/20220111/kazakhstan-1767350602.html”这样的链接,那么输出就是“https://ria.ru/20220111/kazakhstan” "
出于您的目的,我建议不要使用正则表达式,而是使用更快的表达式。例如图书馆
bs4。好吧,或者这里是解析 URL 的完整正则表达式: