我使用 urllib 获取参数:
from urllib import parse
for url in urls:
all_instances = parse.urlparse(url).query
dict_from_query = parse.parse_qs(query)
有一个不必要的参数列表:
qw = ["perpage", "h"]
以及链接列表:
urls = ["google.com/news?page=1&perpage=20", "google.com/news?h=34748fdg&page=20", "google.com/news?h=jshjdfh5&perpage=20"]
如何从链接中删除不必要的参数以得到以下列表:
urls = ["google.com/news?page=1", "google.com/news?page=20", "google.com/news"]
因为问题是关于正则表达式的,所以这是我的版本,难看,但它似乎有效:
在这种情况下,最好使用现成的解决方案。