我想解析 Perekrestok 商店的网站。
https://www.perekrestok.ru/cat/c/104/rastitelnoe-maslo
我编写了代码,一切正常,我得到了 html,我使用正则表达式做了我需要的事情。一周过去了,代码停止工作。抛出异常 403。我添加了一个标头(假装是浏览器),然后它再次开始返回 html,但不是我需要的。之前收到一个1MB左右的大文本,就好像我在浏览器里右键,看页面代码一样。现在我得到了一个22kB的小东西,里面没有商品,它们的价格等等。不。通过浏览器,一切都有效并且仍然有效。如果该网站认为我在发送垃圾邮件,我会理解,但我每 2 天就会解析 15 个链接。我不知道在哪里附上“错误”html 的示例。在这里复制粘贴是不人道的
https://dropmefiles.com/N9fRZ(22kB 文本文件,内含 html)
您需要获得与点击链接、右键单击并单击“查看页面代码”或从中提取产品、价格等相同的 html。
var client = new HttpClient();
client.DefaultRequestHeaders.Add("User-Agent",
"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/131.0.0.0 Safari/537.36");
string html = await client.GetStringAsync("https://www.perekrestok.ru/cat/c/104/rastitelnoe-maslo");```