有一个网站https://help.kontur.ru/,可以在其中下载该实用程序并检查计算机。像这样的东西怎么写呢?我该往哪边挖呢? Web 界面和实用程序本身之间的联系并不完全清楚
我想知道是否可以在 VK 中创建一个页面解析器来提取所有用户的图像(头像、墙壁、保存的照片等),以便通过神经元运行它们?我知道这听起来不太好,但如果这些图片属于公共领域并且将被自主处理,那为什么不呢。我对一个技术点感兴趣,是否可以做到这一点(例如,在Python中)?我只是还没有任何编写解析器的经验,我想知道该往哪个方向深入。
如何让浏览器只显示本地html文件而不联系网络资源?可以这么说,在没有互联网连接的情况下模仿工作。
我看到了几个 Chrome 扩展,但它们会干扰本地 html 文件的正常工作。
如何找到网站的API进行解析?
我开始研究Web-Scraping方法,在接收Json格式的文件时遇到了400、401、403错误等问题。
例如,我访问了 Magnit 网站,目标是在程序退出时收到产品卡。( https://magnit.ru/promo/ )
正如您在所附的屏幕截图中看到的,我需要的数据已正确显示,并且在输出中我以 Json 格式获取它。但是,如果我想在另一个窗口中打开该文件,我会得到这张图片:
它甚至没有触及Headrs
我所坐的WebDriver
东西Silenium
。我只是用普通浏览器访问那里,无法访问这本词典。
所以我想知道问题是什么以及如何解决?或者是防火墙的问题,它过滤了请求并只允许管理员访问此 API?(但是我如何在主页上访问此文件并获取所有这些卡作为响应?)也许有一些库Python 以便您可以以某种方式上传此文件?
是的,当然有拐杖,我怎样才能通过 再次解决这个问题Selenium
,只需加载整个页面并通过page_source
,结果收到一个可以轻松解析并获取这些卡片的 HTML 文件,但我不喜欢这种方法所有,因为一切都取决于与网站本身的稳定连接,这并不总是可能的,并且代码的工作时间更长(由于负载,相似之处可能存在例外,因此我将不得不等待很TimeoutExeption
长时间当它加载所有页面并将它们全部保存到我需要的目录中时,会生成一个新页面)。