管理面板中有一个简单的网站,您需要显示统计信息:每天、每月访问该网站的唯一用户总数等。
实施 IP 检查,以便检查对站点的每个请求。我通过发送 get 请求来检查 IPhttp://ipinfo.io/{ip_address}/
结果我注意到该网站收到了很多来自欧美国家的请求:
...
'ip': 'ip_adr', 'hostname': 'keok5.agenciasego.com.br', 'city': 'Denver', 'country': 'US'...
'ip': 'ip_adr', 'hostname': 'bc.googleusercontent.com', 'city': 'Brussels', 'country': 'BE' ...
'ip': 'ip_adr', 'hostname': 'msnbot.search.msn.com', 'city': 'Boydton', 'country': 'US' ...
...
我们能够使用主机名识别一些机器人,并且不会将它们添加到统计信息中,但并非所有地址都会在响应中收到主机名。
那么问题来了:如何区分真实用户和机器人,或者将用于统计的机器人数量减少到最少?存在哪些方法和选项?
将所有外部连接误认为机器人是不可行的,因为许多人都使用 VPN。
这些连接似乎很可疑,因为一天之内就收到了来自上海、新加坡、拉丁美洲国家等地向俄罗斯一个小型地区站点发出的多个请求。
一般来说,机器人是为特定目的(搜索漏洞、管理面板、通过表单发送垃圾邮件等)而设计的脚本,用诸如 等语言编写
php,python并通过根据协议发送请求来直接与站点交互http(s),而用户则通过浏览器执行此操作。也就是说,你需要区分脚本和用户,我会立即保留,目前有技术(
Selenium)可以让你控制浏览器并模拟用户操作 - 但这些通常是专门为你的网站编写的程序,我们将考虑使用适合大多数站点的公开脚本的情况,因为正如您所说,您有一个小型区域站点,并且它不太可能如此有趣,以至于他们会专门使用Selenium.目前,捕获“机器人”的两种流行方法是:
Fingerprint(您根据浏览器中安装的内容创建用户的“指纹” - 是否启用支持、连接了JS哪些脚本等。脚本将没有浏览器和支持,您将无法创建“指纹” - 这是“机器人”的标志)DLLFontsJSHoneypot(“美人计”) - 它的算法很简单,您style="display:none"在表单中创建一个对于普通用户不显示的字段(),例如checkbox,机器人会在发送之前尝试填写表单的所有字段,因为它们不知道他们能影响什么,但人类是不会看到这个领域的,因此不会填写。因此,如果在提交表单后该字段又被填写,那么这就是机器人的标志。PS 我想现在他们会向我扔拖鞋,他们会给你另外 100,500 个检测机器人的选项:)
我最近在实现临时访客帐户的功能时遇到了同样的问题。
就我而言,我只是将创建访客帐户的功能与某些操作绑定在一起。机器人纯粹提出
Get请求,仅此而已。您需要用户至少按下某个按钮。可能有一个接受的例子куков。同意或拒绝cookie策略已经表明这是一个真实的用户如果您需要具体计算到页面(或一般网站)的转换,可能最好的方法是简单地查看所有已知机器人的现成列表,并使用强力方法来确定它是否是是否是机器人。
另一个不错的选择是使用/检查站点指纹。 Js FingerprintJs的优秀库
此外,分析使用 的体验
payment-провайдерами,有这样的事情Strong Customer Authentication,它需要(一如既往)付款用户的浏览器数据。这包括:您可以在分析机器人时查看此信息。值得考虑的是,这是来自网站访问者浏览器的信息,泰铢不具备该信息
将此任务交给那些长期关注机器人的人,例如 Yandex.metrics
否则你必须自己为机器人设置 cookie 并检查它们或在 session/LocalStorage 中写入标签