RError.com

RError.com Logo RError.com Logo

RError.com Navigation

  • 主页

Mobile menu

Close
  • 主页
  • 系统&网络
    • 热门问题
    • 最新问题
    • 标签
  • Ubuntu
    • 热门问题
    • 最新问题
    • 标签
  • 帮助
主页 / 问题 / 1605247
Accepted
Medvedev
Medvedev
Asked:2025-01-21 14:14:05 +0000 UTC2025-01-21 14:14:05 +0000 UTC 2025-01-21 14:14:05 +0000 UTC

如何区分网站上的机器人和真实用户?

  • 772

管理面板中有一个简单的网站,您需要显示统计信息:每天、每月访问该网站的唯一用户总数等。

实施 IP 检查,以便检查对站点的每个请求。我通过发送 get 请求来检查 IPhttp://ipinfo.io/{ip_address}/

结果我注意到该网站收到了很多来自欧美国家的请求:

...
'ip': 'ip_adr', 'hostname': 'keok5.agenciasego.com.br', 'city': 'Denver', 'country': 'US'...
'ip': 'ip_adr', 'hostname': 'bc.googleusercontent.com', 'city': 'Brussels', 'country': 'BE' ...
'ip': 'ip_adr', 'hostname': 'msnbot.search.msn.com', 'city': 'Boydton', 'country': 'US' ...
...

我们能够使用主机名识别一些机器人,并且不会将它们添加到统计信息中,但并非所有地址都会在响应中收到主机名。

那么问题来了:如何区分真实用户和机器人,或者将用于统计的机器人数量减少到最少?存在哪些方法和选项?

将所有外部连接误认为机器人是不可行的,因为许多人都使用 VPN。

这些连接似乎很可疑,因为一天之内就收到了来自上海、新加坡、拉丁美洲国家等地向俄罗斯一个小型地区站点发出的多个请求。

http
  • 3 3 个回答
  • 72 Views

3 个回答

  • Voted
  1. Best Answer
    Пиу Пиу
    2025-01-21T15:39:28Z2025-01-21T15:39:28Z

    一般来说,机器人是为特定目的(搜索漏洞、管理面板、通过表单发送垃圾邮件等)而设计的脚本,用诸如 等语言编写php,python并通过根据协议发送请求来直接与站点交互http(s),而用户则通过浏览器执行此操作。

    也就是说,你需要区分脚本和用户,我会立即保留,目前有技术(Selenium)可以让你控制浏览器并模拟用户操作 - 但这些通常是专门为你的网站编写的程序,我们将考虑使用适合大多数站点的公开脚本的情况,因为正如您所说,您有一个小型区域站点,并且它不太可能如此有趣,以至于他们会专门使用Selenium.

    目前,捕获“机器人”的两种流行方法是:

    1. Fingerprint(您根据浏览器中安装的内容创建用户的“指纹” - 是否启用支持、连接了JS哪些脚本等。脚本将没有浏览器和支持,您将无法创建“指纹” - 这是“机器人”的标志)DLLFontsJS
    2. Honeypot(“美人计”) - 它的算法很简单,您style="display:none"在表单中创建一个对于普通用户不显示的字段(),例如checkbox,机器人会在发送之前尝试填写表单的所有字段,因为它们不知道他们能影响什么,但人类是不会看到这个领域的,因此不会填写。因此,如果在提交表单后该字段又被填写,那么这就是机器人的标志。

    PS 我想现在他们会向我扔拖鞋,他们会给你另外 100,500 个检测机器人的选项:)

    • 3
  2. Faraday
    2025-01-21T17:32:30Z2025-01-21T17:32:30Z

    我最近在实现临时访客帐户的功能时遇到了同样的问题。

    就我而言,我只是将创建访客帐户的功能与某些操作绑定在一起。机器人纯粹提出Get请求,仅此而已。您需要用户至少按下某个按钮。可能有一个接受的例子куков。同意或拒绝cookie策略已经表明这是一个真实的用户

    如果您需要具体计算到页面(或一般网站)的转换,可能最好的方法是简单地查看所有已知机器人的现成列表,并使用强力方法来确定它是否是是否是机器人。

    另一个不错的选择是使用/检查站点指纹。 Js FingerprintJs的优秀库

    此外,分析使用 的体验payment-провайдерами,有这样的事情Strong Customer Authentication,它需要(一如既往)付款用户的浏览器数据。这包括:

    • 浏览器屏幕高度
    • 浏览器屏幕宽度
    • 浏览器语言
    • 浏览器时区
    • 浏览器启用 Js
    • 浏览器 Ebbed Java(已弃用)
    • 浏览器颜色深度
    • 浏览器用户代理

    您可以在分析机器人时查看此信息。值得考虑的是,这是来自网站访问者浏览器的信息,泰铢不具备该信息

    • 3
  3. Alexandr
    2025-01-21T15:21:43Z2025-01-21T15:21:43Z

    将此任务交给那些长期关注机器人的人,例如 Yandex.metrics

    否则你必须自己为机器人设置 cookie 并检查它们或在 session/LocalStorage 中写入标签

    • -1

相关问题

  • 403 和 401 响应代码之间的区别

  • 是什么阻止了 Tor 入口节点解密流量

  • 如何在 gorilla/websocket 的连接中添加带有 cookie 的标头?

  • 在 github 页面的自定义域上删除重定向到 https

  • Golang HTTP 同步

  • 告诉我如何将 http.client 传递给函数

Sidebar

Stats

  • 问题 10021
  • Answers 30001
  • 最佳答案 8000
  • 用户 6900
  • 常问
  • 回答
  • Marko Smith

    我看不懂措辞

    • 1 个回答
  • Marko Smith

    请求的模块“del”不提供名为“default”的导出

    • 3 个回答
  • Marko Smith

    "!+tab" 在 HTML 的 vs 代码中不起作用

    • 5 个回答
  • Marko Smith

    我正在尝试解决“猜词”的问题。Python

    • 2 个回答
  • Marko Smith

    可以使用哪些命令将当前指针移动到指定的提交而不更改工作目录中的文件?

    • 1 个回答
  • Marko Smith

    Python解析野莓

    • 1 个回答
  • Marko Smith

    问题:“警告:检查最新版本的 pip 时出错。”

    • 2 个回答
  • Marko Smith

    帮助编写一个用值填充变量的循环。解决这个问题

    • 2 个回答
  • Marko Smith

    尽管依赖数组为空,但在渲染上调用了 2 次 useEffect

    • 2 个回答
  • Marko Smith

    数据不通过 Telegram.WebApp.sendData 发送

    • 1 个回答
  • Martin Hope
    Alexandr_TT 2020年新年大赛! 2020-12-20 18:20:21 +0000 UTC
  • Martin Hope
    Alexandr_TT 圣诞树动画 2020-12-23 00:38:08 +0000 UTC
  • Martin Hope
    Air 究竟是什么标识了网站访问者? 2020-11-03 15:49:20 +0000 UTC
  • Martin Hope
    Qwertiy 号码显示 9223372036854775807 2020-07-11 18:16:49 +0000 UTC
  • Martin Hope
    user216109 如何为黑客设下陷阱,或充分击退攻击? 2020-05-10 02:22:52 +0000 UTC
  • Martin Hope
    Qwertiy 并变成3个无穷大 2020-11-06 07:15:57 +0000 UTC
  • Martin Hope
    koks_rs 什么是样板代码? 2020-10-27 15:43:19 +0000 UTC
  • Martin Hope
    Sirop4ik 向 git 提交发布的正确方法是什么? 2020-10-05 00:02:00 +0000 UTC
  • Martin Hope
    faoxis 为什么在这么多示例中函数都称为 foo? 2020-08-15 04:42:49 +0000 UTC
  • Martin Hope
    Pavel Mayorov 如何从事件或回调函数中返回值?或者至少等他们完成。 2020-08-11 16:49:28 +0000 UTC

热门标签

javascript python java php c# c++ html android jquery mysql

Explore

  • 主页
  • 问题
    • 热门问题
    • 最新问题
  • 标签
  • 帮助

Footer

RError.com

关于我们

  • 关于我们
  • 联系我们

Legal Stuff

  • Privacy Policy

帮助

© 2023 RError.com All Rights Reserve   沪ICP备12040472号-5