RError.com

RError.com Logo RError.com Logo

RError.com Navigation

  • 主页

Mobile menu

Close
  • 主页
  • 系统&网络
    • 热门问题
    • 最新问题
    • 标签
  • Ubuntu
    • 热门问题
    • 最新问题
    • 标签
  • 帮助
主页 / 问题 / 1478586
Accepted
Аске
Аске
Asked:2022-12-17 20:53:21 +0000 UTC2022-12-17 20:53:21 +0000 UTC 2022-12-17 20:53:21 +0000 UTC

我从 bs4 得到一个空数组

  • 772

我正在尝试解析来自站点的数据,但是出现了一个空数组,这是某种保护还是我不明白。附代码

import requests
from fake_useragent import UserAgent
from bs4 import BeautifulSoup
import json

url = 'https://tofunft.com/ru/collection/iguverse-nft/activities?category=listing'
ua = UserAgent()
headers = {'User-Agent': ua.chrome}

responce = requests.get(url, headers=headers)

soup = BeautifulSoup(responce.text, "html.parser")
find_data = soup.find_all('div', __class="chakra-stack")

print(find_data)
python
  • 1 1 个回答
  • 35 Views

1 个回答

  • Voted
  1. Best Answer
    DiMithras
    2022-12-18T00:17:09Z2022-12-18T00:17:09Z

    网站上有保护,但是和你的这些NFT一样,没用。您可以在 Tor 中打开页面以降低加载速度并查看那里发生了什么。

    是的,它是检查 cookie 和 JS 的 cloudflare 保护。但对于任何一位老妇来说,都有一个漏洞,特别是因为这种保护已经存在多年,因此也有解决方案。

    Cloudscraper重量只有 98 kB,不会加载像 Selenium 那样的资源,Selenium 会连同必要的数据一起加载其他一堆垃圾,非常易于使用。本质上是 requests 和 requests_toolbelt 的附加组件。

    import json
    import cloudscraper
    s = cloudscraper.create_scraper(delay=10,   browser={'custom': 'ScraperBot/1.0',})
    url = r'https://tofunft.com/_next/data/U1Z9uAYluX_zw7t7_5z3D/ru/collection/iguverse-nft/activities.json'
    params = {
        'category':'listing',
        'slug':'iguverse-nft'
    }
    # params['page'] = 2
    r = s.get(url, params=params)
    j = json.loads(r.content)
    for i in j['pageProps']['data']['searchResp']['data']:
        print(i['nft']['meta']['name'])
    
    输出:
    Office Rat
    Warrior
    Dumka
    Chester
    King
    King
    Bonya
    Swiper Boy
    Laemanctus White
    Diego
    Diego
    Ciffer
    Pink Floyd
    Laemanctus White
    Swiper Boy
    Kitpy
    Diego
    Red Bull
    Leri
    Cat
    

    这里的保护很薄弱,连headers都不要,你可以尽情的强奸这个网站。
    这意味着您从json收集所需的数据,将所有内容放入循环中,在循环中递增page并将所有这些混乱收集到 DataFrame 中。你可以在我的另一个答案中看到如何做到这一点:
    我无法解析动态站点,更准确地说,当我转到带有 json 的页面时,它给出了 405 错误

    建议

    我正在尝试解析来自网站的数据,但出现了一个空数组,这是某种保护措施还是我不明白

    根据您的代码,您不仅有一个空数组。看看它给你的是什么responce.status_code(反应是用S写的)。

    上帝,是403的,当然,你有一个空数组。

    • 3

相关问题

  • 是否可以以某种方式自定义 QTabWidget?

  • telebot.anihelper.ApiException 错误

  • Python。检查一个数字是否是 3 的幂。输出 无

  • 解析多个响应

  • 交换两个数组的元素,以便它们的新内容也反转

Sidebar

Stats

  • 问题 10021
  • Answers 30001
  • 最佳答案 8000
  • 用户 6900
  • 常问
  • 回答
  • Marko Smith

    我看不懂措辞

    • 1 个回答
  • Marko Smith

    请求的模块“del”不提供名为“default”的导出

    • 3 个回答
  • Marko Smith

    "!+tab" 在 HTML 的 vs 代码中不起作用

    • 5 个回答
  • Marko Smith

    我正在尝试解决“猜词”的问题。Python

    • 2 个回答
  • Marko Smith

    可以使用哪些命令将当前指针移动到指定的提交而不更改工作目录中的文件?

    • 1 个回答
  • Marko Smith

    Python解析野莓

    • 1 个回答
  • Marko Smith

    问题:“警告:检查最新版本的 pip 时出错。”

    • 2 个回答
  • Marko Smith

    帮助编写一个用值填充变量的循环。解决这个问题

    • 2 个回答
  • Marko Smith

    尽管依赖数组为空,但在渲染上调用了 2 次 useEffect

    • 2 个回答
  • Marko Smith

    数据不通过 Telegram.WebApp.sendData 发送

    • 1 个回答
  • Martin Hope
    Alexandr_TT 2020年新年大赛! 2020-12-20 18:20:21 +0000 UTC
  • Martin Hope
    Alexandr_TT 圣诞树动画 2020-12-23 00:38:08 +0000 UTC
  • Martin Hope
    Air 究竟是什么标识了网站访问者? 2020-11-03 15:49:20 +0000 UTC
  • Martin Hope
    Qwertiy 号码显示 9223372036854775807 2020-07-11 18:16:49 +0000 UTC
  • Martin Hope
    user216109 如何为黑客设下陷阱,或充分击退攻击? 2020-05-10 02:22:52 +0000 UTC
  • Martin Hope
    Qwertiy 并变成3个无穷大 2020-11-06 07:15:57 +0000 UTC
  • Martin Hope
    koks_rs 什么是样板代码? 2020-10-27 15:43:19 +0000 UTC
  • Martin Hope
    Sirop4ik 向 git 提交发布的正确方法是什么? 2020-10-05 00:02:00 +0000 UTC
  • Martin Hope
    faoxis 为什么在这么多示例中函数都称为 foo? 2020-08-15 04:42:49 +0000 UTC
  • Martin Hope
    Pavel Mayorov 如何从事件或回调函数中返回值?或者至少等他们完成。 2020-08-11 16:49:28 +0000 UTC

热门标签

javascript python java php c# c++ html android jquery mysql

Explore

  • 主页
  • 问题
    • 热门问题
    • 最新问题
  • 标签
  • 帮助

Footer

RError.com

关于我们

  • 关于我们
  • 联系我们

Legal Stuff

  • Privacy Policy

帮助

© 2023 RError.com All Rights Reserve   沪ICP备12040472号-5