RError.com

RError.com Logo RError.com Logo

RError.com Navigation

  • 主页

Mobile menu

Close
  • 主页
  • 系统&网络
    • 热门问题
    • 最新问题
    • 标签
  • Ubuntu
    • 热门问题
    • 最新问题
    • 标签
  • 帮助
主页 / 问题 / 1514527
Accepted
shezyy
shezyy
Asked:2023-04-20 04:39:43 +0000 UTC2023-04-20 04:39:43 +0000 UTC 2023-04-20 04:39:43 +0000 UTC

解析的时候,取的是英文版的站点

  • 772

我正在编写一个应该采用折扣结束日期的解析器,但出于某种原因,采用了网站的英文版本,尽管在标头中指定了接受语言。请帮忙解析俄罗斯数据!

import requests
from bs4 import BeautifulSoup
import re


def get_data(url):
    headers = {
        'Accept-Language': 'ru-RU,ru;q=0.9,en-US;q=0.8,en;q=0.7',
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) '
                      'Chrome/112.0.0.0 Safari/537.36'

    }

    req = requests.get(url, headers)
    soup = BeautifulSoup(req.text, 'lxml')
    date = soup.find('p', class_='game_purchase_discount_countdown').text
    regex_pattern = r'(\d{1,2})\s+(\w+)'

    match = re.search(regex_pattern, date)

    if match:
        day = match.group(1)
        month = match.group(2).capitalize()
        print(f"{day} {month}")
    

get_data("https://store.steampowered.com/app/552500/Warhammer_Vermintide_2/")

结论:

25 April
парсер
  • 1 1 个回答
  • 30 Views

1 个回答

  • Voted
  1. Best Answer
    DiMithras
    2023-04-21T06:41:36Z2023-04-21T06:41:36Z

    @Daniil Loban,你是徒劳的,当然......这里的一切都很好,而且非常简单,不像这个问题,课程是通过后端设置加载的。并使用 Selenium 进行解析 - 好吧,就是这样。

    在那里,一切都很棒。
    让我们重复最少的代码:

    import requests
    from bs4 import BeautifulSoup as BS
    import re
    
    s = requests.Session()
    r = s.get('https://store.steampowered.com/app/552500/Warhammer_Vermintide_2/')
    soup = BS(r.content, 'lxml')
    
    regex_pattern = r'(\d{1,2})\s+(\w+)'
    
    offer = soup.find('p', class_='game_purchase_discount_countdown').text
    date = re.search(regex_pattern, offer)[0] 
    print(date)
    
    结论:
    25 April
    

    可预测。
    如您所见,我什至没有理会标题。现在,让我们看看当您登录 Steam 并更改语言时会发生什么!不用挖很久,我们进去狐狸看cookie,有招摇的名字Steam_Language。我们拿起它并添加一个 cookie,我在这里更详细地讨论了它们的创建。

    s.cookies.set('Steam_Language', 'russian', domain='store.steampowered.com')
    

    我们再次获得页面、解析器、正则表达式和‥ 我们得到April 25,干杯!


    选择

    但是,正如您被正确告知的那样,如果它根本无法解决问题,那么您需要寻找替代方案。好吧,例如,翻译:

    from deep_translator import GoogleTranslator
    translated = GoogleTranslator(source='en', target='ru').translate(date)
    print(translated)
    
    结论:
    25 апреля
    

    总的来说,到这里就可以完成答案了,我们得到了我们想要的,我们用cookies得到的更早,但是因为 我们心爱的俄语既美妙又复杂,翻译时可能不会那么美妙,例如,如果您删除25或翻译者没有猜出正确的大小写:

    translated = GoogleTranslator(source='en', target='ru').translate(date[3:])
    print(translated)
    
    结论:
    апрель
    

    巴赫,四月。
    主格。事实上,这种情况不仅在翻译中很流行。可以做什么?
    使用pymorphy:

    import pymorphy2
    morph = pymorphy2.MorphAnalyzer()
    morphed = morph.parse(translated)[0].inflect({'gent'}).word
    print(morphed)
    
    结论:
    апреля
    

    所以,我们使用 cookies 并且知道如何替代 🥰


    更新程序

    在关闭浏览器之前,我再次查看了那里有什么 cookie。结果也很有趣timezoneOffset,我建议也添加它,因为。处理日期。

    • 3

相关问题

  • 类型方法调用期间不赋值

  • 如何使用 html 包使用 Dart 语言解析来自 html 的链接?

  • 解析 Yandex.market

  • 通过硒禁止

  • 如何从产品特性表中解析重量值?

  • 如何让网站“记住”自己,Rselenium

Sidebar

Stats

  • 问题 10021
  • Answers 30001
  • 最佳答案 8000
  • 用户 6900
  • 常问
  • 回答
  • Marko Smith

    我看不懂措辞

    • 1 个回答
  • Marko Smith

    请求的模块“del”不提供名为“default”的导出

    • 3 个回答
  • Marko Smith

    "!+tab" 在 HTML 的 vs 代码中不起作用

    • 5 个回答
  • Marko Smith

    我正在尝试解决“猜词”的问题。Python

    • 2 个回答
  • Marko Smith

    可以使用哪些命令将当前指针移动到指定的提交而不更改工作目录中的文件?

    • 1 个回答
  • Marko Smith

    Python解析野莓

    • 1 个回答
  • Marko Smith

    问题:“警告:检查最新版本的 pip 时出错。”

    • 2 个回答
  • Marko Smith

    帮助编写一个用值填充变量的循环。解决这个问题

    • 2 个回答
  • Marko Smith

    尽管依赖数组为空,但在渲染上调用了 2 次 useEffect

    • 2 个回答
  • Marko Smith

    数据不通过 Telegram.WebApp.sendData 发送

    • 1 个回答
  • Martin Hope
    Alexandr_TT 2020年新年大赛! 2020-12-20 18:20:21 +0000 UTC
  • Martin Hope
    Alexandr_TT 圣诞树动画 2020-12-23 00:38:08 +0000 UTC
  • Martin Hope
    Air 究竟是什么标识了网站访问者? 2020-11-03 15:49:20 +0000 UTC
  • Martin Hope
    Qwertiy 号码显示 9223372036854775807 2020-07-11 18:16:49 +0000 UTC
  • Martin Hope
    user216109 如何为黑客设下陷阱,或充分击退攻击? 2020-05-10 02:22:52 +0000 UTC
  • Martin Hope
    Qwertiy 并变成3个无穷大 2020-11-06 07:15:57 +0000 UTC
  • Martin Hope
    koks_rs 什么是样板代码? 2020-10-27 15:43:19 +0000 UTC
  • Martin Hope
    Sirop4ik 向 git 提交发布的正确方法是什么? 2020-10-05 00:02:00 +0000 UTC
  • Martin Hope
    faoxis 为什么在这么多示例中函数都称为 foo? 2020-08-15 04:42:49 +0000 UTC
  • Martin Hope
    Pavel Mayorov 如何从事件或回调函数中返回值?或者至少等他们完成。 2020-08-11 16:49:28 +0000 UTC

热门标签

javascript python java php c# c++ html android jquery mysql

Explore

  • 主页
  • 问题
    • 热门问题
    • 最新问题
  • 标签
  • 帮助

Footer

RError.com

关于我们

  • 关于我们
  • 联系我们

Legal Stuff

  • Privacy Policy

帮助

© 2023 RError.com All Rights Reserve   沪ICP备12040472号-5