是否可以以某种方式自定义 QTabWidget？

Question

Dato Dato

Asked:2025-01-03 20:32:23 +0000 UTC2025-01-03 20:32:23 +0000 UTC 2025-01-03 20:32:23 +0000 UTC

如何对网站上的数据进行排序？

772

我正在学习解析 freelance.habr.com 网站。我收到了这种形式的所有数据：

Создать RDP доступ на арендованный сервер
 7 откликов  23 просмотра  37 минут назад
5 000 руб. за проект
Верстка одностраничного сайта на HTML+CSS3
 17 откликов  64 просмотра  ~ 1 час назад
договорная
...

但我怎样才能从线路中删除回复和观点呢？我怎样才能这样排序：

Задача: Создать RDP доступ на арендованный сервер
Дата: 37 минут назад
Цена: 5 000 руб. за проект
Задача: Верстка одностраничного сайта на HTML+CSS3
Дата: ~ 1 час назад
Цена: договорная

我正在尝试这样做：

            listHtml = soup.find("ul")
            #for i in listHtml.find_all("div", {"class": "task__title", "task__params"}):
            for divs in listHtml.find_all("div", class_=["task__title", "task__params","task__price"]):
            #for divs in listHtml.find_all("div", class_=["task__title"]):
                line = divs.text
                #listTitle.append(line)
                print(line)

也许最好将所有这些数据添加到字典中进行排序？

1 个回答

Voted

qwe11Lk · Answer 1 · 2025-01-03T22:10:43Z

解决方案：

只需解析您需要的内容即可。使用类名，您找到一个包含有关视图、响应和发布时间的数据的元素，每个元素都有自己的类，您只需要解析具有 class 的元素中的并非所有数据task__params。例如，指示发布时间的元素有一个类，params__published-at icon_task_publish_at尝试仅查找该元素并从中提取文本。

tasks = soup.find_all(class_="content-list__item")
    
for task in tasks:
    title, date, price = (task.find(class_="task__title").text, task.find(class_="params__published-at").text, task.find(class_="task__price").text) 
    
    print(f"Задача: {title}\nДата: {date}\nЦена: {price}")

更新2

如果需要将数据形成字典，其中键是任务，值是价格和日期，那么可以这样实现：


tasks = soup.find_all(class_="content-list__item")
data = {}
for task in tasks:
    title, date, price = (task.find(class_="task__title").text, task.find(class_="params__published-at").text, task.find(class_="task__price").text) 
    data = data | {
        title:(date, price)
    }

更新3

如果解析站点时出现 404 错误，并且您指定了正确的 url 地址，您可以尝试发送带有 headers 的请求user-agent，例如：

import requests
#прописываем самостоятельно заголовки user-agent, т.к. при обычной отправке запроса он исходит с user-agent от python requests, что понимает сервер и может блокировать запрос
headers = {'User-Agent': 'Mozilla/5.0 (compatible; HandsomeBrowser/1.2)'}

r = requests.get("https://hh.ru/search/vacancy?area=11&professional_role=4&professional_role=5&professional_role=62&professional_role=70&withTopFilterCatalog=true", headers=headers)

print(r.status_code)
#теперь же возвращает статус запроса 200, следовательно, запрос одобрен

如果请求收到状态 200，则意味着它已被批准，即您已经可以提取页面代码并解析它。

如何对网站上的数据进行排序？

我看不懂措辞

请求的模块“del”不提供名为“default”的导出

"!+tab" 在 HTML 的 vs 代码中不起作用

我正在尝试解决“猜词”的问题。Python

可以使用哪些命令将当前指针移动到指定的提交而不更改工作目录中的文件？

Python解析野莓

问题：“警告：检查最新版本的 pip 时出错。”

帮助编写一个用值填充变量的循环。解决这个问题

尽管依赖数组为空，但在渲染上调用了 2 次 useEffect

数据不通过 Telegram.WebApp.sendData 发送

如何对网站上的数据进行排序？

1 个回答

相关问题