RError.com

RError.com Logo RError.com Logo

RError.com Navigation

  • 主页

Mobile menu

Close
  • 主页
  • 系统&网络
    • 热门问题
    • 最新问题
    • 标签
  • Ubuntu
    • 热门问题
    • 最新问题
    • 标签
  • 帮助
主页 / 问题 / 1506777
Accepted
Sergey
Sergey
Asked:2023-03-21 13:03:00 +0000 UTC2023-03-21 13:03:00 +0000 UTC 2023-03-21 13:03:00 +0000 UTC

BeautifulSoup 看不到嵌套在 <h4> 标签中的标签

  • 772

问题在标题中描述。没有什么可说的了。我在工作现场战斗了 2 天——我什么都听不懂。最后,我创建了一个可重现性最低的示例。

我们有一个 HTML 文件:

<!DOCTYPE html>
<html>
    <head>
        <title>Что внутри тега h4 ?</title>
        <meta charset="utf-8">
    </head>

    <body>
        <h4>
            111
            <p>(1880-1938)</p>
            222
            <p>Возчик артели возчиков, герой Русско-Японской и Первой мировой войн,
            полный Георгиевский кавалер;
            Расстрелян в г. Томске в 1938 году.</p>
            333
        </h4>
    </body>
</html>

还有一个行为非常奇怪的小 Python 程序:

#!/usr/bin/python3

from bs4 import BeautifulSoup

with open("index.html", "r") as f:
    contents = f.read()

    soup = BeautifulSoup(contents, 'lxml')

    print(f"HTML:")
    print(f"Тег Н4 полностью: {soup.h4}")
    print(f"Имя тега: {soup.h4.name}")
    print(f"Текст внутри тега: {soup.h4.text}")

尝试运行该程序。<h4>它会将字符串显示为标签的内容111。也就是说,标签的内容<p>是不可见的。好吧,就这样吧。但是线条222也不333可见!而且,如果我调用该方法.finf_all('p4'),什么也找不到!

这是库中的错误吗?或者是否有某种禁止在标签内放置任何标签<h?>?

python
  • 2 2 个回答
  • 36 Views

2 个回答

  • Voted
  1. Dmitry Websmith
    2023-03-21T13:43:42Z2023-03-21T13:43:42Z

    此代码有效:

    from bs4 import BeautifulSoup
    
    html = '''
    <!DOCTYPE html>
    <html>
        <head>
            <title>Что внутри тега h4 ?</title>
            <meta charset="utf-8">
        </head>
    
        <body>
            <h4>
                111
                <p>(1880-1938)</p>
                222
                <p>Возчик артели возчиков, герой Русско-Японской и Первой мировой войн,
                полный Георгиевский кавалер;
                Расстрелян в г. Томске в 1938 году.</p>
                333
            </h4>
        </body>
    </html>
    '''
    soup = BeautifulSoup(html, 'html.parser')
    h4 = soup.find('h4')
    for item in h4.findAll('p'):
        print(item)
    

    结果: 在此处输入图像描述

    • 2
  2. Best Answer
    gil9red
    2023-03-21T14:49:26Z2023-03-21T14:49:26Z

    确实,它lxml不起作用。对于它,标签h4在第一个嵌套标签之前关闭p:

    html = """
    ...
    </html>
    """
    soup = BeautifulSoup(html, 'lxml')
    print(soup.body)
    

    结果:

    <body>
    <h4>
                111
                </h4><p>(1880-1938)</p>
    ...
    

    尝试html.parser- 它有效并且它带有 python:

    from bs4 import BeautifulSoup
    
    html = """
    <!DOCTYPE html>
    <html>
        <head>
            <title>Что внутри тега h4 ?</title>
            <meta charset="utf-8">
        </head>
    
        <body>
            <h4>
                111
                <p>(1880-1938)</p>
                222
                <p>Возчик артели возчиков, герой Русско-Японской и Первой мировой войн,
                полный Георгиевский кавалер;
                Расстрелян в г. Томске в 1938 году.</p>
                333
            </h4>
        </body>
    </html>
    """
    soup = BeautifulSoup(html, 'html.parser')
    print(soup.body.h4.p)
    # <p>(1880-1938)</p>
    
    print(soup.find('h4').p)
    # <p>(1880-1938)</p>
    
    print(soup.select_one('h4 > p'))
    # <p>(1880-1938)</p>
    
    • 2

相关问题

  • 是否可以以某种方式自定义 QTabWidget?

  • telebot.anihelper.ApiException 错误

  • Python。检查一个数字是否是 3 的幂。输出 无

  • 解析多个响应

  • 交换两个数组的元素,以便它们的新内容也反转

Sidebar

Stats

  • 问题 10021
  • Answers 30001
  • 最佳答案 8000
  • 用户 6900
  • 常问
  • 回答
  • Marko Smith

    我看不懂措辞

    • 1 个回答
  • Marko Smith

    请求的模块“del”不提供名为“default”的导出

    • 3 个回答
  • Marko Smith

    "!+tab" 在 HTML 的 vs 代码中不起作用

    • 5 个回答
  • Marko Smith

    我正在尝试解决“猜词”的问题。Python

    • 2 个回答
  • Marko Smith

    可以使用哪些命令将当前指针移动到指定的提交而不更改工作目录中的文件?

    • 1 个回答
  • Marko Smith

    Python解析野莓

    • 1 个回答
  • Marko Smith

    问题:“警告:检查最新版本的 pip 时出错。”

    • 2 个回答
  • Marko Smith

    帮助编写一个用值填充变量的循环。解决这个问题

    • 2 个回答
  • Marko Smith

    尽管依赖数组为空,但在渲染上调用了 2 次 useEffect

    • 2 个回答
  • Marko Smith

    数据不通过 Telegram.WebApp.sendData 发送

    • 1 个回答
  • Martin Hope
    Alexandr_TT 2020年新年大赛! 2020-12-20 18:20:21 +0000 UTC
  • Martin Hope
    Alexandr_TT 圣诞树动画 2020-12-23 00:38:08 +0000 UTC
  • Martin Hope
    Air 究竟是什么标识了网站访问者? 2020-11-03 15:49:20 +0000 UTC
  • Martin Hope
    Qwertiy 号码显示 9223372036854775807 2020-07-11 18:16:49 +0000 UTC
  • Martin Hope
    user216109 如何为黑客设下陷阱,或充分击退攻击? 2020-05-10 02:22:52 +0000 UTC
  • Martin Hope
    Qwertiy 并变成3个无穷大 2020-11-06 07:15:57 +0000 UTC
  • Martin Hope
    koks_rs 什么是样板代码? 2020-10-27 15:43:19 +0000 UTC
  • Martin Hope
    Sirop4ik 向 git 提交发布的正确方法是什么? 2020-10-05 00:02:00 +0000 UTC
  • Martin Hope
    faoxis 为什么在这么多示例中函数都称为 foo? 2020-08-15 04:42:49 +0000 UTC
  • Martin Hope
    Pavel Mayorov 如何从事件或回调函数中返回值?或者至少等他们完成。 2020-08-11 16:49:28 +0000 UTC

热门标签

javascript python java php c# c++ html android jquery mysql

Explore

  • 主页
  • 问题
    • 热门问题
    • 最新问题
  • 标签
  • 帮助

Footer

RError.com

关于我们

  • 关于我们
  • 联系我们

Legal Stuff

  • Privacy Policy

帮助

© 2023 RError.com All Rights Reserve   沪ICP备12040472号-5