是否可以以某种方式自定义 QTabWidget？

Question

Sergey

Asked:2023-03-21 13:03:00 +0000 UTC2023-03-21 13:03:00 +0000 UTC 2023-03-21 13:03:00 +0000 UTC

BeautifulSoup 看不到嵌套在 <h4> 标签中的标签

772

问题在标题中描述。没有什么可说的了。我在工作现场战斗了 2 天——我什么都听不懂。最后，我创建了一个可重现性最低的示例。

我们有一个 HTML 文件：

<!DOCTYPE html>
<html>
    <head>
        <title>Что внутри тега h4 ?</title>
        <meta charset="utf-8">
    </head>

    <body>
        <h4>
            111
            <p>(1880-1938)</p>
            222
            <p>Возчик артели возчиков, герой Русско-Японской и Первой мировой войн,
            полный Георгиевский кавалер;
            Расстрелян в г. Томске в 1938 году.</p>
            333
        </h4>
    </body>
</html>

还有一个行为非常奇怪的小 Python 程序：

#!/usr/bin/python3

from bs4 import BeautifulSoup

with open("index.html", "r") as f:
    contents = f.read()

    soup = BeautifulSoup(contents, 'lxml')

    print(f"HTML:")
    print(f"Тег Н4 полностью: {soup.h4}")
    print(f"Имя тега: {soup.h4.name}")
    print(f"Текст внутри тега: {soup.h4.text}")

尝试运行该程序。<h4>它会将字符串显示为标签的内容111。也就是说，标签的内容<p>是不可见的。好吧，就这样吧。但是线条222也不333可见！而且，如果我调用该方法.finf_all('p4')，什么也找不到！

这是库中的错误吗？或者是否有某种禁止在标签内放置任何标签<h?>？

2 个回答

Voted

Dmitry Websmith · Answer 1 · 2023-03-21T13:43:42Z

Dmitry Websmith

2023-03-21T13:43:42Z2023-03-21T13:43:42Z

此代码有效：

from bs4 import BeautifulSoup

html = '''
<!DOCTYPE html>
<html>
    <head>
        <title>Что внутри тега h4 ?</title>
        <meta charset="utf-8">
    </head>

    <body>
        <h4>
            111
            <p>(1880-1938)</p>
            222
            <p>Возчик артели возчиков, герой Русско-Японской и Первой мировой войн,
            полный Георгиевский кавалер;
            Расстрелян в г. Томске в 1938 году.</p>
            333
        </h4>
    </body>
</html>
'''
soup = BeautifulSoup(html, 'html.parser')
h4 = soup.find('h4')
for item in h4.findAll('p'):
    print(item)

结果：

2

gil9red · Answer 2 · 2023-03-21T14:49:26Z

确实，它lxml不起作用。对于它，标签h4在第一个嵌套标签之前关闭p：

html = """
...
</html>
"""
soup = BeautifulSoup(html, 'lxml')
print(soup.body)

结果：

<body>
<h4>
            111
            </h4><p>(1880-1938)</p>
...

尝试html.parser- 它有效并且它带有 python：

from bs4 import BeautifulSoup

html = """
<!DOCTYPE html>
<html>
    <head>
        <title>Что внутри тега h4 ?</title>
        <meta charset="utf-8">
    </head>

    <body>
        <h4>
            111
            <p>(1880-1938)</p>
            222
            <p>Возчик артели возчиков, герой Русско-Японской и Первой мировой войн,
            полный Георгиевский кавалер;
            Расстрелян в г. Томске в 1938 году.</p>
            333
        </h4>
    </body>
</html>
"""
soup = BeautifulSoup(html, 'html.parser')
print(soup.body.h4.p)
# <p>(1880-1938)</p>

print(soup.find('h4').p)
# <p>(1880-1938)</p>

print(soup.select_one('h4 > p'))
# <p>(1880-1938)</p>

BeautifulSoup 看不到嵌套在 <h4> 标签中的标签

我看不懂措辞

请求的模块“del”不提供名为“default”的导出

"!+tab" 在 HTML 的 vs 代码中不起作用

我正在尝试解决“猜词”的问题。Python

可以使用哪些命令将当前指针移动到指定的提交而不更改工作目录中的文件？

Python解析野莓

问题：“警告：检查最新版本的 pip 时出错。”

帮助编写一个用值填充变量的循环。解决这个问题

尽管依赖数组为空，但在渲染上调用了 2 次 useEffect

数据不通过 Telegram.WebApp.sendData 发送

BeautifulSoup 看不到嵌套在 <h4> 标签中的标签

2 个回答

相关问题