2020年新年大赛！

Question

Coffee inTime

Asked:2020-11-30 23:37:01 +0000 UTC2020-11-30 23:37:01 +0000 UTC 2020-11-30 23:37:01 +0000 UTC

BeautifulSoup4 根据 h3 标签获取内容并删除该标签

772

我在解析时得到这个 HTML 代码：

<div class="row tab-pane" id="tab-description">

  <div class="col-md-6">
        <h3>Описание Makita 4329 Лобзик электрический</h3>
        <ul>
            <li><span>Новый эргономичный дизайн </span></li>
            <li><span>Удобная D-образная рукоятка с резиновыми вставками </span></li>
            <li>Маятниковый ход </li>
        </ul>
    </div>

    <div class="col-md-6">
        <h3>Характеристики Makita 4329 Лобзик электрический</h3>
        <table class="reviewtab table table-striped">
            <tbody>
                <tr>
                    <td>Производитель</td>
                    <td class="odd" itemprop="brand"> Makita </td>
                </tr>
                <tr>
                    <td>Страна происхождения</td>
                    <td class="odd"> Япония </td>
                </tr>
                <tr>
                    <td>Штрих код:</td>
                    <td class="odd">088381083102</td>
                </tr>
            </tbody>
        </table>
    </div>

</div>

它有我需要的 2 个 div，类为“col-md-6”。我需要得到除h3之外的所有这些，这是一个例子：

获取描述

<ul>
    <li><span>Новый эргономичный дизайн </span></li>
    <li><span>Удобная D-образная рукоятка с резиновыми вставками </span></li>
    <li>Маятниковый ход </li>
</ul>

我得到特征

<table class="reviewtab table table-striped">
    <tbody>
        <tr>
            <td>Производитель</td>
            <td class="odd" itemprop="brand"> Makita </td>
        </tr>
        <tr>
            <td>Страна происхождения</td>
            <td class="odd"> Япония </td>
        </tr>
        <tr>
            <td>Штрих код:</td>
            <td class="odd">088381083102</td>
        </tr>
    </tbody>
</table>

以下是我遇到的问题：

1）可能缺少其中一个块，您需要以某种方式“理解”描述在哪里，以及特征在哪里。在这种情况下它会流行什么，在这种情况下应该使用库的哪些方法？

2）我怎样才能删除我不需要的h3s？

2 个回答

Voted

Евгений · Answer 1 · 2020-12-01T00:49:17Z

Евгений

2020-12-01T00:49:17Z2020-12-01T00:49:17Z

<h3>.*</h3>可以使用正则表达式（即<h3> любая последовательность символов </h3>）从代码中提取所有 h3 标头及其内容。

唯一的问题是，如果“body” div 内还有其他人<h3></h3>，它们也会被排除在外。

如果“正文”内没有第三级标题 - 只需<h3>.*</h3>通过用于处理正则表达式的库删除正则表达式出现的所有结果（取决于执行解析的语言）

升级版：

要区分描述在哪里，特征在哪里，可以先检查div中是否有正则表达式，<h3>Описание.*</h3>或者<h3>Характеристики.*</h3>根据这些正则表达式的存在判断块类型，然后才删除h3，如上所示

2

nomnoms12 · Answer 2 · 2020-12-01T01:25:20Z

h3您可以在其中找到标签div并从中提取第一个单词，这将表明该块的用途。extract然后在解析后使用该方法将其删除。

例子：

from bs4 import BeautifulSoup


def main():
    with open('index.html', encoding='utf-8') as f:
        html = f.read()
    soup = BeautifulSoup(html, 'lxml')

    divs = soup.find_all('div', {'class': 'col-md-6'})
    for div in divs:
        h3 = div.find('h3')
        title = h3.get_text().split()[0]
        h3.extract()

        print(f'{title}:')
        print(div.prettify())
        print('=' * 73, end='\n\n')


if __name__ == '__main__':
    main()

标准输出：

Описание:
<div class="col-md-6">
 <ul>
  <li>
   <span>
    Новый эргономичный дизайн
   </span>
  </li>
  <li>
   <span>
    Удобная D-образная рукоятка с резиновыми вставками
   </span>
  </li>
  <li>
   Маятниковый ход
  </li>
 </ul>
</div>

=========================================================================

Характеристики:
<div class="col-md-6">
 <table class="reviewtab table table-striped">
  <tbody>
   <tr>
    <td>
     Производитель
    </td>
    <td class="odd" itemprop="brand">
     Makita
    </td>
   </tr>
   <tr>
    <td>
     Страна происхождения
    </td>
    <td class="odd">
     Япония
    </td>
   </tr>
   <tr>
    <td>
     Штрих код:
    </td>
    <td class="odd">
     088381083102
    </td>
   </tr>
  </tbody>
 </table>
</div>

=========================================================================

BeautifulSoup4 根据 h3 标签获取内容并删除该标签

升级版：

根据浏览器窗口的大小调整背景图案的大小

理解for循环的执行逻辑

复制动态数组时出错（C++）

Or and If,elif,else 构造[重复]

如何构建支持 x64 的 APK

如何使按钮的输入宽度？

如何显示对象变量的名称？

如何循环一个函数？

LOWORD 宏有什么作用？

从字符串的开头删除直到并包括一个字符

BeautifulSoup4 根据 h3 标签获取内容并删除该标签

2 个回答

升级版：

相关问题