RError.com

RError.com Logo RError.com Logo

RError.com Navigation

  • 主页

Mobile menu

Close
  • 主页
  • 系统&网络
    • 热门问题
    • 最新问题
    • 标签
  • Ubuntu
    • 热门问题
    • 最新问题
    • 标签
  • 帮助
主页 / 问题 / 653055
Accepted
Капитан Флинт
Капитан Флинт
Asked:2020-04-13 05:52:15 +0000 UTC2020-04-13 05:52:15 +0000 UTC 2020-04-13 05:52:15 +0000 UTC

简单的 HTML DOM 解析器同时查找具有两个类的元素

  • 772

我解析了 Lenta.ru 档案。您只需要选择当天的新闻,没有类别,也就是说,您需要同时具有项目和新闻类的所有div,在所有这些div中,您需要选择 a 元素,相对而言,显示/得到href。

有效但无法正常工作的版本如下所示:

$news = $html->find( 'div[class=news] a' );
foreach( $news as $element ):
    echo $element->href . "\n";
endforeach;

错误,因为选择仅适用于带有news类的div,但您需要选择带有item和news类的div。

试过这样的:

$news = $html->find( 'div[class=item news] a' );

...所以:

$news = $html->find( 'div.item.news a' );

...所以:

$news = $html->find( 'div[class="item news"] a' );

不起作用。我分别在这里和这里找到了这些选项。使用 Simple HTML DOM Parser 是基础吗?不,这不是必需的。但是我已经熟悉它并且有使用它的经验,所以选择就落在了它身上。

还有一个想法:先找所有class = item的div,再找其中所有class = news的div ,然后在每个div中找a,没成功。据我了解,方法链是一个la

$news = $html->find( 'div[class=item]' )->find( 'div[class=news] a' );

不会工作(对我不起作用)。怎样成为?

PS我会补充。现在我在这里再次查看,是的,解决方案正在运行,一切正常。如果您完全注册所有课程:

$news = $html->find( 'div[class=item news b-tabloid__topic_news] a' );

但事实是,最后一个类b-tabloid__topic_news并不存在于任何地方,也就是说,它的存在不是必需的。是的,可以用数组编写算法代码,我们首先寻找这样的,然后是其他的,粘合,排序等,但恕我直言,这是错误的。一般来说,问题可以重新表述如下:如何在类中找到所有具有正确元素的元素?

php
  • 1 1 个回答
  • 10 Views

1 个回答

  • Voted
  1. Best Answer
    teran
    2020-04-13T17:44:24Z2020-04-13T17:44:24Z

    一般来说,很明显这个库无法正确处理选择器,其中两个或多个类被列在一行中。但是,您通常使用报名表寻找正确的方向div[class=...]。

    考虑原始测试用例:

    $txt =  <<<HTML
    <div>
        <div class="news"><a  href="qwe">qwe123</a></div>
        <div class="items"><a href="asd">asd123<a/></div>
        <div class="news items qwe">
            <a href="zxc">zxc123</a>
        </div>
    </div>
    HTML;
    
    $html = str_get_html($txt);
    

    让我们的任务是查找div.news.items并显示链接文本的值zxc123。如您所写,表格的调用

    $html->find('.news.items a);
    

    返回一个空集。但是,一般来说这等同于写作div[class="news items"]. 如您所知,除了属性 的直接相等性之外=,其他形式的表示法也是可能的,例如,*=。

    如果您查看Simple HTML DOM,您会发现下面的选择器测试函数(代码未完全显示):

    protected function match($exp, $pattern, $value) { 
        switch ($exp) {    
            case '=':    
                return ($value===$pattern);    
    ......
            case '*=':    
                if ($pattern[0]=='/') {    
                    return preg_match($pattern, $value);    
                }    
                return preg_match("/".$pattern."/i", $value);    
        }    
        return false;    
    }    
    

    这表明在指定直接相等时,使用了通常的字符串比较(它们以前被简化为相同的大小写)。但是在指定 occurrence 时*=,会使用正则表达式。因此,使用这样的选择器将解决您正在寻找的问题。而且,我们可以直接在选择器中指定正则表达式。因此代码

    $html->find("div[class*=news items] a");
    

    对于给定的源示例,成功找到参考实例<a href="zxc">zxc123</a>。

    如上所述,使用正则表达式是可以接受的,所以如果源文本会有一组更复杂的类zxc news asd items qwe,但适合我们:

        <div class="zxc news asd items qwe">
            <a href="zxc">zxc123</a>
        </div>
    

    然后编写以下选择器将解决这种情况:

    $html->find("div[class*=news.+items] a");
    

    或者如果类的顺序items和news可以改变,那么下面的表达式是可能的:

    $html->find("div[class*=news.+items|items.+news] a");
    

    PS:这种行为似乎没有记录,但它似乎不是 hack-bug,因为条件明确写在代码中,检查正则表达式的第一个字符。

    • 5

相关问题

Sidebar

Stats

  • 问题 10021
  • Answers 30001
  • 最佳答案 8000
  • 用户 6900
  • 常问
  • 回答
  • Marko Smith

    Python 3.6 - 安装 MySQL (Windows)

    • 1 个回答
  • Marko Smith

    C++ 编写程序“计算单个岛屿”。填充一个二维数组 12x12 0 和 1

    • 2 个回答
  • Marko Smith

    返回指针的函数

    • 1 个回答
  • Marko Smith

    我使用 django 管理面板添加图像,但它没有显示

    • 1 个回答
  • Marko Smith

    这些条目是什么意思,它们的完整等效项是什么样的

    • 2 个回答
  • Marko Smith

    浏览器仍然缓存文件数据

    • 1 个回答
  • Marko Smith

    在 Excel VBA 中激活工作表的问题

    • 3 个回答
  • Marko Smith

    为什么内置类型中包含复数而小数不包含?

    • 2 个回答
  • Marko Smith

    获得唯一途径

    • 3 个回答
  • Marko Smith

    告诉我一个像幻灯片一样创建滚动的库

    • 1 个回答
  • Martin Hope
    Air 究竟是什么标识了网站访问者? 2020-11-03 15:49:20 +0000 UTC
  • Martin Hope
    Алексей Шиманский 如何以及通过什么方式来查找 Javascript 代码中的错误? 2020-08-03 00:21:37 +0000 UTC
  • Martin Hope
    Qwertiy 号码显示 9223372036854775807 2020-07-11 18:16:49 +0000 UTC
  • Martin Hope
    user216109 如何为黑客设下陷阱,或充分击退攻击? 2020-05-10 02:22:52 +0000 UTC
  • Martin Hope
    Qwertiy 并变成3个无穷大 2020-11-06 07:15:57 +0000 UTC
  • Martin Hope
    koks_rs 什么是样板代码? 2020-10-27 15:43:19 +0000 UTC
  • Martin Hope
    user207618 Codegolf——组合选择算法的实现 2020-10-23 18:46:29 +0000 UTC
  • Martin Hope
    Sirop4ik 向 git 提交发布的正确方法是什么? 2020-10-05 00:02:00 +0000 UTC
  • Martin Hope
    faoxis 为什么在这么多示例中函数都称为 foo? 2020-08-15 04:42:49 +0000 UTC
  • Martin Hope
    Pavel Mayorov 如何从事件或回调函数中返回值?或者至少等他们完成。 2020-08-11 16:49:28 +0000 UTC

热门标签

javascript python java php c# c++ html android jquery mysql

Explore

  • 主页
  • 问题
    • 热门问题
    • 最新问题
  • 标签
  • 帮助

Footer

RError.com

关于我们

  • 关于我们
  • 联系我们

Legal Stuff

  • Privacy Policy

帮助

© 2023 RError.com All Rights Reserve   沪ICP备12040472号-5