圣诞树动画

Question

Linne

Asked:2020-07-24 19:12:41 +0000 UTC2020-07-24 19:12:41 +0000 UTC 2020-07-24 19:12:41 +0000 UTC

从 html 中获取图像和部分文本

772

你需要一个正则表达式来获取文章的第一张图片和一段300个字符的文本来构成文章的公告。

以一篇文章为例：

$content = '<img src="files/1.jpg" alt="" width="200px" />
<img src="files/2.jpg" alt="" width="200px" />
<img src="files/3.jpg" alt="" width="200px" />
<p>Lorem ipsum dolor sit amet, consectetur adipiscing elit, sed do eiusmod tempor incididunt ut labore et dolore magna aliqua. Ut enim ad minim veniam, quis nostrud exercitation ullamco laboris nisi ut aliquip ex ea commodo consequat. Duis aute irure dolor in reprehenderit in voluptate velit esse cillum dolore eu fugiat nulla pariatur. Excepteur sint occaecat cupidatat non proident, sunt in culpa qui officia deserunt mollit anim id est laborum.</p>';

有必要，我们只输出，比方说：

$content = '<img src="files/1.jpg" alt="" width="200px" />
<p>Lorem ipsum dolor sit amet, consectetur adipiscing elit, sed do eiusmod tempor incididunt ut labore et dolore magna aliqua...</p>';

非常希望输出已经带有 html 标记，如果文本被截断，则放置 <...> 和结束标记。

我真的希望得到帮助，我只是一个初学者编码器。

这是代码，但它只输出图像：

while ($row = $results->fetchArray()) {

    preg_match('/<img.+src=[\'"](?P<src>.+?)[\'"].*>/i', $row['content'], $image);

    echo 'id: ' . $row['id'] . '<br /> Дата и время: ' . $row['datetime'] . '<br /> Заголовок: ' . $row['title'] . '<br /> Категория: <a href="?category=' . $row['category'] . '">' . $row['category'] . '</a><br /> Контент: ' . $image['src'] . '<br />
        <a href="?article=' . $row['id'] . '">Читать</a>
        <br />-------------------------------------------------<br />';
}

4 个回答

Voted

vp_arth · Answer 1 · 2020-07-24T19:36:22Z

这种工作的最佳正则表达式是普通的 DOM 解析器。

$content = '<img src="files/1.jpg" alt="" width="200px" />
<img src="files/2.jpg" alt="" width="200px" />
<img src="files/3.jpg" alt="" width="200px" />
<p>Lorem ipsum dolor sit amet, consectetur adipiscing elit, sed do eiusmod tempor incididunt ut labore et dolore magna aliqua. Ut enim ad minim veniam, quis nostrud exercitation ullamco laboris nisi ut aliquip ex ea commodo consequat. Duis aute irure dolor in reprehenderit in voluptate velit esse cillum dolore eu fugiat nulla pariatur. Excepteur sint occaecat cupidatat non proident, sunt in culpa qui officia deserunt mollit anim id est laborum.</p>';

$dom = new DomDocument();
$dom->loadHTML($content);
$firstImage = $dom->getElementsByTagName('img')->item(0);
$src = $firstImage->attributes->getNamedItem('src')->nodeValue;
echo <<<IMG
<img src="{$src}" />
IMG;

$text = $dom->textContent;
$trunc300 = substr($text, 0, strpos($text, ' ', 300));
echo <<<HTML
<p>
  {$trunc300}
</p>
HTML;

Walfter · Answer 2 · 2020-07-24T19:26:01Z

Walfter

2020-07-24T19:26:01Z2020-07-24T19:26:01Z

为什么只是普通的？

例如，它可以是这样的

$content = '<img src="files/1.jpg" alt="" width="200px" />
<img src="files/2.jpg" alt="" width="200px" />
<img src="files/3.jpg" alt="" width="200px" />
<p>Lorem ipsum dolor sit amet, consectetur adipiscing elit, sed do eiusmod tempor incididunt ut labore et dolore magna aliqua. Ut enim ad minim veniam, quis nostrud exercitation ullamco laboris nisi ut aliquip ex ea commodo consequat. Duis aute irure dolor in reprehenderit in voluptate velit esse cillum dolore eu fugiat nulla pariatur. Excepteur sint occaecat cupidatat non proident, sunt in culpa qui officia deserunt mollit anim id est laborum.</p>';

$dom = new DOMDocument;
$dom->loadHTML($content);
$imgs = $dom->getElementsByTagName('img');
$src = $imgs[0]->getAttribute('src');
$width = $imgs[0]->getAttribute('width');
echo "<img src=\"$src\" width=\"$width\">";

1

user285292 · Answer 3 · 2020-07-24T19:56:30Z

Best Answer

user285292

2020-07-24T19:56:30Z2020-07-24T19:56:30Z

如果您是自行车迷，那么您可以这样做:)

preg_match('~<img.+/>\n?~', $content, $matches);

$text = preg_replace_callback('~<p>(.+)</p>~', function ($m) {
    return '<p>'.substr($m[1], 0, strpos($m[1], ' ', 300)).'...</p>'; 
}, preg_replace('~<img.+\n~', '', $content));

echo $matches[0] . $text;

1

mazzy · Answer 4 · 2020-07-24T21:51:27Z

mazzy

2020-07-24T21:51:27Z2020-07-24T21:51:27Z

同意以前的回答者 - 不要使用正则表达式来解析 html。

我只想补充一件事：正则表达式不是魔杖，也不是灵丹妙药。正则表达式是一种常见的有限状态机，一种分配内存用于存储小计的程序，循环执行操作，有时甚至使用递归。

正则表达式越复杂，它工作的时间就越长，消耗的内存就越多。

因此（如果你被正则表达式卡住而根本无法使用 DOM），通常最好使用多次传递。在您的情况下，第一遍最好找到文本，从图像开始直到并包括文本。并在第二次通过时，从中间结果中剔除多余的部分。

1

从 html 中获取图像和部分文本

是否可以在 C++ 中继承类 <---> 结构？

这种神经网络架构适合文本分类吗？

为什么分配的工作方式不同？

控制台中的光标坐标

如何在 C++ 中删除类的实例？

点是否属于线段的问题

json结构错误

ServiceWorker 中的“获取”事件

c ++控制台应用程序exe文件[重复]

按多列从sql表中选择

从 html 中获取图像和部分文本

4 个回答

相关问题