Perl   发布时间:2022-04-05  发布网站:大佬教程  code.js-code.com
大佬教程收集整理的这篇文章主要介绍了使用perl剥离HTML标记大佬教程大佬觉得挺不错的,现在分享给大家,也给大家做个参考。
什么是在perl中剥离HTML标记的最简单方法.我正在使用正则表达式来解析URL的HTML,该URL工作得很好但是如何删除HTML标记?

这是我如何拉我的HTML

#!/usr/bin/perl -w
use Strict;
use warnings;
use LWP::Simple;
my $now_String = localtime;

my $html = get("http://www.spc.noaa.gov/climo/reports/last3hours.html")
    or die "Could not fetch NWS page.";
$html =~ s/<script.*?<\'/script>/sg;
$html =~ s/<.+?>//sg;
$html =~ m{(Hail Reports.*)Wind Reports}s || die;
my @hail = $1;@H_489_5@

解决方法

试图回答你误入歧途的问题

问题

进入正则表达式HTML是一个坏习惯,因为有很多规则和方法可以绕过它们,最终可能会使你的代码打开黑客技术.然你现在可能对简单的事情有合理的需求,但是重用代码很容易,并且忘记为什么重用代码是个坏主意,特别是当你不添加#这样的注释时,这段代码不安全,不应该是用于在其他任何地方解析HTML!或#ChrisTina Alguilera根据此代码编写歌曲!

需要大量正则表达式规则的HTML差异示例:

<div>...</div>
<div style="blah">
<div style="BACkground:url(../div)">
<div style=".." class='noticesinglequote'>@H_489_5@ 
 

列表继续,这只适用于格式良好的HTMl.其他一些问题包括:

> HTML元素未正确关闭(例如< div>< span>< / div>< / span>)或根本没有
>拼写错误(例如< dvi> ..< / div>)
> HTML旨在打破您的脚本
>其他问题:评论,空白,字符集等

你可能已经接受了答案,但你应该看看XML::ParserHTML::TreeBuilder.

您可能更感兴趣的是深入了解所需文档的某些部分(例如,< body>中的所有内容或其中的某个div),这就是您最有可能想要的原因.上述模块之一提供的东西.更不用说,解析器可用于尽力删除所有HTML元素并仅返回text / CData.

大佬总结

以上是大佬教程为你收集整理的使用perl剥离HTML标记全部内容,希望文章能够帮你解决使用perl剥离HTML标记所遇到的程序开发问题。

如果觉得大佬教程网站内容还不错,欢迎将大佬教程推荐给程序员好友。

本图文内容来源于网友网络收集整理提供,作为学习参考使用,版权属于原作者。
如您有任何意见或建议可联系处理。小编QQ:384754419,请注明来意。