分类导航

Perl 发布时间：2022-04-05 发布网站：大佬教程 code.js-code.com

大佬教程收集整理的这篇文章主要介绍了使用perl剥离HTML标记，大佬教程大佬觉得挺不错的，现在分享给大家，也给大家做个参考。

什么是在perl中剥离HTML标记的最简单方法.我正在使用正则表达式来解析URL的HTML,该URL工作得很好但是如何删除HTML标记？

这是我如何拉我的HTML

#!/usr/bin/perl -w
use Strict;
use warnings;
use LWP::Simple;
my $now_String = localtime;

my $html = get("http://www.spc.noaa.gov/climo/reports/last3hours.html")
    or die "Could not fetch NWS page.";
$html =~ s/<script.*?<\'/script>/sg;
$html =~ s/<.+?>//sg;
$html =~ m{(Hail Reports.*)Wind Reports}s || die;
my @hail = $1;@H_489_5@

解决方法

试图回答你误入歧途的问题

问题

进入正则表达式HTML是一个坏习惯,因为有很多规则和方法可以绕过它们,最终可能会使你的代码打开黑客技术.虽然你现在可能对简单的事情有合理的需求,但是重用代码很容易,并且忘记为什么重用代码是个坏主意,特别是当你不添加#这样的注释时,这段代码不安全,不应该是用于在其他任何地方解析HTML！或#ChrisTina Alguilera根据此代码编写歌曲！

需要大量正则表达式规则的HTML差异示例：

<div>...</div>
<div style="blah">
<div style="BACkground:url(../div)">
<div style=".." class='noticesinglequote'>@H_489_5@ 
 列表继续,这只适用于格式良好的HTMl.其他一些问题包括： 
 > HTML元素未正确关闭(例如< div>< span>< / div>< / span>)或根本没有
>拼写错误(例如< dvi> ..< / div>)
> HTML旨在打破您的脚本
>其他问题：评论,空白,字符集等 
 解 
 你可能已经接受了答案,但你应该看看XML::Parser和HTML::TreeBuilder. 
 您可能更感兴趣的是深入了解所需文档的某些部分(例如,< body>中的所有内容或其中的某个div),这就是您最有可能想要的原因.上述模块之一提供的东西.更不用说,解析器可用于尽力删除所有HTML元素并仅返回text / CData.

大佬总结

以上是大佬教程为你收集整理的使用perl剥离HTML标记全部内容，希望文章能够帮你解决使用perl剥离HTML标记所遇到的程序开发问题。

如果觉得大佬教程网站内容还不错，欢迎将大佬教程推荐给程序员好友。

本图文内容来源于网友网络收集整理提供，作为学习参考使用，版权属于原作者。
如您有任何意见或建议可联系处理。小编QQ：384754419，请注明来意。

标签：html perl 使用剥离标记

上一篇: 如何使用Perl在Windows上创建Uni... 下一篇:perl – 我应该使用CPAN的哪个软...

猜你在找的Perl相关文章

从国家自然科学基金里面爬取所有的基金项目 2022-04-07
不想做诗人的程序员不是一个好爸爸 2019-10-06
Perl6 Net::FTP Sample 2019-10-06
A Perl5 Script Copy File Via SSH 2019-10-06
Recursive Find File In Directory 2019-10-06
About Matrix 2019-10-06
A sample use perl www library 2019-10-06
perl post 请求加请求头的方法 2019-10-06
Openresty最佳案例 | 第3篇:Openresty的安装 2019-10-06
一款功能丰富的Perl后门程序分析 2019-10-06