C&C++   发布时间:2022-04-03  发布网站:大佬教程  code.js-code.com
大佬教程收集整理的这篇文章主要介绍了使用C中的Boost正则表达式缩小HTML大佬教程大佬觉得挺不错的,现在分享给大家,也给大家做个参考。
@H_419_4@

如何使用C缩小HTML

资源

外部库可能是答案,但我更希望改进我当前的代码.然我对其他可能性都很感兴趣.

目前的代码

这是我在the following answer中的解释.

我不得不从原帖中改变的唯一部分就是这一部分:“(?iX)
……还有一些逃脱的迹象

#include <boost/regex.hpp>
void minifyhtml(String* s) {
  boost::regex Nowhitespace(
    "(?iX)"
    "(?>"           // Match all whitespans other than single space.
    "[^\\S ]\\s*"   // Either one [\t\r\n\f\v] and zero or more ws,"| \\s{2,}"     // or two or more consecutive-any-whitespace.
    ")"             // Note: The remaining regex consumes no text at all...
    "(?="           // Ensure we are not in a blacklist tag.
    "[^<]*+"        // Either zero or more non-"<" {normal*}
    "(?:"           // Begin {(special normal*)*} construct
    "<"             // or a < starTing a non-blacklist tag.
    "(?!/?(?:textarea|pre|script)\\b)"
    "[^<]*+"        // more non-"<" {normal*}
    ")*+"           // Finish "unrolling-the-loop"
    "(?:"           // Begin alternation group.
    "<"             // Either a blacklist start tag.
    "(?>textarea|pre|script)\\b"
    "| \\z"         // or end of file.
    ")"             // End alternation group.
    ")"             // If we made it here,we are not in a blacklist tag.
  );

  // @todo Don't remove conditional html comments
  boost::regex nocomments("<!--(.*)-->");

  *s = boost::regex_replace(*s,Nowhitespace," ");
  *s = boost::regex_replace(*s,nocomments,"");
}

只有第一个正则表达式来自原始帖子,另一个是我正在研究的东西,应该被认为远非完整.它应该有希望很好地了解我尝试完成的任务.

@H_419_4@

解决方法

Regexps是一个强大的工具,但我认为在这种情况下使用它们将是一个坏主意.例如,您提供的正则表达式是维护噩梦.通过查看此正则表达式,您无法快速了解它应该匹配的内容.

您需要一个可以标记输入文件的html解析器,或者允许您以流或对象树的形式访问令牌.基本上读取令牌,丢弃那些您不需要的令牌和属性,然后将剩余的内容写入输出.使用这样的东西可以让你比使用regexp解决它更快地开发解决方案.

我想你可以使用Xml解析器,或者你可以搜索带有html支持的xml解析器.

在C中,libxml(可能有HTML支持块),Qt 4,Tinyxml,以及libstrophe使用某种可行的xml解析器.

请注意,C(尤其是C 03)可能不是此类程序的最佳语言.然我非常不喜欢python,但python有“Beautiful Soup”模块,可以很好地解决这类问题.

Qt 4可能有效,因为它提供了不错的unicode字符串类型(如果你要解析html,你将需要它).

@H_419_4@ @H_419_4@ @H_675_37@@H_419_4@
@H_419_4@
本图文内容来源于网友网络收集整理提供,作为学习参使用,版权属于原作者。

猜你在找的@R_628_4326@相关文章

运算符重载相当于运算符的函数重载,用于对已有的运算符进行重新定义,赋予其另一种功能,以适应不同的数据类型。我们之前提到过C++中的函数重载,可以根据形参的不同调用不同的函数,那么运算符重载跟函数重载的
C++ 在程序执行时,将内存大致分为代码区,全局区,栈区和堆区四个区域。不同的区域存储不同的数据,赋予不同的生命周期,能够更灵活地进行编程。 代码区:存放函数体的二进制代码,由操作系统管理创建,代码区
众所周知,C面向对象的三大特性为:封装,继承和多态。下面我们就先对封装做一些简单的了解。封装是通过C中的类来完成的,类是一种将抽象转换为用户定义类型的工具。类的定义如下: class circle {
一、map的基本概念 **map中所有的元素都是pair,即&quot;key-value&quot;,key起到索引的作用,value是实值。key和value通过一个映射关系来建立联系,**比如在
@L_801_42@
一、STL的基本概念 STL(Standard Template Library)标准模板库大体上分为六大组件,分别为容器,算法,迭代器,仿函数,适配器和空间配置器,其中最重要的是容器,算法和迭代器,
在C++的学习中,可以把类当作一个模具,类所实例化出来的对象就是根据这个模具所产生的实体,对象可以看作是我们自己创建的一个新的数据类型。本文主要介绍了类对象通过拷贝函数进行初始化,分析了类对象的内存模
在计算机存储数据时必须要知道三个基本要素:信息存储在何处?存储的值为多少?存储的值是什么类型?**因此指针是表示信息在内存中存储地址的一类特殊变量,指针和其所指向的变量就像是一个硬币的两面。**指针一
@L_772_45@
C/C++解题常用STL大礼包 含vector,map,set,queue(含优先队列) ,stack的常用用法

使用C中的Boost正则表达式缩小HTML

微信公众号搜 "程序精选"关注

大佬总结

以上是大佬教程为你收集整理的使用C中的Boost正则表达式缩小HTML全部内容,希望文章能够帮你解决使用C中的Boost正则表达式缩小HTML所遇到的程序开发问题。

如果觉得大佬教程网站内容还不错,欢迎将大佬教程推荐给程序员好友。

本图文内容来源于网友网络收集整理提供,作为学习参考使用,版权属于原作者。
如您有任何意见或建议可联系处理。小编QQ:384754419,请注明来意。
猜你在找的C&C++相关文章