大佬教程收集整理的这篇文章主要介绍了使用C中的Boost正则表达式缩小HTML,大佬教程大佬觉得挺不错的,现在分享给大家,也给大家做个参考。
如何使用C缩小HTML?
资源
外部库可能是答案,但我更希望改进我当前的代码.虽然我对其他可能性都很感兴趣.
目前的代码
这是我在the following answer中的解释.
我不得不从原帖中改变的唯一部分就是这一部分:“(?iX)”
……还有一些逃脱的迹象
#include <boost/regex.hpp> void minifyhtml(String* s) { boost::regex Nowhitespace( "(?iX)" "(?>" // Match all whitespans other than single space. "[^\\S ]\\s*" // Either one [\t\r\n\f\v] and zero or more ws,"| \\s{2,}" // or two or more consecutive-any-whitespace. ")" // Note: The remaining regex consumes no text at all... "(?=" // Ensure we are not in a blacklist tag. "[^<]*+" // Either zero or more non-"<" {normal*} "(?:" // Begin {(special normal*)*} construct "<" // or a < starTing a non-blacklist tag. "(?!/?(?:textarea|pre|script)\\b)" "[^<]*+" // more non-"<" {normal*} ")*+" // Finish "unrolling-the-loop" "(?:" // Begin alternation group. "<" // Either a blacklist start tag. "(?>textarea|pre|script)\\b" "| \\z" // or end of file. ")" // End alternation group. ")" // If we made it here,we are not in a blacklist tag. ); // @todo Don't remove conditional html comments boost::regex nocomments("<!--(.*)-->"); *s = boost::regex_replace(*s,Nowhitespace," "); *s = boost::regex_replace(*s,nocomments,""); }
只有第一个正则表达式来自原始帖子,另一个是我正在研究的东西,应该被认为远非完整.它应该有希望很好地了解我尝试完成的任务.
@H_419_4@
您需要一个可以标记输入文件的html解析器,或者允许您以流或对象树的形式访问令牌.基本上读取令牌,丢弃那些您不需要的令牌和属性,然后将剩余的内容写入输出.使用这样的东西可以让你比使用regexp解决它更快地开发解决方案.
我想你可以使用Xml解析器,或者你可以搜索带有html支持的xml解析器.
在C中,libxml(可能有HTML支持模块),Qt 4,Tinyxml,以及libstrophe使用某种可行的xml解析器.
请注意,C(尤其是C 03)可能不是此类程序的最佳语言.虽然我非常不喜欢python,但python有“Beautiful Soup”模块,可以很好地解决这类问题.
Qt 4可能有效,因为它提供了不错的unicode字符串类型(如果你要解析html,你将需要它).
@H_419_4@ @H_419_4@ @H_675_37@@H_419_4@以上是大佬教程为你收集整理的使用C中的Boost正则表达式缩小HTML全部内容,希望文章能够帮你解决使用C中的Boost正则表达式缩小HTML所遇到的程序开发问题。
如果觉得大佬教程网站内容还不错,欢迎将大佬教程推荐给程序员好友。
本图文内容来源于网友网络收集整理提供,作为学习参考使用,版权属于原作者。
如您有任何意见或建议可联系处理。小编QQ:384754419,请注明来意。