分类导航

HTML5 发布时间：2022-04-25 发布网站：大佬教程 code.js-code.com

大佬教程收集整理的这篇文章主要介绍了meta标签有毒，大佬教程大佬觉得挺不错的，现在分享给大家，也给大家做个参考。

今天要完成的一项工作是：从 html文件中提取，title标签
原本以为是很简单的工作呢。可是一个素食网站里面，像这些http://www.chinavegan.com/2015/05/2015051718461747.html
网页，当我用 httpclient下载页面，然后用jsoup进行解析的时候，发现，document对象里面，title标签，h1标签统统都没有了。可是，我再去下载好的网页时看，咦，title、h1标签都是存在的啊。
怎么回事？

后俩比较一下如下的两个网页：
http://www.chinavegan.com/2015/05/2015051718461747.htm
（抽不出 title、h1标签内容，因为jsoup解析的时候，documnet里面根本没有这两类标签）
http://www.chinavegan.com/
(可以抽出 title、h1标签内容)

原因是：

看到没，下面那张图片里面少了：

~~~~~~~~~~~~~~~~~~~~
my god，我笨，我调了那么长时间，终于找到了错误。

然后：
我首先采取，手工输入这句话，果然普通页面也可以提取title了。
接着，我天真的以为，
方法一：可以通过文件读写的方式，来给每个普通网页在title标签之前，加上

这句话。结果各种错误，说明这样使不可行的

方法二：
我采用 jsoup的各种方式，企图向head标签后面加入

事实证明是无用的。title标签依旧不在jsoup中。

~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
以上两种方法，都没有抓住源头，源头的错误，应该是出现在下载网页的时候。方正，最后我参考了这篇文章，采用java的url，全部读取网页内容，然后使用正则表达式，终于搞定了，成功提取title.
参考的帖子：http://www.voidcn.com/article/p-xaxdayfy-ka.html

package catchhtml;
import java.io.BufferedReader;
import java.io.IOException;
import java.io.InputStreamReader;
import java.net.MalformedURLException;
import java.net.URL;
import java.util.ArrayList;
import java.util.List;
import java.util.regex.Matcher;
import java.util.regex.Pattern;


public class GetHtmlTitle {

    public GetHtmlTitle(String htmlUrl){
        System.out.println("/n------------开始读取网页(" + htmlUrl + ")-----------");
        String htmlSource = "";
        htmlSource = getHtmlSource(htmlUrl);//获取htmlUrl网址网页的源码
        System.out.println("------------读取网页(" + htmlUrl + ")结束-----------/n");
        System.out.println("------------分析(" + htmlUrl + ")结果如下-----------/n");
        String title = getTitle(htmlSource);
        System.out.println("网站标题： " + title);
    }

    /** * 根据网址返回网页的源码 * @param htmlUrl * @return */
    public String getHtmlSource(String htmlUrl){
        URL url;    
        StringBuffer sb = new StringBuffer();
        try{
            url = new URL(htmlUrl);
            BufferedReader in = new BufferedReader(new InputStreamReader(url.openStream(),"UTF-8"));//读取网页全部内容
            String temp;
            while ((temp = in.readLine()) != null)
            {           
                sb.append(temp);
            }
            in.close();
        }catch (MalformedURLException e) {
            System.out.println("你输入的URL格式有问题！请仔细输入");
        }catch (IOException e) {
            e.printStackTrace();
        }   
        return sb.toString();
    }

    /** * 从html源码(字符串)中去掉标题 * @param htmlSource * @return */
    public String getTitle(String htmlSource){
        List<String> list = new ArrayList<String>();
        String title = "";

        //Pattern pa = Pattern.compile("<title>.*?</title>",Pattern.CANON_EQ);也可以
        Pattern pa = Pattern.compile("<title>.*?</title>");//源码中标题正则表达式
        Matcher ma = pa.matcher(htmlSource);
        while (ma.find())//寻找符合el的字串
        {
            list.add(ma.group());//将符合el的字串加入到list中
        }
        for (int i = 0; i < list.size(); i++)
        {
            title = title + list.get(i);
        }
        return outTag(title);
    }

    /** * 去掉html源码中的标签 * @param s * @return */
    public String outTag(String s)
    {
        return s.replaceAll("<.*?>","");
    }

    public static void main(String[] args) {
        String htmlUrl = "http://www.157buy.com";
        new GetHtmlTitle(htmlUrl);

    }
}

总结：jsoup+httpclient，虽然方便，
但是关键时刻还是得靠 正则表达式+java.url

大佬总结

以上是大佬教程为你收集整理的meta标签有毒全部内容，希望文章能够帮你解决meta标签有毒所遇到的程序开发问题。

如果觉得大佬教程网站内容还不错，欢迎将大佬教程推荐给程序员好友。

本图文内容来源于网友网络收集整理提供，作为学习参考使用，版权属于原作者。
如您有任何意见或建议可联系处理。小编QQ：384754419，请注明来意。

标签：

上一篇: Html5 服务端推送 Server-Sent E... 下一篇:Html5 中的 WebSocket通信

猜你在找的HTML5相关文章

详解HTML5表单新增属性 2019-10-08
详解HTML5通讯录获取指定多个人的信息 2019-10-08
html5+css如何实现中间大两头小的轮播效果 2019-10-08
Html5 Canvas动画基础碰撞检测的实现 2019-10-08
使用HTML5捕捉音频与视频信息概述及实例 2019-10-08
详解HTML5中的<template>标签 2019-10-08
HTML5 Canvas实现玫瑰曲线和心形图案的代码实例 2019-10-08
HTML5应用之文件上传 2019-10-08
详解HTML5 LocalStorage 本地存储 2019-10-08
MPMoviePlayerController错误_itemFailedToPlayToEnd同时播放YouTube视频iOS 7 2022-04-27

其他相关热搜词更多

JavaScript之正则表达式学习笔记