分类导航

PHP 发布时间：2019-11-12 发布网站：大佬教程 code.js-code.com

大佬教程收集整理的这篇文章主要介绍了PHP实现简单爬虫的方法，大佬教程大佬觉得挺不错的，现在分享给大家，也给大家做个参考。

本文实例讲述了php实现简单爬虫的方法。分享给大家供大家参考。具体如下：

php;"> php /** * 爬虫程序 -- 原型 * * 从给定的url获取html内容 * * @param String $url * @return String */ function _getUrlContent($url) { $handle = fopen($url,"r"); if ($handlE) { $content = stream_get_contents($handle,1024 * 1024); return $content; } else { return false; } } /** * 从html内容中筛选链接 * * @param String $web_content * @return array */ function _filterUrl($web_content) { $reg_tag_a = '/<[a|A].*?href=[\'\"]{0,1}([^>\'\"\ ]*).*?>/'; $result = preg_match_all($reg_tag_a,$web_content,$match_result); if ($result) { return $match_result[1]; } } /** * 修正相对路径 * * @param String $base_url * @param array $url_list * @return array */ function _reviseUrl($base_url,$url_list) { $url_info = parse_url($base_url); $base_url = $url_info["scheR_430_11845@e"] . '://'; if ($url_info["user"] && $url_info["pass"]) { $base_url .= $url_info["user"] . ":" . $url_info["pass"] . "@"; } $base_url .= $url_info["host"]; if ($url_info["port"]) { $base_url .= ":" . $url_info["port"]; } $base_url .= $url_info["path"]; print_r($base_url); if (is_array($url_list)) { foreach ($url_list as $url_item) { if (preg_match('/^http/',$url_item)) { // 已经是完整的url $result[] = $url_item; } else { // 不完整的url $real_url = $base_url . '/' . $url_item; $result[] = $real_url; } } return $result; } else { return; } } /** * 爬虫 * * @param String $url * @return array */ function crawler($url) { $content = _getUrlContent($url); if ($content) { $url_list = _reviseUrl($url,_filterUrl($content)); if ($url_list) { return $url_list; } else { return ; } } else { return ; } } /** * 测试用主程序 */ function main() { $current_url = "http://hao123.com/"; //初始url $fp_puts = fopen("url.txt","ab"); //记录url列表 $fp_gets = fopen("url.txt","r"); //保存url列表 do { $result_url_arr = crawler($current_url); if ($result_url_arr) { foreach ($result_url_arr as $url) { fputs($fp_puts,$url . "\r\n"); } } } while ($current_url = fgets($fp_gets,1024)); //不断获得url } main(); ?>

希望本文所述对大家的php程序设计有所帮助。

大佬总结

以上是大佬教程为你收集整理的PHP实现简单爬虫的方法全部内容，希望文章能够帮你解决PHP实现简单爬虫的方法所遇到的程序开发问题。

如果觉得大佬教程网站内容还不错，欢迎将大佬教程推荐给程序员好友。

本图文内容来源于网友网络收集整理提供，作为学习参考使用，版权属于原作者。
如您有任何意见或建议可联系处理。小编QQ：384754419，请注明来意。

标签：爬虫

上一篇: php获取网站百度快照日期的方法下一篇:php实现过滤字符串中的中文和数字...

猜你在找的PHP相关文章

php实现mysql数据库分表分段备份 2019-11-12
php – 将Symfony2 LogoutSuccessHandler重定向到原始注销目标 2019-10-03
用PHP读取图像中的文本 2019-10-03
php – MySQL守护程序无法启动 – centos 6 2019-10-03
扩展PHP的类型提示 2019-10-03
如何在PHP中复制此C#散列？ (toByteArray(),ComputeHash()) 2019-10-03
php – 如何在Symfony2中禁用模板功能 2019-10-03
使用PHPUnit在Silex(mock closures)中进行测试 2019-10-03
php – 仅使用“桌面模式”浏览器检测移动用户 2019-10-03
PHP调用微博接口实现微博登录的方法示例 2022-04-09