正则在小偷程序中的应用(续)

2023-05-16

	//获取资源信息
            $content = file_get_contents("http://list.sososteel.com/qg/list.html?pg=1&h=".time());
	/*对抓取的信息进行处理。取class为listTable的表信息。[^<>]匹配除<>外的所有字符。*?用的是懒惰限定符,代表重复任意次,但尽量少重复。即匹配最短的以<table开始的,以class="listTable"为结束的字符串。如aabbcc字符串,如果用懒惰限定符匹配的话应该是aab。如果用贪婪匹配的话应该aabb。*/
            preg_match("/<table [^<>]*? class=\\\"listTable\\\">(.*?)<\/table>/s",$content,$out);
	/*抓取tbody的内容,重复一次或多次*/
            preg_match_all("/<tbody>(.+?)<\/tbody>/s",$out[1],$outData);
            if(empty($outData[1])){
                return null;
            }else{
                $out_arr=array();
				//循环输出抓取的内容
                foreach($outData[1] as $i=>$key){
					//取td的内容
                    preg_match_all("/<td.*?>(.+?)<\/td>/s",$key,$td);
                    if(count($td[1])==7){
                        foreach($td[1] as $j=>$em){
                            //$em = iconv("gb2312","utf-8",$em);
                            switch($j){
                                case 0:continue;break;
                                case 1:continue;break;
                                case 2:
                                    preg_match_all("/<a.*?>(.+?)\<\/a>/s",$em,$name);
                                    $out_arr[$i]['name']=$name[1][0];
                                    preg_match_all("/<span.*?>(.+?)\<\/span>/s",$em,$time);
                                    $out_arr[$i]['time']=$time[1][0];
                                    preg_match_all("/<div class=\\\"listText\\\">(.+?)<br \/>/s",$em,$other);
                                    if(empty($other[1])){
                                        $out_arr[$i]['spec']=null;
                                        $out_arr[$i]['mater']=null;
                                        $out_arr[$i]['factory']=null;
                                    }else{
                                        $oth=explode("   ",implode('',$other[1]));
                                        $out_arr[$i]['spec']=trim($oth[0]);
                                        $out_arr[$i]['mater']=trim($oth[1]);
                                        $out_arr[$i]['factory']=trim($oth[2]);
                                    }
                                    $out_arr[$i]['company']=$name[1][1];
                                    continue;break;
                                case 3:
                                    $out_arr[$i]['city']=trim($em);
                                    continue;break;
                                case 4:
                                    $out_arr[$i]['price']=trim(strip_tags($em));
                                    continue;break;
                            }
                        }
                    } else
                    continue;
                }
            }
           print_r($out_arr);


本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

正则在小偷程序中的应用(续) 的相关文章

随机推荐

  • C++ STL中判断list为空,size()==0和empty()有什么区别

    关于两个的区别 xff0c 首先size 61 61 0为bool表达式 xff0c empty 为函数调用 xff0c 这一点很明显 查看源代码 xff0c bool empty const return M node gt M next
  • 安装Intellij,编译第一个android程序出错

    今天安装了最新的Intellij社区最新版 xff0c 安装完成后 xff0c 发现编译第一个android程序 xff0c 出现如下编译错误 Cannot run program 34 D Android platform tools a
  • 【霸指拓客】抖音自动引流脚本源码终端开发

    lt lt 抖音自动引流脚本源码 gt gt auto 等待广告加载 launchApp 34 抖音极速版 34 sleep Math random 100 43 10000 click 34 我知道了 34 sleep 3000 back
  • 关于BeanUtils 那点屌事

    今天出现一个线上bug 我在排查代码的时候 xff0c 两个高开在我身后陪我排查代码 xff0c 慌的一批 xff0c 害怕让他们看见不爽的代码 xff0c 结果还真发现了 xff0c 然后被屌了 xff0c 如下 List lt Stud
  • 爬虫requests使用代理报错Your proxy appears to only use HTTP and not HTTPS...

    python版本 xff1a 3 9 4 requests版本 xff1a 2 28 2 详细报错如下 Max retries exceeded span class token keyword with span url span cla
  • 【网络安全】Kali linux超详细入门教程,Linux初学者勿进

    学习网络安全的同学应该都听过 Kali Linux 的大名 xff0c Kali Linux 相比与普通 Linux 附带了大量入侵和渗透的工具和软件 xff0c 在渗透测试和白帽子方面处于业界领先 正是因为这个原因 xff0c 许多人都会
  • Ubuntu登录管理员账户时,输入密码后一直在登录界面循环

    Ubuntu登录管理员账户时 xff0c 输入密码后 xff0c 一直在登录界面循环 xff0c 进不去系统界面 百度了好久 xff0c 也没有找到解决的办法 xff0c 我只能说百度真够可以的了 果断翻墙Google xff0c 找到不少
  • PreparedStatement和Statement的区别与联系

    一 概念 1 PreparedStatement xff1a PreparedStatement是java sql包下面的一个接口 xff0c 用来执行SQL语句查询 xff0c 通过调用connection preparedStateme
  • C#编程规范

    http www cnblogs com zyh nhy archive 2007 10 11 921250 html 第一章 概述 规范制定原则 1 方便代码的交流和维护 2 不影响编码的效率 xff0c 不与大众习惯冲突 3 使代码更美
  • c++,vc6.0 报错unreferenced local variable

    c 43 43 xff0c vc6 0 报错 unreferenced local variable 原因 xff0c 有的东西没有用到 xff0c 如果真的没有用的话可以直接删掉
  • Servlet学习之生成随机数

    令页面生成一个每五秒产生一个数字的动态图 span class token keyword package span com span class token punctuation span servlet span class toke
  • 程序员也该懂点UI细节

    虽然说项目开发过程中 xff0c 美工和程序各司其职 但是很多时候程序员本身也要知道一些UI设计的细节 一 每个页面的功能上要突出重点 比如说你首页是想引导更多用户注册的话 xff0c 你就要把注册按钮突出出来 如果你首页是你想引导用户更快
  • ftp 客户端软件的传输模式ASCII和二进制

    FTP可用多种格式传输文件 xff0c 通常由系统决定 xff0c 大多数系统 包括UNIX系统 只有两种模式 xff1a 文本模式和二进制模式 文本传输器使用ASCII字符 xff0c 并由回车键和换行符分开 xff0c 而二进制不用转换
  • 百度2015校园招聘软件开发笔试题及答案

    简单题 xff08 本题共30分 xff09 请简述Tcp ip的3次握手以及4次挥手过程 xff1f 并解释为何关闭连接需要4次挥手 10分 详细答案参见TCP IP协议三次握手与四次握手流程解析 TCP三次握手 四次挥手过程如下 通常情
  • 一步一步定制自己的google map(各个省市的经纬度查询)

    安徽省 合肥 北纬31 52 东经117 17 安徽省 安庆 北纬30 31 东经117 02 安徽省 蚌埠 北纬32 56 东经117 21 安徽省 亳州 北纬33 52 东经115 47 安徽省 巢湖 北纬31 36 东经117 52
  • 网页刷新或者重新加载后滚动条的位置不变

    在开发的过程中我们经常需要重新加载或者刷新某个画面 xff0c 已确保数据显示是最新的 但是如果一丁点改变就刷新画面的话 xff0c 会导致用户体验很差 xff0c 想想看你好不容易把网页拖到最后 xff0c 结果点击某个按钮的时候 xff
  • 番茄工作法(番茄钟时间管理)

    番茄工作法是我一次偶然的时间在网上看到的 xff0c 因为自己性格大大咧咧 丢三落四 xff0c 所以经常容易在时间问题上犯迷糊 很多人都有时间拖沓症 xff0c 就是一件事不到最后阶段不去解决它 比如你有一个星期的时间写的毕业论文 xff
  • jquery中美元符号($)命名冲突

    在Jquery中 xff0c 是JQuery的别名 xff0c 所有使用 的地方也都可以使用JQuery来替换 xff0c 如 39 msg 39 等同于JQuery 39 msg 39 的写法 然而 xff0c 当我们引入多个js库后 x
  • js实现省市联动

    效果图如下 xff1a 思路很简单 xff0c 就是先加载省信息 xff0c 然后当省改变的时候加载市县信息 烦的是数据的录入 xff0c 代码如下 lt DOCTYPE html PUBLIC 34 W3C DTD XHTML 1 0 T
  • 正则在小偷程序中的应用(续)

    获取资源信息 content 61 file get contents 34 http list sososteel com qg list html pg 61 1 amp h 61 34 time 对抓取的信息进行处理 取class为l