php网页内容抓取

1.按照所抓取网页的规则去编写

public function comment(){
    for ($i = 700; $i <750; $i++){
        $aa = $this->caiji($i);
        var_dump($i);
    }

}

private function caiji($id){

    $v  = 'http://www.xx.com'.$id;
    $info = file_get_contents($url); // 原网址

    $ch = curl_init();
    $timeout = 5;
    curl_setopt ($ch, CURLOPT_URL, $v);
    curl_setopt ($ch, CURLOPT_RETURNTRANSFER, 1);
    curl_setopt ($ch, CURLOPT_CONNECTTIMEOUT, $timeout);
    $content = curl_exec($ch);
    $content = mb_convert_encoding($content, 'utf-8', 'GBK,UTF-8,ASCII');
     
    $preg = "/<tr.*?>(.*?)<\/tr>/ism"; // 这里是表达式,大神看看
    preg_match_all($preg,$content,$matches);
    unset($matches['0']['0']);
    unset($matches['0']['1']);
    //$aa = $matches['0'];
    if($matches['0']){
        $dd = '';
        $cc = '';
        foreach ($matches['0'] as $key => $value) {
            preg_match_all("/<td.*?>(.*?)<\/td>/ism",$value,$aa);
            $dd[] = $aa;
        }

        //var_dump($dd);

        foreach ($dd as $vv) {
                $cc['s_id'] = $vv['1']['1'];
                $cc['pid'] = $vv['1']['2'];
                $cc['uid'] = $vv['1']['3'];
                $cc['name'] = $vv['1']['4'];
                $cc['car_type'] = $vv['1']['5'];
                $cc['mobile'] = $vv['1']['6'];
                $cc['zhan_id'] = $vv['1']['7'];
                $cc['city'] = $vv['1']['8'];
                $cc['pay'] = $vv['1']['9'];
                $cc['title'] = $vv['1']['10'];
                $cc['comment'] = $vv['1']['11'];
                $cc['time'] = $vv['1']['12'];

                $aa = M('Comment_cc')->add($cc);
                //var_dump($cc);exit;
        }
    }
    
}

2.php 获取文章摘要

function cutArticle($data,$cut=0,$str="....")  
{     
    $data=strip_tags($data);//去除html标记  
    $pattern = "/&[a-zA-Z]+;/";//去除特殊符号  
    $data=preg_replace($pattern,'',$data);  
    if(!is_numeric($cut))  
    return $data;  
    if($cut>0)  
    $data=mb_strimwidth($data,0,$cut,$str);  
    return $data;  
}  
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • Android 自定义View的各种姿势1 Activity的显示之ViewRootImpl详解 Activity...
    passiontim阅读 175,098评论 25 709
  • Spring Cloud为开发人员提供了快速构建分布式系统中一些常见模式的工具(例如配置管理,服务发现,断路器,智...
    卡卡罗2017阅读 135,323评论 19 139
  • 在抱怨,焦虑的同时,请务必做好日常 「心有所向」
    ChiEng阅读 1,287评论 0 0
  • 腾讯娱乐讯10月17日网曝在电影《钟馗伏魔:雪妖魔灵》中饰演“青蛇”的演员任娇跳楼身亡,圈内某制片人随后向腾讯娱乐...
    CNYPOSTURE阅读 3,122评论 0 0
  • 虽然我的背景不硬,但是你不能碰
    风铃大姑娘阅读 1,586评论 0 0