搜索html源码中标签包的纯文本

public static function getResourceByTemp($html)
    {
        $attr       = ['title', 'alt', 'placeholder'];//指定html属性上的文本
        $getAttrArr = [];
        foreach ($attr as $k => $v) {
            preg_match_all("/{$v}=\"(.*?)\"/", $html, $get);
            if (!empty($get['1'])) {
                $getAttrArr = array_unique(array_merge($getAttrArr, $get['1']));
            }
        }
        $html      = preg_replace("/<!--.*?-->/is", '', $html); //删除注释
        $html      = preg_replace("/<style.*?>.*?<\/style>/is", '', $html); //删除style标签
        $html      = preg_replace("/<script.*?>.*?<\/script>/is", '', $html); //删除js标签
        $separator = '::#::myself::#::'; //自己设定的,特有的分隔符
        $html      = preg_replace("/<.*?>/is", $separator, $html);
        $arr       = array_filter(explode($separator, $html));
        if (!empty($getAttrArr)) {
            $arr = array_filter(array_unique(array_merge($arr, $getAttrArr)));
        }
        $array     = [];
        foreach ($arr as $k => $v) {
            $v = trim($v);
            if (!empty($v)) {
                if (strpos(PHP_EOL, $v)) {
                    //有些字符里面会还有换行,再分析一次并去掉字符前后的空格。
                    $tmp = explode(PHP_EOL, $v);
                    foreach ($tmp as $val) {
                        $val = trim($val);
                        if (!empty($val)) {
                            $array[] = $val;
                        }
                    }
                } else {
                    //如果没有换行,直接赋值
                    $array[] = $v;
                }
            }
        }
        foreach ($array as $k => $v) {
            //去掉纯数字的元素
            if (is_numeric($v)) {
                unset($array[$k]);
            }
            //去掉纯符号的元素
            $pregStr = preg_replace("/[\x{4e00}-\x{9fa5}A-Za-z0-9]/u", '', $v);
            if ($v == $pregStr) {
                unset($array[$k]);
            }
            //去掉类似&#xe61b;这种图标字符
            if (strpos($v, '&#x') !== false && (strlen($v) == 7 || strlen($v) == 8)) {
                unset($array[$k]);
            }
        }
        $result = [];
        $array  = array_unique($array);
        foreach ($array as $v) {
            $result[] = ['text' => trim($v), 'len' => mb_strlen($v)];
        }
        array_multisort(array_column($result, 'len'), SORT_DESC, $result); //按字符长度倒序
        return $result;
    }
//获取页面的title,keyword,description
public static function get_sitemeta($data)
    {
        if (self::isUrl($data)) {
            $data = file_get_contents($url);
        }

        $meta = array();
        if (!empty($data)) {
            #Title
            preg_match('/<TITLE>([\w\W]*?)<\/TITLE>/si', $data, $matches);
            if (!empty($matches[1])) {
                $meta['title'] = $matches[1];
            }

            #Keywords
            preg_match('/<META\s+name="keywords"\s+content="([\w\W]*?)"/si', $data, $matches);
            if (empty($matches[1])) {
                preg_match("/<META\s+name='keywords'\s+content='([\w\W]*?)'/si", $data, $matches);
            }
            if (empty($matches[1])) {
                preg_match('/<META\s+content="([\w\W]*?)"\s+name="keywords"/si', $data, $matches);
            }
            if (empty($matches[1])) {
                preg_match('/<META\s+http-equiv="keywords"\s+content="([\w\W]*?)"/si', $data, $matches);
            }
            if (!empty($matches[1])) {
                $meta['keywords'] = $matches[1];
            }

            #Description
            preg_match('/<META\s+name="description"\s+content="([\w\W]*?)"/si', $data, $matches);
            if (empty($matches[1])) {
                preg_match("/<META\s+name='description'\s+content='([\w\W]*?)'/si", $data, $matches);
            }
            if (empty($matches[1])) {
                preg_match('/<META\s+content="([\w\W]*?)"\s+name="description"/si', $data, $matches);
            }
            if (empty($matches[1])) {
                preg_match('/<META\s+http-equiv="description"\s+content="([\w\W]*?)"/si', $data, $matches);
            }
            if (!empty($matches[1])) {
                $meta['description'] = $matches[1];
            }
        }
        return $meta;
    }
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 218,607评论 6 507
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 93,239评论 3 395
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 164,960评论 0 355
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,750评论 1 294
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,764评论 6 392
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,604评论 1 305
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,347评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,253评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,702评论 1 315
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,893评论 3 336
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,015评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,734评论 5 346
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,352评论 3 330
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,934评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,052评论 1 270
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,216评论 3 371
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,969评论 2 355

推荐阅读更多精彩内容