您现在的位置:计算机技术学习网 > 技术中心 > WEB编程 > PHP >

PHP抽取网页标题并剔除不相关的seo关键字

来源:网络 责任编辑:栏目编辑 发表时间:2013-07-01 08:27 点击:

场景描述:

  过往我们在抽取网页标题的时候,都会直接抽取 之间的内容. 但实际情况是这样,例如javaeye 的一篇文章 http://www.iteye.com/news/21643 ,  的内容为 "10年软件开发教会我最重要的10件事 - 非技术 - ITeye资讯", 但实际引用中我们期望的标题应该为 "10年软件开发教会我最重要的10件事". 所以标题后面堆砌了很多不相关的关键字(应该是为了  seo 吧). 所以我们希望过滤掉这些关键字. 有下面的方法可以参考:


1. 查找 h1 等标签.(分析sina news 一些网站之后, 觉得不可行,会有很多干扰)

2. 从全文去标题后,将 之间的内容切割(按 _ | -)为 a1,a2,a3,a4,然后从最长的词组a3开始从全文查找. 如果查找成功,那么开始向左边迭代查询 a2,a1,直到查询失败为止 。左侧失败后,再继续向右迭代,同理. (这里我采用的是这种方法)


Php代码 
<?php  
/** 
 * @author pqcc <struts.ec@mgail.com> 
 * @date: 2011-06-18 
 * Description: 给定一个网页内容,提取网页的标题. 提取的标题不包括 seo 关键字. 
 * e.g: 一篇新闻标题的从<title>直接抽取结果为 "大学英语四六级本周六开考 909万人参考_新浪教育_新浪网", 
 *       但我们希望的结果是:"大学英语四六级本周六开考 909万人参考". 
 * 适用范围:  文章最终页标题的提取, 不包括专题页等. 
 */ 
 
class TitlePurify{  
 
    private $matches_preg = [-_s|—];  
 
    function getTitle($contents){/*{{{*/ 
        $preg = "/<title[^>]*>([w| ||W]*?)</title>/i";  
        preg_match($preg, $contents, $matches);  
        if(count($matches)<=1){  
            return "标题抽取失败";  
        }  
        $title = $matches[1];  
        return $this->trimTitle($title, $contents);  
    }/*}}}*/ 
 
    function trimMeta($contents){/*{{{*/ 
        // 首先去除 <title> 内容, <meta> 内容.  
        $preg       = "/<title[^>]*>([w| ||W]*?)</title>/i";  
        $contents   = preg_replace($preg, , $contents);  
        $preg       = "/<meta[^>]*>/i";  
        $contents   = preg_replace($preg, , $contents);  
        return $contents;  
    }/*}}}*/ 
 
 
    // 获取长度最长的 item 所处的index.  
    function getMaxIndex($titles){/*{{{*/ 
        $maxItemIndex   = 0;  
        $maxLength      = 0;  
        $loop           = 0;  
        foreach($titles as $item){  
            if(strlen($item)>$maxLength){  
                $maxLength      = strlen($item);  
                $maxItemIndex   = $loop;  
      

    相关新闻>>

      发表评论
      请自觉遵守互联网相关的政策法规,严禁发布色情、暴力、反动的言论。
      用户名: 验证码:点击我更换图片
      最新评论 更多>>

      推荐热点

      • PHP测试
      • 十天学会php之第六天
      • 几种显示数据的方法的比较
      • 使用xmlhttp为网站增加域名查询功能
      • PHP+MYSQL+Javascript数据库查询结果的动态显示
      • 查找数组中指定键名的值
      • 用redis实现跨服务器session
      • 用新浪微博接口发送图片微博失败的原因
      • smarty局部缓存技术[源码分析]
      网站首页 - 友情链接 - 网站地图 - TAG标签 - RSS订阅 - 内容搜索
      Copyright © 2008-2015 计算机技术学习交流网. 版权所有

      豫ICP备11007008号-1