SQL Server 数据挖掘系列(二)

来源:网络 责任编辑:栏目编辑 发表时间:2013-07-02 02:24 点击:

 

从本系列的这篇开始我们来研究SQL Server所有内置算法的功能,我们按照它们的复杂性由浅入深地介绍,对于每一个算法,我们都将讨论它的功能、常见配置以及一些高级的可配置属性。今天先来介绍这几个算法当中最为简单的一个,微软朴素贝叶斯算法。

微软朴素贝叶斯算法是SAS中最简单的算法,通常用作理解数据基本分组的起点,说的简单一点就是处理数据的分类。这个算法之所以称为“朴素”,是因为所有属性的重要性是一样的,没有谁高谁低一说。它是一种运用算术原则来理解数据的方法,对此算法的另一个理解就是:所有属性都是独立的,互不相关的。从字面来看,该算法只是计算所有属性之间的关联。虽然该算法既可用于预测也可用于分组,但最常用于模型构建的早期阶段,更常用于分组而不是预测某个具体的值。通常要将所有属性标记为简单输入或者既是输入又是可预测的,因为这就可以要求算法在执行的时候考虑到所有属性。很常见的一种情况是,在输入中包含大量属性,然后处理模型再评估结果,如果结果看起来没什么意义,我们经常减少包含的属性数量,以便更好地理解关联最紧密的关系。

如果我们拥有大量的数据,而且对数据的了解又很少,这时候可以使用朴素贝叶斯算法。例如:公司可能由于兼并了一家竞争对手而获得了大量的销售数据,在处理这些数据的时候,可以用朴素贝叶斯算法作为起点。应该了解的是,这个算法有一个明显的局限:就是只能处理离散的内容类型,如果选择的数据结构中包含有内容类型不是Discrete的数据列,那么朴素贝叶斯算法建立的挖掘模型会忽略这些数据。在这个算法中只有少量可配置属性。我们可以看一下这个算法的一些参数,在BIDS中打开SQL Server示例数据库(Adventure Works)中的Targeted Mailing示例,单击“挖掘模型”选项卡,在使用朴素贝叶斯的模型上单击右键,然后单击“设置算法参数”,打开“算法参数”对话框,如下图所示:

    发表评论
    请自觉遵守互联网相关的政策法规,严禁发布色情、暴力、反动的言论。
    用户名: 验证码:点击我更换图片
    最新评论 更多>>

    推荐热点

    • sql常见面试题
    • SQL SERVER 2005性能之跟踪
    • SQL编程(一)
    • LINUX上RMAN自动备份脚本
    • sql server面试题
    • 如何将多个SQL查询统计结果一次显示出来
    • 浅谈SQL Server中的事务日志(三)----在简单恢复模式下日志的角色
    • sql server 列转行
    • SQL小技巧系列 --- 行转列合并
    网站首页 - 友情链接 - 网站地图 - TAG标签 - RSS订阅 - 内容搜索
    Copyright © 2008-2015 计算机技术学习交流网. 版权所有

    豫ICP备11007008号-1