SQL Server 数据挖掘系列（二）

来源：网络责任编辑：admin 发表时间:2013-07-02 02:24　点击:次

从本系列的这篇开始我们来研究SQL Server所有内置算法的功能，我们按照它们的复杂性由浅入深地介绍，对于每一个算法，我们都将讨论它的功能、常见配置以及一些高级的可配置属性。今天先来介绍这几个算法当中最为简单的一个，微软朴素贝叶斯算法。

微软朴素贝叶斯算法是SAS中最简单的算法，通常用作理解数据基本分组的起点,说的简单一点就是处理数据的分类。这个算法之所以称为“朴素”，是因为所有属性的重要性是一样的，没有谁高谁低一说。它是一种运用算术原则来理解数据的方法，对此算法的另一个理解就是：所有属性都是独立的，互不相关的。从字面来看，该算法只是计算所有属性之间的关联。虽然该算法既可用于预测也可用于分组，但最常用于模型构建的早期阶段，更常用于分组而不是预测某个具体的值。通常要将所有属性标记为简单输入或者既是输入又是可预测的，因为这就可以要求算法在执行的时候考虑到所有属性。很常见的一种情况是，在输入中包含大量属性，然后处理模型再评估结果，如果结果看起来没什么意义，我们经常减少包含的属性数量，以便更好地理解关联最紧密的关系。

如果我们拥有大量的数据，而且对数据的了解又很少，这时候可以使用朴素贝叶斯算法。例如：公司可能由于兼并了一家竞争对手而获得了大量的销售数据，在处理这些数据的时候，可以用朴素贝叶斯算法作为起点。应该了解的是，这个算法有一个明显的局限：就是只能处理离散的内容类型，如果选择的数据结构中包含有内容类型不是Discrete的数据列，那么朴素贝叶斯算法建立的挖掘模型会忽略这些数据。在这个算法中只有少量可配置属性。我们可以看一下这个算法的一些参数，在BIDS中打开SQL Server示例数据库（Adventure Works）中的Targeted Mailing示例，单击“挖掘模型”选项卡，在使用朴素贝叶斯的模型上单击右键，然后单击“设置算法参数”，打开“算法参数”对话框，如下图所示：