基于MySQL数据库的UTF8中文网站全文检索的实现

来源：互联网责任编辑：admin 发表时间:2013-07-02 02:39　点击:次

ASP PHP JSP JavaScript 网页设计 DIVCSS Ajax技术 HTML5

现在的互联网上，很多网站都提供了全文搜索功能，浏览者可以通过输入关键字或者是短语来搜索特定的资料。在PHP+MySQL构架的网站中，通常的做法是通过SELECT查询的Like语句来进行搜索，这一办法存在搜索不够精确、以及效率非常低下的缺点。比如对一个有十几万条记录数据表的TEXT字段进行LIKE操作，可能会花费上近10秒钟左右，这对网站的浏览者来说是一个非常糟糕的使用体验。如何在海量的数据中能够快速的进行全文检索呢？MySQL提供了一个全文索引功能，也就是把字段设置上FULLTEXT索引属性，然后通过SELECT的MATCH AGAINST语句进行查找。

我们开发的一个纯英文站点TouchUs - The Global Yellow Pages & Business Directory（www.touchus.org）就是利用MySQL的这一功能，实现了对十多万条数据的平均全文检索时间小于0.5秒。但是在开发TouchUs的中文网站——城市黄页网时（www.city39.cn），碰到了新的问题。原来英文排版时词和词之间是通过空格区分的，FULLText可以完全支持，但是对中文或者是东亚文字就没有这么简单了，因为中文的词和词之间并没有明显的分隔，所以MySQL不支持中文字符的全文检索。

如何让MySQL也能支持中文的全文检索呢？偶然间产生了一个思路，那就是能不能在中文分词后，通过对中文进行编码转化成英文字符，这样就在中英文间建立一个特定的联系，然后再进行全文检索，这样不就实现了中文的全文索引了吗？经过试验，答案是肯定的。下面是在城市黄页网中实现的具体过程：

1. 建立一个单独的索引表，比如对应members表，我们建立一个members_index表。

用户信息表(members)                    用户信息全文索引表(members_index)
User_id                                              user_id
User_name                                       index_intro
User_introduction
在members_index表的index_intro中加入fulltext索引。