您现在的位置：主页 > 技术中心 > 数据库技术 > 数据库综合

使用postgreSQL+bamboo搭建比lucene方便N倍的全文搜索(2)

来源：未知责任编辑：责任编辑发表时间:2015-03-01 01:40　点击:次

Sqlserver Mysql Oracle DB2数据库数据库综合

再执行下面的sql，已经可以将一段话分词了：

SELECT to_tsvector(’chinesecfg’, ‘结果在命令行下执行bamboo才知道’);

先到这里，下一部分讲述对TEXT字段进行索引和查询，完整构造一整个搜索引擎。

www.2cto.com

一、基础篇

本回从一条sql开始：

select * from dbname where field_name @@ ‘aa|bb’ order by rank(field_name, ‘aa|bb’);

从这个sql字面意思讲解：从 dbname这个表中查field_name匹配aa或者是bb的词，并且按照他们的匹配的RANK排序。

基本上明白上面这段话后，来学习四个概念：tsvector、 tsquery、 @@ 、gin。

1.tsvector:

在postgreSQL 8.3自带支持全文检索功能，在之前的版本中需要安装配置tsearch2才能使用。它提供两个数据类型（tsvector,tsquery），并且通过动态检索自然语言文档的集合，定位到最匹配的查询结果，tsvector正是其中之一。

一个tsvector的值是唯一分词的分类列表，把一话一句词格式化为不同的词条，在进行分词处理的时候，tsvector会自动去掉分词中重复的词条，按照一定的顺序装入。例如

SELECT ‘a fat cat sat on a mat and ate a fat rat’::tsvector;

tsvector

—————————————————-

‘a’ ‘on’ ‘and’ ‘ate’ ‘cat’ ‘fat’ ‘mat’ ‘rat’ ’sat’

通过tsvector把一个字符串按照空格进行分词，这可以把分词后的词按照出现的次数排成一排（还会按词长度）。

对于英文和中文的全文检索我们还要看下面这条sql:

SELECT to_tsvector(’english’, ‘The Fat Rats’);

to_tsvector

—————–

‘fat’:2 ‘rat’:3

to_tsvector函数来是tsvector规格化的，在其中可指定所使用的分词。

2.tsquery：

顾名思义,tsquery,表示的应该是查询相关的.tsquery是存储用于检索的词条.并且可以联合使用boolean 操作符来连接, & (AND), | (OR), and ! (NOT). 使用括号(),可以强制分为一组.

同时,tsquery 在做搜索的时候,也可以使用权重,并且每个词都可以使用一个或者多个权重标记,这样在检索的时候,会匹配相同权重的信息.跟上面的tsvector相同,tsquery也有一个to_tsquery函数.

3.@@：

在postgresql中全文检索匹配操作使用@@ 操作符,如果一个

tsvector(document) 匹配到 tsquery(query)则返回true.

www.2cto.com

看一个简单的例子：

SELECT ‘a fat cat sat on a mat and ate a fat rat’::tsvector @@ ‘cat & rat’::tsquery;

?column?

———-

我们在处理索引的时候还是要使用他们的函数如下：

SELECT to_tsvector(’fat cats ate fat rats’) @@ to_tsquery(’fat & rat’);

?column?

———-

并且操作符 @@ 可以使用text作为tsvector和tsquery.如下操作符可以使使用的方法

tsvector @@ tsquery

今日头条

更多>>

执行全文索引时出现权限不足的解决方法

[详细]

Request.ServerVariables 参数大全

您可能感兴趣的文章

快速直达

新闻点评智问网络

新闻关注排行榜

热门推荐最新推荐

Request.ServerVariables 参数大全

[详细]

执行全文索引时出现权限不足的解决方法

导入excel文件处理流程节点的解决方案

MongoDB安装为Windows服务方法与注意事项

查看sql修改痕迹（SQL Change Tracking on Table）

App数据层设计及云存储使用指南

PostgreSQL启动过程中的那些事三：加载GUC参数

Percolator与分布式事务思考（二）

写给MongoDB开发者的50条建议Tip1

Percolator与分布式事务思考（一）

写给MongoDB开发者的50条建议Tip1

本系列文章翻译自《50 Tips and Tricks for MongoDB Developers》，暂时没[详细]

查看sql修改痕迹（SQL Change Tracking on Table）

【自主研发-贡献给SQL Server人员】索引诊断与优化

Percolator与分布式事务思考（一）

Percolator与分布式事务思考（二）

PostgreSQL启动过程中的那些事三：加载GUC参数

App数据层设计及云存储使用指南

导入excel文件处理流程节点的解决方案

MongoDB安装为Windows服务方法与注意事项

SQL Server、Oracle、db2所提供的简装版(Express)比较