coreseek构建千万级别全文索引_coreseek全文搜索服务介绍_

Coreseek全文搜索服务器的主要特性包括:

支持多种数据来源

Mysql数据库

支持多种MySQL文本数据的中文编码格式,目前支持的有UTF-8、GB18030;

PostgreSQL数据库

xmlpipe2 数据管道

允许用户通过xmlpip2向全文搜索服务器导入自定义格式的数据。

Python 可编程数据源

高性能

高速索引

在现代CPU上可达10 MB/秒(英文),在启用了中文分词后,建立索引的速度可达300K/s;

高速搜索

在2-4 GB的文本建立的索引上搜索,平均0.1秒内获得结果;

可处理大数据量

在单一CPU上,实测最高可对100GB的文本建立索引,单一索引可包括100M文件

支持分布式搜索

支持主从式的分布式搜索,支持单一节点失效不影响整个搜索系统

支持复杂的查询

支持基于短语和基于统计的复合结果排序机制

支持任意数量的文件字段(数值或全文文本)

支持不同的搜索模式( “完全匹配” , “短语匹配”和“任一匹配” )

为中文优化

基于最大匹配算法的中文分词模块

支持GB18030、UTF-8等多种编码的数据源

针对中文的具体特点,对结果的排序进行了优化

支持作为MySQL的存储引擎

您可以选择一种方式赞助本站

支付宝转账赞助

支付宝扫一扫赞助

发表评论

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen:

图片 表情