FTPHP Beta2 | 可定制的高性能 web 站内全文检索应用解决方案 |
首页 功能特色 服务支持 典型案例 SCWS分词 论坛 关于 FAQ |
基于FTPHP的新一代产品Xungle(迅狗网)已经开始公测, 支持Discuz/PHPWind/PHPCMS/Dedecms/HDwiki 等流行WEB应用免费全文搜索,请关注!! |
1. FTPHP 能运行在 Windows 上吗?
目前 FTPHP 的设计完全基于 Unix 类操作系统的考虑(包括Linux/BSD等),暂时无法运行在 Windows 的服务器平台上。 2. FTPHP 支持 gbk, gb2312, big5 等其它字符集吗? FTPHP 内部统一采用 UTF-8 编码,任何非 UTF-8 编码的字符集均可以通过内部或外部转换全部一一映射到 UTF-8 字符集。 3. FTPHP 能检索其它非纯文本内容吗,如 PDF, MS-office 文档之类? 可以通过文本格式转换插件转换,目前可以支持word、excel、ppt、html、pdf等等常见格式的文档。 4. FTPHP 能支持多少并发访问,每天能承受多少次搜索? 不同的环境和不同的检索方式会对搜索性能产生影响,高性能是 FTPHP 搜索的主要特色之一。一般在测试的时候服务器采用 Xeon P4-3.0G * 2 及 2G内存,在 200万数据项的情况下,支持 200 以上的瞬时并发检索,每天的检索次数可承受 100 万次左右。 5. FTPHP 索引库的数据量有什么限制?能搜索多少篇文章? 我们并没有特意限制索引库的容量,理论上支持 4亿条数据、32TB 的总索引库大小。一般测试情况下 1020万BBS文章数据约占用容量 9G左右。 6. 一般分词后单字就搜索不到了,FTPHP 可以提供字、词同时搜索吗? 可以,我们的 scws 复方分词法支持长词、短词、字(重要字或全部字均可设定)搜索。 7. FTPHP 搜索结果的相关性排序是如何计算的? 相关性反映了搜索词在搜索结果的文章的重要性及出现次数的综合计算结果,一般来说越相关的代表用户越想找的信息。 8. FTPHP 运行是否需要流行的 SQL 数据库支撑? 不需要,FTPHP 自行采用底层的 Haimen 驱动,不需要依赖任何其它现有的数据库。 9. FTPHP 全文检索和 SQL 数据库检索有何不同? FTPHP 是专为检索而设计的,大量采用 B树的索引结构并加以优化,存取词法分析结果,和通用的 SQL 数据库有着显著的不同。FTPHP 的数据库由一组文件共同组成,它的职能就是搜索。 10. FTPHP 全文检索速度如何? 检索速度是衡量搜索的重要依据之一,目前FTPHP的搜索首次不缓存搜索速度已经相当不错,搭配前端缓存后,速度和性能有超高的提升。下面是一组测试数据,在 230万贴子的BBS中搜索最常用的“的”字,命中数量约 100多万,不缓存的情况下首次检索时间约在 0.3 秒,缓存后再次检索时间只需 0.0006秒。 11. FTPHP 是否支持分布式搜索? FTPHP 的设计中预留了分布式搜索算法及接口,可以将数据库平摊到多个服务器上再联接一起搜索,仅处于试验阶段,目前发布的 FTPHP 不支持分布式搜索。 12. FTPHP 分词搜索的词库能否自定义? FTPHP 的专用词库是预生成的高速索引表,用户不能随便添加或删除词汇,但根据特殊的需要可以由技术人员进行词表重建。 13. FTPHP 搜索的API支持哪些语言,.NET/Java 的应用可以使用 FTPHP 做搜索吗? FTPHP 主力语言是 PHP,如果您的应用程序是采用 .NET/JAVA 编写的,那么可以将 FTPHP安装在一台其它的 Unix 主机中,开放 RPCS server ,这边的 .NET/JAVA 可以通过 PHPRPC 协议同步数据进去。 |