ferret - Полнотекстовый поиск в вашем сайте

Создание поиска по сайту задача частая и тривиальная. В Rails в основном осуществляется поиск по информации, которая хранится в моделях. Для этого в ActiveRecord есть метод find. Существует масса примеров как можно осуществлять поиск при помощи этого метода. Но у него есть существенный недостаток. На самом деле это обертка вокруг SELECT запроса, поэтому если ваш поиск сложнее чем просто выборка этот метод вам не подойдет. Кроме того, простой find имеет существенный недостаток - скорость. Если Вы используете MySQL, можете переключиться на MySQL full text search - лично я не пробовал но блоги пишут, что сильно ускоряет. Решение плохое так как привяжет вас к СУБД, что не есть очень хорошо.

Для организации эффективного и самое главное быстрого поиска применяются так называемые индексные сервера. Жависты имеют в своем арсенале Lucene - неплохой движок для полнотекстового поиска. Лопатит миллионы строк и возвращает очень даже приемлемые результаты.

Но наряду с позитивом есть и негатив. Lucene - написан на жаве и для того чтобы его использовать нужно поднимать на сервере жаву, Tomcat и т.д. В принципе ничего сложного, тем более есть мануалы.

Но есть альтернатива! ferret - библиотека для полнотекстового поиска написана на Ruby.

Инсталлируем

 gem install ferret

Правда просто? ИМХО gem - гениальная вещь.

Но, есть одно маленькое НО. Для успешной установки ferret на Win32 необходимо иметь в наличии компилятор С/С++. Я воспользовался для этого VC++ 6.0. Для того чтобы все прошло гладко, необходимо настроить пути компиляции( переменные окружения LIB, INCLUDE, PATH).

Используем совместно с ActiveRecord в RubyOnRails

Для того чтобы все было гладко есть плагин - Acts as Ferret. ( Правда этот плагин доступен также и как gem ).

Ставим плагин

script/plugin install svn://projects.jkraemer.net/acts_as_ferret/tags/stable/acts_as_ferret

Используем в моделях

Вписываем в модель такой код:

class Foo < ActiveRecord::Base
   acts_as_ferret
end

Тоже не сложно. После такой записи у вас будет доступен следующий синтаксис:

 Foo.find_with_ferret("запрос")

Кроме того ferret создаст директорию index в Вашем проекте, в которой создаст также поддиректории конфигураций запуска (test, development, production). В этих директориях ferret и будет сохранять индексы. Для каждой модели будет создано свою поддиректорию.

Индексом можно управлять. По умолчанию добавление/удаление данных в модели провоцирует обновление индекса. Кроме того Вы сами можете настраивать, что отображать в поиске а что нет. Для постраничного вывода также существует ряд параметров поиска (limit, page).

Это конечно только вершина айсберга использования ferret, завесу понимания приоткроет чтение документации.

Вот и все. Будут вопросы - пишите.

Метки: , , , ,

Комментариев: 3

  1. Оля пишет:

    Очень хороший пост.

  2. gra пишет:

    я бы еще написал, о том что в продакшине нужно настраивать drb сервер
    о том что при высоких нагрузках бывает бьет индекс на кластере монгрелов

    да и ошибка в тексте, написано Lucine место Lucene

  3. Станислав Погребняк пишет:

    Спасибо, ошибки поправил.

Оставьте свой отзыв!

Блог работает на WordPress.
Подписка RSS: все записи, комментарии.