Токенизация и спектральные синонимы
Думаю не для кого не является секретом, что поисковые системы, в большинстве случаев, не выдают результаты поиска именно на введенный поисковый запрос.
Необходимость в изменении поискового запроса обусловлена тем, что ее пользователи часто формулируют запросы очень не конкретно, да и к тому же русский язык очень богат своей морфологией и вариантами написания.
К примеру:
Пользователь ввел запрос: “авторезина купить”
Информационные ожидания пользователя: увидеть страницу на которой будет представлена информация о приобретении резины для автомобиля… И не просто информация о приобретении, а “полезная страница”, которая будет содержать максимум информации.
Модификация запроса “авторезина купить”:
Важно понимать, что в зависимости от запроса эти связки могут меняться.
Слово “авторезина” (на основании данных поисковой системы Яндекс):
Все слова токена + словоформы:
шин, шины, шина, авторезину, авторезины
Слово “купить”
Все слова токена + словоформы:
продажа, купленных, купите, покупать, покупайте
Слова, добавленные к запросу:
москва
Какой запрос мы получаем на выходе (только начальные формы слов):
(авторезина|шина) (купить|продажа|покупка) москва
Важное замечание:
в зависимости от запроса может подставляться достаточно большой перечень слов:
цена, фото, заказать и т.д.