Токенизация и спектральные синонимы

Думаю не для кого не является секретом, что поисковые системы, в большинстве случаев, не выдают результаты поиска именно на введенный поисковый запрос.

Необходимость в изменении поискового запроса обусловлена тем, что ее пользователи часто формулируют запросы очень не конкретно, да и к тому же русский язык очень богат своей морфологией и вариантами написания.

К примеру:

Пользователь ввел запрос: “авторезина купить”

Информационные ожидания пользователя: увидеть страницу на которой будет представлена информация о приобретении резины для автомобиля… И не просто информация о приобретении, а “полезная страница”, которая будет содержать максимум информации.

Модификация запроса “авторезина купить”:

Важно понимать, что в зависимости от запроса эти связки могут меняться.

Слово “авторезина” (на основании данных поисковой системы Яндекс):

Все слова токена + словоформы:

шин, шины, шина, авторезину, авторезины

Слово “купить

Все слова токена + словоформы:

продажа, купленных, купите, покупать, покупайте

Слова, добавленные к запросу:

москва

Какой запрос мы получаем на выходе (только начальные формы слов):

(авторезина|шина) (купить|продажа|покупка) москва

Важное замечание:

в зависимости от запроса может подставляться достаточно большой перечень слов:

цена, фото, заказать и т.д.

Подписаться Подписаться Подписаться