Алгоритм «Палех» для лучшего понимания

Алгоритм «Палех» - новая программа для лучшего понимания запросов. Теперь появилась возможность распознавания не только по ключевым словам, но в лучшей степени понимает смысловую нагрузку.

Почему «Палех»?

Частотное распределение запросов можно представить в виде птицы с длинным хвостом.

  • Клюв – часто задаваемые вопросы. Список здесь не так уж и велик.
  • Туловище – среднечастотные запросы. Их задают достаточно часто, совокупный список большой.
  • Хвост – это чрезвычайно редкие НЧ-запросы. Каждый вопрос задается редко, но таких много, они образуют неплотный хвост. Уникальных вопросов порядка 100 млн в сутки.

Именно для распознавания редких запросов и разработан данный алгоритм.

Некоторые принципы распознавания

  • «Детские» запросы» - это фазы от детей, которые к поисковику обращаются, как к живому человеку, вводя целую фразу. Например: «Дорогой Яндекс покажи новые мультфильмы лего».
  • Поиск фильма или рассказа по эпизоду. Например, фильм, где сотрудники российской полиции раскрывают очень сложные преступления («След»), хотя здесь можно получить в выдаче еще ряд ответов. Но пользователь не знает названия! Он и дальше задает вопросы-эпизоды. «Сериал, где у сотрудников полиции самое современное оборудование».

Такие запросы очень сложны, ведь случается, что на странице, подходящей к выдаче. Не оказывается даже двух слов из запроса.

Именно для решения таких проблем привлекаются нейронные сети.

Искусственные нейронные сети

Это способ машинного обучения. Хорошо подходит для распознавания объектов на картинках (например, собаку или дерева), звуков.

Здесь же надо распознать текст! Обучение аналогично, путем примеров «запрос-заголовок» накапливается статистика. Результат обучения назван семантическим вектором.

Семантический вектор

Применяется для распознавания соответствия запрос=картинка достаточно давно. Но потенциал этого метода огромен.

Кстати, для определения семантического вектора на данный запрос конкретного пользователя подходит изучение его профилей  (интересы, предыдущие запросы, использование ссылок, группы в соцсетях).