Алгоритм «Палех»: обновление Яндекс поиска

palehДрузья, интересная новость на поприще глобального поиска! Сегодня, 02 октября 2016 года Яндекс заявил в своем блоге о серьезном обновлении алгоритма поиска, который получил оригинальное название «Палех».

Голова, туловище, хвост

Среди знающих людей принято делить все пользовательские запросы на три категории. Это высокочастотные, средне-частотные и низко-частотные. Высокочастотные запросы вводятся в строку поиска популярных поисковиков почти каждую секунду, например названия популярных соц сетей, гаджетов и тому подобное. И в 99% случаем ПС выдаст вам релевантный результат, основываясь на огромной массе накопленной статистики по переходам пользователей, поведенческим факторам и тп. Почти тоже самое и для средне-частотных запросов.

Оставшаяся группу запросов — это редкие запросы. Некоторые из них даже уникальный! Есть вероятность того, что он никогда не повториться впредь. Как следствие — почти полное отсутствие статистики и ступор ПС в части подбора релевантной выдачи на подобные запросы. И ведь игнорировать этот факт нельзя, так как НЧ запросов, так называемого «хвоста», весьма солидное количество! Возникает вопросы, как должна ПС определить релевантную страницу для подобных запросов? Откуда ей знать, ответом на запрос пользователя «парень бежит в протезах от хулиганов» будет страница с фильмом «Форест Гамп» (кстати, один из любимых фильмов автора)?

Нейронные сети спешат на помощь

Вы уже наверняка слышали за последний год-два о новинке в сфере высоких разработок, а именно о Нейронных Сетях. Лично я впервые узнал об их использовании, когда пользователей «яблочной» телефонии захватило приложение, позволяющее получать из обычных посредственных фотографий художественные шедевры в стиле известных живописцев. Итак, искусственные нейронные сети — это понятие, подразумевающее алгоритмы обработки большого массива информации с использованием машинного обучения, приобретения опыта! Кто бы мог о таком подумать 10 лет назад?? Представьте, алгоритм обучается посредством предоставления ему верных и не верных образцов информации, на основании этого он может впоследствии сам анализировать входящие данные, обрабатывать их и выдавать результат! Фантастика рядом!

Но вернемся к нашей теме. В случае с глобальным поиском, применение нейронных сетей позволит алгоритму Яндекса научиться определять связь между уникальными, редкими и не простыми запросами пользователей и релевантным ответом (страницей). Он (алгоритм) буквально учится понимать, что именно хочет узнать человек, вводя запрос «кто написал саунд трек тууу туууууууу тутурутууууу тууу ту турутууууутууу ту ту тууууу!!!» («Звездные войны») и отправить его на нужный сайт.

Теперь перейдем на язык по-сложнее. Яндекс сопоставил все известные ему заголовки веб-ресурсов в виде уникальной комбинации множества чисел, и представил это в виде трех-мерной координатной сетке, в трех-мерном пространстве. Точно также будет приведен к числовому виду и сам запрос. А далее самое интересное! ПС будет сопоставлять уже только пару чисел! Пускай и очень больших чисел 🙂 Задумка в том, что бы считать релевантным ту страницу, которая будет находиться в этом трех-мерном пространстве ближе к точке запроса в том же пространстве! Все гениальное просто!

Яндекс назвал этот подход Семантический Вектор.

Такая штука весьма перспективна и может найти применения во многих сферах! Я уверен, что сейчас даже всего не представить и не предугадать, где будет использована данная технология через год, два, пять.  В данный момент Яндекс уже планирует использовать Семантический вектор в своем разделе поиска «Картинки». Ведь и правда, какая разница, что сравнивать? Данные — они и в Африке данные!

Будьте в курсе новостей с нашим блогом! Удачи!

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *