Рекомендательные системы давно перешагнули рамки простого удобства, став фундаментом для многих цифровых сервисов и их бизнес-моделей. Сегодня, после периода стабильного, но эволюционного развития, эта область приближается к революционным изменениям, вызванным появлением генеративного искусственного интеллекта. Российские инженеры и исследователи «Яндекса» оказались в числе мировых лидеров, разработав и внедрив рекомендательную систему нового поколения — ARGUS. Эта система способна анализировать тысячи пользовательских действий, глубоко понимать контекст и даже предугадывать желания. Как именно эти инновационные системы трансформируют опыт миллионов пользователей уже сейчас, и почему они вскоре превратятся в персональных ассистентов, предвосхищающих наши мысли? Об этом в эксклюзивном интервью с ведущими специалистами направления.
Александр Сафронов, руководитель службы рекомендаций Яндекс Музыки
- Основные задачи команд: что движет инновациями?
- Что является главной задачей вашей команды?
- Эволюция рекомендательных систем: от функции к бизнес-основе
- Как рекомендательные системы трансформировались за последние годы?
- Новое поколение рекомендаций: ARGUS и генеративный ИИ
- В чем заключается принципиальное отличие нового поколения рекомендательных систем от предыдущего, и какие задачи генеративные модели решают лучше традиционных алгоритмов?
- Генеративные модели уже активно используются в других областях, таких как обработка естественного языка. Почему их интеграция в рекомендательные системы началась сравнительно недавно?
- Понимание пользователя: как ИИ угадывает предпочтения
- Рекомендации на основе генеративных моделей способны выявлять неочевидные взаимосвязи между действиями пользователей. Как именно модель определяет, что может понравиться человеку, а что — нет?
- Приватность и безопасность данных в обучении моделей
- Какие данные используются для обучения моделей? Как обеспечивается их приватность и безопасность?
Основные задачи команд: что движет инновациями?
Что является главной задачей вашей команды?
Николай Савушкин, руководитель направления рекомендательных технологий «Яндекса»: Наша команда сфокусирована на развитии рекомендательных технологий для всех сервисов «Яндекса». Приоритетное направление — это R&D, способствующее развитию трансформерных технологий в контексте рекомендаций. Недавно мы совершили значительный прорыв, разработав авторегрессионную трансформерную модель ARGUS (AutoRegressive Generative User Sequential Modeling). Это новое поколение рекомендательных систем, основанных на генеративных моделях, способных учитывать сложную последовательность событий, контекст и многокомпонентную обратную связь от пользователя.
Александр Сафронов, руководитель службы рекомендаций «Яндекс Музыки»: Мы отвечаем за алгоритмы «Яндекс Музыки», в первую очередь за персональные рекомендации. Ключевая функция нашего сервиса — «Моя волна», бесконечный музыкальный поток, адаптирующийся под вкусы пользователя. Наша миссия — постоянно улучшать качество этого потока с помощью машинного обучения. Это требует точного предсказания предпочтений, быстрой реакции на смену настроения, обеспечения разнообразия, обнаружения новых интересов (серендипности), новизны контента и многих других аспектов. Восприятие музыки очень субъективно и тесно связано с эмоциями, что делает нашу задачу особенно сложной.
Тим Алексеевский, руководитель службы разработки рекомендаций «Яндекс Маркета»: Мы создаем IT-систему, которая с помощью алгоритмов точно подбирает товары, потенциально интересные конкретному покупателю.
Эволюция рекомендательных систем: от функции к бизнес-основе
Как рекомендательные системы трансформировались за последние годы?
Николай Савушкин: Сегодня значительная часть интернет-пространства функционирует благодаря рекомендательным системам. Они повсеместно используются в социальных сетях, стриминговых и e-commerce платформах. Более того, для некоторых проектов рекомендации — это не просто полезный инструмент, это краеугольный камень всего бизнеса. Например, сервисы коротких видео, такие как TikTok, полностью зависят от способности привлекать и удерживать внимание пользователей, что невозможно без высококачественных рекомендаций. В последние годы технологии рекомендательных систем достигли определенного плато, но сейчас мы наблюдаем начало новой эры. Генеративный искусственный интеллект, о котором сейчас так много говорят, является главной движущей силой этих изменений. Генеративные модели уже оказали глубокое влияние на множество продуктов (например, в создании текста, изображений, видео и аудио), и аналогичные трансформации назревают и в нашей сфере. Учитывая, что рекомендации формируют основу многих бизнесов, я убежден, что пользователи скоро ощутят глобальные перемены в этой области.
Александр Сафронов: Прогресс в области рекомендательных систем очевиден. По моему мнению, он во многом обусловлен ростом объемов доступных данных. «Яндекс Музыка» — крупнейший подписной музыкальный сервис в России, что открывает огромные возможности для применения более мощных и сложных моделей. Появились новые архитектуры, способные эффективно обучаться на больших наборах данных. Особо стоит отметить интеграцию методов, изначально разработанных для обработки текста, в рекомендательные системы. Если сильно упрощать, то раньше рекомендации в основном опирались на алгоритмы матричного разложения, воспринимающие действия пользователя как неупорядоченный набор событий. Сегодняшние успехи связаны с использованием глубоких нейронных сетей, способных обрабатывать последовательности событий, подобно тому, как современные большие языковые модели анализируют последовательности слов. В «Яндекс Музыке» мы интегрировали глубокие нейронные сети в рекомендации в конце 2023 года. Так же как YandexGPT стремится понять смысл текста, «Моя волна» теперь пытается уловить логику последовательности треков, которые понравятся пользователю.
Тим Алексеевский: Произошел фундаментальный переход к новым алгоритмам. Современные архитектуры нейронных сетей демонстрируют значительно большую эффективность в рекомендательных задачах и постепенно становятся центральным элементом стека рекомендательных систем.
Новое поколение рекомендаций: ARGUS и генеративный ИИ
В чем заключается принципиальное отличие нового поколения рекомендательных систем от предыдущего, и какие задачи генеративные модели решают лучше традиционных алгоритмов?
Николай Савушкин: Исследователи «Яндекса» разработали рекомендации нового поколения, опираясь на большие генеративные модели. Мы стали одними из первых в мире, кто продемонстрировал возможность создания столь масштабной модели, способной обрабатывать настолько длинную историю для музыкальных рекомендаций. Алгоритмы, основанные на больших генеративных моделях, обучаются быстрее, анализируют значительно более долгую историю пользовательских действий и выявляют неочевидные взаимосвязи между ними, что существенно повышает качество персонализации. Они функционируют в реальном времени, мгновенно реагируя на действия пользователя, но при этом учитывая гораздо большее количество параметров. Новые рекомендации способны анализировать значительно более длительный период активности пользователя, обнаруживая как явные, так и скрытые корреляции. Эти алгоритмы точнее определяют изменения в потребностях человека с течением времени. Например, если пользователь каждое лето покупает теннисные мячи определенной марки, система напомнит ему об этом в нужный момент.
Генеративные модели уже активно используются в других областях, таких как обработка естественного языка. Почему их интеграция в рекомендательные системы началась сравнительно недавно?
Николай Савушкин: Генеративные модели давно стали ключевым инструментом в обработке естественного языка, поскольку в этой сфере относительно легко создавать крупные обучающие выборки из текстов и формировать универсальные последовательности информации, что идеально подходит для нейросетей-трансформеров. В рекомендательных системах ситуация значительно сложнее: приходится работать с разнотипными данными (история действий, новые товары, новые пользователи, различные виды обратной связи), а реакция на рекомендации должна быть практически мгновенной. Долгое время применение больших трансформеров в этой области было слишком сложным и ресурсоемким. Ситуация изменилась благодаря появлению новых технических решений и архитектур. Теперь стало возможным обучать гигантские модели на длинных последовательностях пользовательских действий, учитывать сложную обратную связь и масштабировать вычисления для решения индустриальных задач.
Николай Савушкин, руководитель направления рекомендательных технологий Яндекса
Еще одной значительной причиной замедленного внедрения генеративных моделей является дефицит объемных и качественных открытых датасетов для обучения и тестирования алгоритмов. Коммерческие решения обычно оперируют терабайтами данных, которые недоступны для академического сообщества. Коммерческие платформы редко публикуют такие данные из-за их высокой бизнес-ценности, что вынуждает исследователей использовать устаревшие и ограниченные наборы данных. Модели, обученные на небольших датасетах, часто теряют эффективность при масштабировании. Это создает разрыв между академическими исследованиями и реальными потребностями бизнеса. Недостаток опенсорс-инструментов также сдерживал переход рекомендательных систем на генеративные модели.
Чтобы рекомендательные технологии не отставали от других областей (например, больших языковых моделей), необходимо наладить более тесное взаимодействие между академической сферой и бизнесом. Мы уже делаем первые шаги в этом направлении и разрабатываем планы по углублению сотрудничества. В «Яндексе» разработчики рекомендательных технологий активно занимаются исследованиями, и поэтому в мае 2025 года мы решили внести свой вклад в решение этой проблемы, выпустив в опенсорс наш датасет Yambda. Он был создан на основе обезличенных данных «Яндекс Музыки» — крупнейшего подписного музыкального сервиса в России. Ученые, исследователи и университеты со всего мира могут использовать Yambda для оценки качества и улучшения любых рекомендательных систем, поскольку в их основе лежат общие алгоритмы. Датасет доступен в трех версиях: полная содержит 5 миллиардов событий, а уменьшенные — 500 миллионов и 50 миллионов. Разработчики и исследователи могут выбрать вариант, соответствующий их задачам и доступным вычислительным ресурсам. С момента релиза Yambda был скачан более 50 тысяч раз, а научная статья о датасете была принята на крупнейшую международную конференцию по рекомендательным системам — ACM RecSys. В сентябре мы представим эту научную работу инженерам и исследователям рекомендательных систем со всего мира в Чехии и искренне надеемся, что наш датасет станет одним из наиболее часто используемых инструментов в научных исследованиях.
Понимание пользователя: как ИИ угадывает предпочтения
Рекомендации на основе генеративных моделей способны выявлять неочевидные взаимосвязи между действиями пользователей. Как именно модель определяет, что может понравиться человеку, а что — нет?
Николай Савушкин: Подобно тому, как большие языковые модели улавливают связи между словами в тексте, рекомендации на базе генеративных моделей распознают взаимосвязи между действиями пользователя. Это позволяет им предлагать неочевидные, но очень релевантные рекомендации. Во-первых, мы теперь анализируем всю анонимизированную историю пользователя целиком — включая как положительные, так и отрицательные взаимодействия. Кроме того, мы учитываем контекст взаимодействия: время, устройство, конкретную страницу продукта, настройки «Моей волны» и так далее. Например, в музыкальных рекомендациях контекст играет огромную роль: текущее настроение пользователя или его ситуация сильно влияют на выбор музыки. Во-вторых, основываясь на истории, текущем контексте и конкретном элементе, мы предсказываем обратную связь пользователя. Эта обратная связь может быть многокомпонентной: был ли поставлен лайк, дизлайк, добавлено ли что-то в плейлист, какая часть трека была прослушана. Мы прогнозируем все типы фидбека. И хотя некоторые виды обратной связи встречаются значительно реже (например, лайков обычно меньше, чем долгих прослушиваний), модель эффективно учится предсказывать все сигналы. Чем крупнее модель, тем легче ей одновременно решать все эти задачи без внутренних конфликтов. Более того, часто встречающийся фидбек (например, прослушивания) фактически помогает модели научиться более точно прогнозировать редкую, разреженную обратную связь (например, лайки).
Тим Алексеевский, руководитель службы разработки рекомендаций Яндекс Маркета
Тим Алексеевский: По своей сути, любая рекомендация является моделью пользовательского поведения, прогнозирующей его будущие действия. В нашем случае это взаимодействие с товарами. Генеративные нейросети, анализируя историю действий человека, предсказывают его дальнейшие шаги, и, подобно тому, как они генерируют тексты, в рекомендациях такие модели демонстрируют высокую эффективность. Аналогичные принципы мы планируем применять и в ИИ-ассистенте «Маркета».
Приватность и безопасность данных в обучении моделей
Какие данные используются для обучения моделей? Как обеспечивается их приватность и безопасность?
Николай Савушкин: Для обучения моделей применяются исключительно агрегированные и анонимизированные данные. Из них удаляются любые персональные сведения, способные идентифицировать пользователя. Вся история действий обезличивается и кодируется, а индивидуальные взаимодействия объединяются в крупные обезличенные последовательности событий.
Тим Алексеевский: Мы анализируем поисковые запросы, просмотры товаров, добавления в корзину, отметки «избранное» и совершенные заказы. При этом система не знает имени пользователя, но улавливает его поведенческие паттерны и вкусы, формируя персонализированные потоки идей и подборок. Такой подход эффективен не только когда человек ищет что-то конкретное, но и когда он просто просматривает ассортимент в поисках вдохновения. Именно поэтому рекомендательные ленты трансформируются из обычных списков товаров в умные витрины, способные чувствовать настроение и предлагать то, что действительно может оказаться полезным.
Александр Сафронов: Наиболее ценная информация для музыкальных рекомендаций содержится в истории прослушиваний пользователя. Иначе говоря, эффективно работают алгоритмы, которые анализируют, что пользователь слушал ранее, какие треки он отмечал как понравившиеся, а какие пропускал.





