Как развиваются рекомендательные системы в условиях дефицита данных

Рекомендательные системы являются фундаментом множества популярных онлайн-сервисов, от торговых площадок до стриминговых платформ. Их дальнейшее совершенствование тесно связано с научными исследованиями и доступом к обширным и разнообразным данным. Однако найти такие высококачественные и достаточные по объему массивы в открытом доступе крайне сложно. Эта статья посвящена текущему положению дел в данной сфере и роли академического сообщества, государства и бизнеса в развитии алгоритмов рекомендаций, согласно мнениям ведущих экспертов.

Основные препятствия на пути развития рекомендательных алгоритмов

Алгоритмы рекомендаций функционируют, анализируя действия пользователей внутри сервиса, чтобы предложить им наиболее релевантный контент или товары. Будь то клики и покупки на маркетплейсе, просмотры и оценки фильмов в онлайн-кинотеатре или время, проведенное за просмотром постов в соцсетях — эти действия формируют основу для персонализации. Для повышения точности и эффективности алгоритмам требуется обучение на уникальных и разнообразных наборах данных, отражающих реальное поведение пользователей.

В отличие от других областей, таких как медицина или лингвистика, где можно использовать готовые изображения или текстовые корпуса, для рекомендательных систем критически важны детализированные записи о взаимодействии пользователей. Простые или искусственно сгенерированные данные, не основанные на реальном поведении, оказываются недостаточными для воссоздания подлинной динамики сервиса.

Евгений Фролов, PhD, руководитель группы «Технологии персонализации» Института AIRI, подчеркивает фундаментальное значение индустриальных данных: «Наука в этой сфере не может развиваться без обширного, репрезентативного и разнообразного материала, который формируется в реальных сервисах. Все ключевые датасеты, используемые исследователями, поступают из индустрии. Создание полностью эффективных синтетических наборов данных пока невозможно; симуляторы рекомендательных систем, хоть и были популярны, показывают крайне ограниченную предсказательную способность».

Александр Плошкин, руководитель направления по развитию качества персонализации «Яндекса», отмечает: «Развитие алгоритмов рекомендаций напрямую зависит от научных исследований, которым необходимы качественные и объемные датасеты. Однако открытые датасеты зачастую невелики или устарели, поскольку коммерческие компании, накапливающие терабайты данных, редко делятся ими. Это создает значительный разрыв между академической наукой и запросами бизнеса».

Как подчеркивают в пресс-службе Ассоциации больших данных, появление доступных и качественных наборов данных стимулирует создание инновационных продуктов и услуг. Высокий спрос подтверждает, что такая практика служит прочной основой для новаторских решений. Следовательно, для ускоренного развития отрасли необходимо устранять барьеры и поощрять обмен данными.

Взаимодействие академического сообщества и бизнеса как двигатель прогресса

Преодоление дефицита данных требует тесного сотрудничества между бизнесом и наукой, где каждая сторона играет свою уникальную роль. Бизнес обладает необходимой инфраструктурой и ценными данными, тогда как академическая среда генерирует новые идеи и готовит квалифицированные кадры.

Крупные технологические компании активно способствуют развитию науки в академической среде, предлагая университетам реальные задачи, доступ к отраслевым данным и вычислительным мощностям. Директор Института искусственного интеллекта МФТИ Азамат Жилоков считает, что для корпораций это возможность первыми знакомиться с новейшими подходами.

Сергей Муравьев, доцент Института прикладных компьютерных наук ИТМО, дополняет, что академия выступает в роли «фабрики идей». При этом он отмечает, что основной вклад на данный момент вносят индустриальные исследователи благодаря быстрому внедрению результатов и значительным вычислительным ресурсам.

В последние годы некоторые глобальные гиганты, включая Netflix, Google, Spotify и Amazon, опубликовали часть своих датасетов, например, обширный массив Amazon Reviews, музыкальные треки Spotify или коллекцию Google MusicCaps. В России одним из первопроходцев в этой инициативе стал «Яндекс».

Сергей Муравьев выделяет: «Одним из важнейших датасетов, опубликованных российскими участниками рынка в этом году, является Yambda от «Яндекса». Исследователи проделали колоссальную работу: помимо сбора данных музыкального сервиса, они стандартизировали протокол валидации и представили замеры качества для основных моделей. Отличительной особенностью этого датасета является наличие богатого описания музыкальных композиций и возможность различать органические и рекомендованные события. Я уверен, что благодаря этим качествам Yambda сможет пополнить список общепризнанных бенчмарков в данной области».

Датасет Yambda вызвал значительный интерес среди зарубежных специалистов. Аман Чадна, руководитель направления Generative AI в Amazon Web Services (AWS), отметил, что такие датасеты, как Yambda-5B, эффективно сокращают разрыв между академическими исследованиями и их практической значимостью для индустрии. Карун Танкачан, ведущий Data Scientist в Walmart (ранее работавший в Amazon), выразил свое восхищение в социальных сетях: «Работая в этой сфере долгое время, я не раз убеждался, что большинство тестовых датасетов не достигают уровня реальных сервисов – они либо чрезмерно упрощают сложности современных платформ вроде Spotify или YouTube, либо не содержат адекватных метрик для оценки. Поэтому появление датасета Yambda так впечатляет».

По примеру «Яндекса» к инициативе по публикации данных присоединились и другие российские компании. В конце лета 2025 года AI-команда VK представила VK-LSVD – датасет, включающий 40 миллиардов взаимодействий 10 миллионов пользователей с 20 миллионами коротких видео, собранных за полгода. В сентябре команда RecSys R&D Т-Банка выпустила T-ECD – синтетический e-commerce датасет, созданный на основе реальных банковских данных. Он содержит свыше 135 миллиардов взаимодействий в пяти ключевых областях: маркетплейс, доставка продуктов, партнерские предложения, отзывы и платежи.

Открытые данные как инструмент международного диалога

Публикация таких масштабных массивов данных открывает компаниям путь к участию в международном диалоге. Например, в сентябре датасет Yambda был представлен на международной конференции ACM RecSys в Праге, которая является одной из ведущих площадок в области рекомендательных технологий.

Научная статья российских исследователей, представившая не только сам датасет, но и открытые бейзлайны (базовые модели и программные наборы для проверки качества алгоритмов и сравнения результатов), вошла в программу устных докладов, что является высоким признанием на столь престижной конференции.

Российские университеты также активно усиливают свое международное присутствие. Андрей Даркшевич, заместитель директора Института искусственного интеллекта и цифровых наук факультета компьютерных наук ВШЭ, комментирует: «На базе нашего института создана международная лаборатория стохастических алгоритмов и анализа многомерных данных. Одно из ее направлений – развитие рекомендательных систем. Коллеги не только ведут научные исследования, результатом которых становятся публикации уровня А*, но и внедряют свои разработки для индустриальных партнеров. Среди наших стратегических партнеров есть как международные, так и российские лидеры рынка, для которых применение рекомендательных систем дало значительный положительный эффект».

Подготовка специалистов для индустрии

Наборы данных играют ключевую роль не только в научных исследованиях, но и в подготовке квалифицированных кадров. Андрей Даркшевич подчеркивает: «Ограниченность или отсутствие больших датасетов, безусловно, влияет на обучение студентов и молодых исследователей, поскольку без них все сводится к теоретическим изысканиям. Учебные датасеты часто рафинированы и предварительно обработаны, тогда как для развития прикладных навыков необходимы не только теоретические знания и отработка алгоритмов, но и опыт работы с реальными данными для решения бизнес-задач. Подготовить высококлассных специалистов без доступа к реальным данным невозможно, но и одних датасетов недостаточно. Публикация массивов позволяет включать реальные задачи в учебный процесс, а бизнесу важно вовлекать молодых специалистов в практическую деятельность».

Вопрос подготовки кадров в сфере искусственного интеллекта находится в центре внимания государства.

В пресс-службе Минцифры прокомментировали: «Развитие перспективных технологий, включая искусственный интеллект, является одним из приоритетных направлений деятельности Минцифры. Важно отметить, что любая технология должна применяться с полным соблюдением прав и интересов граждан. ИТ-компании активно участвуют в подготовке ИТ-специалистов, в том числе в области ИИ. Так, в 2025 году был запущен проект «Топ ИИ», целью которого является подготовка высококвалифицированных специалистов в области искусственного интеллекта. В текущем учебном году обучение по новым программам уже начали более 4,7 тыс. человек. Проект предполагает обучение студентов по программам высшего образования в сфере ИИ, разработанным совместно с ИТ-отраслью и ключевыми работодателями. К 2030 году планируется обучить более 10,2 тыс. студентов».

Векторы развития индустрии и академии

Эксперты единодушно сходятся во мнении: публикация больших датасетов – это лишь первый, но очень важный шаг. Они способствуют созданию более точных моделей и сокращают разрыв между академической наукой и бизнесом. Однако для дальнейшего прогресса критически важны развитая инфраструктура, поддержка принципов открытости и, конечно, как локальное, так и международное сотрудничество.

Активизация всех участников индустрии способна ускорить достижение новых научных открытий в области развития рекомендательных алгоритмов. Андрей Даркшевич отмечает: «Масштабные датасеты, предоставленные российскими компаниями для общего пользования, – это огромный прорыв для индустрии рекомендательных систем. Он позволит обучать и решать задачи на реальных данных, создавая модели, которые могут быть использованы в практических целях. Но это только начало, и нам необходимо продолжать движение в этом направлении».

Для полной реализации потенциала необходима не только работа исследователей, но и существенные изменения в инфраструктуре. В Ассоциации больших данных подчеркнули, что даже небольшие объемы данных способны стимулировать инновации. Сейчас рынок находится на стадии формирования новых идей и готовности к прорывам. Поддержка открытости данных, развитие инфраструктуры и смягчение регуляторных ограничений создают благоприятные условия для появления высокоэффективных и востребованных рекомендательных систем.

Виктор Лебедев
Виктор Лебедев

Виктор Лебедев - политический обозреватель из Ярославля с 8-летним стажем. Специализируется на анализе международных отношений и региональной политики центрального федерального округа.

Обзор последних событий в мире шоу-бизнеса