Революция в рекомендациях: Точность от Яндекса

Новости науки

Исследователи из «Яндекса» нашли способ точнее понимать пользователей

Специалисты «Яндекса» объявили о значительном достижении в сфере рекомендательных систем, применяемых в онлайн-магазинах, социальных сетях и на стриминговых платформах. Им удалось усовершенствовать базовую формулу LogQ, которая теперь эффективнее устраняет недочеты в процессе машинного обучения, обеспечивая более точную оценку пользовательских предпочтений и, как следствие, предлагая максимально релевантный контент или товары.

Этот инновационный подход, уже получивший признание на авторитетной международной конференции ACM RecSys 2025, демонстрирует повышение точности рекомендаций на 7%. Его главное преимущество — легкость интеграции: разработчики смогут внедрить его в существующие системы по всему миру, не изменяя их базовую архитектуру.

В интервью с Владимиром Байкаловым, ведущим исследователем рекомендательных технологий в «Яндексе», мы обсудили, как обновленная формула LogQ решает ключевую проблему в обучении нейросетей, объяснили причины улучшения точности рекомендаций и узнали, когда пользователи «Яндекс.Маркета» и других сервисов смогут оценить эти изменения.

— Каковы основные ограничения метода sampled softmax, который широко применяется для ускорения процесса обучения рекомендательных систем?

— Главная проблема sampled softmax связана с так называемым «смещением выборки» (sampling bias), возникающим при применении так называемых in-batch-негативов (то есть «неподходящих» примеров объектов) в процессе обучения. Эти негативы, как правило, представлены популярными товарами, музыкальными композициями или рекламными объявлениями, поскольку они чаще попадают в случайные группы данных (батчи) по сравнению с более нишевыми аналогами. Это приводит к тому, что модель теряет способность точно определять, насколько тот или иной объект актуален для пользователя. Для решения этой проблемы повсеместно применяется LogQ-коррекция, призванная снизить эффект смещения выборки за счет учета популярности каждого объекта-примера.

— Что именно упускала из виду традиционная формула LogQ в процессе обучения и почему это имело существенное значение?

— Традиционный алгоритм LogQ-коррекции не принимал во внимание фундаментальное различие между положительными и отрицательными объектами при вычислении sampled softmax. Изначально подразумевалось, что все объекты — как позитивные, так и негативные — выбираются для каждого конкретного примера из набора данных случайным образом. Однако фактически положительный объект присутствует всегда с вероятностью 1, а не отбирается так же, как негативные. Это упущение критически важно, поскольку применение единой корректировки к обоим типам объектов приводит к некорректной оценке градиента, что нарушает правильный процесс обучения модели.

— В чем состоит ключевое усовершенствование формулы LogQ, предложенное вашей командой? Какая именно ошибка была устранена?

— Мы сосредоточились на правильном учете роли положительного объекта. Это означало корректировку исходной формулы путем исключения LogQ-поправки для положительного объекта при расчете sampled softmax. В процессе корректного вывода формулы стало ясно, что каждый пример теперь имеет свой «вес», определяемый его значимостью. Соответственно, чем меньше ошибка, тем меньшее влияние этот пример оказывает на обучение. Это приводит к логичному результату: нет необходимости тратить много ресурсов на те примеры, которые модель обрабатывает эффективно самостоятельно.

— Каким образом данная корректировка способствует более глубокому пониманию пользовательских предпочтений со стороны модели?

— Наше усовершенствование применяется на начальных этапах работы рекомендательной системы, где его задача — отобрать наиболее подходящие объекты из обширной базы данных. После этого выбранные объекты подвергаются дальнейшей ранжировке более сложными алгоритмами, а затем уже предлагаются пользователям. Таким образом, благодаря внесенным изменениям, повышается общая эффективность всего рекомендательного стека, что напрямую влияет на качество предложений, которые видит конечный пользователь.

— Насколько существенным является эффект от внедрения новой методики?

— Даже незначительное, на первый взгляд, улучшение качества рекомендаций на 1–2% уже считается весьма значимым в индустрии. В нашем случае, на отдельных наборах данных, мы достигли прироста в 7% по ключевым метрикам ранжирования, таким как Recall@20, NDCG@20 и Recall@1000, что является выдающимся результатом для данной отрасли. Для пользователя это обернется более точными, широкими и индивидуально настроенными рекомендациями, особенно актуальными для тех, кто ищет уникальные товары или интересуется узкоспециализированными категориями.

— Насколько трудоемким является процесс интеграции вашего решения в уже функционирующие рекомендательные системы?

— Для рекомендательных систем, которые уже интегрировали LogQ-коррекцию, процесс внедрения нашего решения окажется достаточно простым. Будет достаточно внести изменения в формулу функции потерь (лосс-функции), не затрагивая при этом ни архитектуру модели, ни общий алгоритм обучения. Важно отметить, что новый метод не повышает вычислительную сложность по сравнению с традиционной LogQ-коррекцией. Корректировки касаются исключительно стадии обучения, тогда как механизм инференса (формирования и выдачи рекомендаций) остается без изменений.

Потенциальные трудности могут возникнуть лишь в тех системах, где LogQ-коррекция еще не применяется. В этом случае потребуется дополнительная разработка и внедрение механизма корректировки смещения непосредственно на этапе расчета ошибки.

— Что делает вашу методику универсальной и применимой в самых разнообразных отраслях?

— Универсальность данной методики объясняется несколькими ключевыми факторами. Во-первых, двухбашенные модели, использующие in-batch-негативы, нашли широкое применение практически во всех сферах — от систем видеорекомендаций (например, YouTube) до крупных платформ электронной коммерции (как Walmart). Во-вторых, наше усовершенствование функционирует на уровне функции потерь и не зависит от особенностей конкретной предметной области. Это означает, что метод не ограничен рамками определенной индустрии и может быть успешно применен в любой системе, где используются рекомендательные алгоритмы.

— Каковы причины того, что ваше исследование удостоилось внимания столь авторитетной конференции, как ACM RecSys 2025?

— Наше исследование было принято на RecSys 2025, поскольку оно разрешает принципиальное противоречие, существовавшее в процессе обучения. Ранее применявшиеся подходы нередко приводили к системным ошибкам при формировании рекомендаций: модель могла некорректно идентифицировать, какие объекты по-настоящему привлекательны для пользователя. Помимо этого, мы стремились восполнить пробел в академической литературе, представив результаты экспериментов не только на общедоступных академических наборах данных, но и на масштабных промышленных данных. Над созданием статьи и внедрением усовершенствованной формулы трудилась большая команда исследователей: Кирилл Хрыльченко, Владимир Байкалов, Артем Матвеев, Сергей Лямаев, Сергей Макеев.

— Можно ли говорить о полном решении данной проблемы, или же это лишь очередной этап в ее развитии?

— Это, безусловно, значимый, но пока не окончательный шаг в эволюции методов обучения рекомендательных систем. Мы успешно решили специфическую концептуальную проблему, связанную с LogQ-коррекцией, и продемонстрировали стабильное улучшение качества. Наше исследование является существенным усовершенствованием уже существующих подходов, однако эта область продолжает активно развиваться. Вполне вероятно, что со временем появятся еще более точные алгоритмы, способные превзойти наше текущее решение.

Мария Грибова

Виктор Лебедев
Виктор Лебедев

Виктор Лебедев - политический обозреватель из Ярославля с 8-летним стажем. Специализируется на анализе международных отношений и региональной политики центрального федерального округа.

Обзор последних событий в мире шоу-бизнеса