Интеллектуальная робототехника: Разум машин и вызовы будущего

Новости науки

Интервью с Александром Пановым о развитии умных роботов

Почему человекоподобные роботы-помощники до сих пор не стали обыденностью в наших домах? Какие актуальные задачи стоят перед современной робототехникой, кто из ведущих ученых занимается их решением и на каких платформах публикуются их исследования?

Александр Панов

На вопросы о состоянии и перспективах развития интеллектуальной робототехники ответил Александр Панов, доктор физико-математических наук, руководитель лаборатории когнитивных систем ИИ Института AIRI и Центра когнитивного моделирования МФТИ.

— Что представляет собой интеллектуальная робототехника?

Для начала определимся с понятием робота, поскольку у многих оно ассоциируется с образами из фантастики, например, с произведениями Азимова. Однако в повседневной жизни мы регулярно сталкиваемся с роботами: это промышленные манипуляторы на конвейерах, беспилотные курьеры и даже бытовые роботы-пылесосы. Таким образом, робот — это автоматизированный программируемый механизм, предназначенный для выполнения задач в физической среде, традиционно возлагаемых на человека.

— Можно ли считать роботом обычную стиральную машину?

Нет, поскольку она работает по строго заданному алгоритму без какой-либо адаптации к окружающей среде. Это простое устройство. Но если бы стиральная машина могла «ощущать» перегрузку белья, общаться с пользователем голосом и самостоятельно выбирать оптимальный режим, тогда ее можно было бы отнести к категории роботов. В целом, термин «робототехника» обычно относится к разработке высокотехнологичных механических систем, выполняющих заданные операции. «Интеллектуальная робототехника» же предполагает создание машин, способных функционировать в непредсказуемых условиях, например, при неполной информации или в прямом контакте с человеком. Такие системы требуют внедрения обучаемых компонентов, поведение которых невозможно предсказать на этапе проектирования.

— Правильно ли понимать, что интеллектуальная робототехника занимается созданием «мозгов» для роботов?

В некотором смысле, да. Системы управления для интеллектуальных роботов включают в себя интеграцию больших языковых и мультимодальных моделей. Эти модели обрабатывают данные от различных сенсоров и позволяют роботам применять «здравый смысл» — общие знания о мире — для разработки более сложных поведенческих стратегий.

— Какова роль искусственного интеллекта в развитии современных роботов?

Основой многих обучаемых робототехнических систем является обучение с подкреплением, при котором робот осваивает оптимальные действия путем взаимодействия с окружением, методом проб и ошибок, получая вознаграждения или штрафы. Другой активно развивающийся метод — имитационное обучение, основанное на готовых наборах данных. Оно позволяет роботу не только воспроизводить действия, но и адаптироваться к новым, ранее не встречавшимся условиям. Также незаменимы нейросетевые архитектуры-трансформеры, повсеместно используемые для текстового управления роботами на естественном языке. В таких случаях мы не задаем роботам точные инструкции, а лишь описываем желаемое, ожидая, что интеллектуальная система самостоятельно определит конечную цель, разобьет ее на подзадачи и последовательно достигнет их с учетом текущей ситуации. В современном мире сложно представить дальнейшее расширение областей применения робототехники без глубокой интеграции ИИ-обучения. Это особенно важно для роботов, работающих в человеческой среде — на улицах, в офисах, домах, где каждое пространство уникально. Человек легко найдет столовые приборы на незнакомой кухне, опираясь на общие знания, тогда как роботу это будет значительно сложнее без развитого интеллекта.

— Вы руководите тремя научными группами в AIRI и Центром когнитивного моделирования в МФТИ. На чём сосредоточены исследования вашего коллектива?

Наша деятельность охватывает три ключевых направления. Во-первых, это разработка мультимодальных семантических карт среды. Мы занимаемся автоматическим формированием динамических графовых представлений пространства вокруг мобильных роботов. Мультимодальность здесь означает одновременное получение сенсорных данных об объектах, включая их текстовые описания и свойства (например, материал). Это своего рода перцептивный эмбеддинг, кодирующий смысловые и пространственные характеристики объектов. Такие графы высокоэффективны для навигации и манипуляций, позволяя роботу интерпретировать команды на естественном языке, например, «принеси чашку с кофейного столика», и поддерживать контекст даже при ограниченном обзоре.

Во-вторых, мы активно развиваем гибридные алгоритмы обучения с подкреплением (RL). В этой области наша команда по праву считается одним из лидеров в стране. Мы создаем методы RL на основе моделей (Model-based RL), которые используют предиктивные модели среды для ускорения обучения. Разрабатываем специализированные нейроархитектуры, включая адаптированные трансформеры, для задач обучения с подкреплением. Также работаем над стратегиями интеграции RL с классическими методами оптимального управления. Эта синергия позволяет роботам демонстрировать устойчивость в непредсказуемых условиях, где чисто обучаемые подходы пока недостаточно надёжны.

Третье направление — это разработка больших поведенческих моделей, известных как vision—language—action (VLA), или зрение—язык—действие. Это один из наиболее актуальных трендов в мировой робототехнике. Ранее системы управления были преимущественно модульными, с отдельными компонентами для каждой подзадачи: картирования, локализации, планирования движений манипулятора или платформы, выполнения действий. Теперь же фокус смещается на создание единой нейросетевой модели, обучаемой от начала до конца (end-to-end), часто с использованием предобученных весов и дообучением на специализированных данных. Такая модель способна воспринимать инструкции на естественном языке и управлять сложными роботами, такими как колесные платформы с двумя манипуляторами или антропоморфные роботы.

Хотя в качестве самих VLA-моделей мы пока немного уступаем ведущим зарубежным разработкам, мы превосходим их в интеграции обучаемых подходов с классическими методами оптимального управления. Эта гибридизация критически важна для преодоления ограничений чистых VLA-моделей, особенно в задачах, требующих высокой точности, надежности и безопасности, где ошибки недопустимы. Достичь высокой обобщаемости поведения и одновременно точного исполнения очень сложно. Российские исследования в области гибридного интеллекта для робототехники демонстрируют значительные мировые успехи. Например, новаторскими являются работы по управлению мобильными платформами в сложных динамических средах с движущимися препятствиями. Мы разработали подход, где нейросетевые аппроксиматоры моделируют форму объектов как специальные потенциалы, которые затем интегрируются в системы оптимального управления. В настоящее время мы сосредоточены на создании архитектуры, позволяющей эффективно обучаться в офлайн-режиме (на заранее собранных данных) с последующим успешным дообучением в онлайн-среде, что называется эффективным посттренингом. Мы также исследуем модификации трансформерных архитектур, добавляя так называемые «головы полезности» для улучшения перехода между офлайн- и онлайн-обучением и сокращения разрыва между ними.

— Какие ведущие научные конференции в области робототехники вы бы выделили? Что вас наиболее впечатлило на них за последний год?

Если раньше конференции по робототехнике и искусственному интеллекту существовали отдельно, то сейчас наблюдается тенденция к их объединению, а также появляются специализированные мероприятия по интеллектуальным методам в робототехнике. Среди наиболее значимых можно выделить три. Первая — IROS (International Robotic Operation System), старейшая и уважаемая конференция уровня А. Вторая, и самая авторитетная, — ICRA, которая является ведущей мировой площадкой по робототехнике. В последние годы она уделяет всё больше внимания интеллектуальным подходам, представляя работы по поведенческим моделям, компьютерному зрению, захвату объектов и другим классическим задачам. Третья конференция — CoRL (Conference on Robotic Learning). Она относительно молода и пока не имеет официального рейтинга, но лично я считаю её одной из наиболее перспективных. Её программа полностью посвящена интеллектуальным методам и охватывает обучаемые подходы к задачам манипуляции, передвижения, многороботного взаимодействия и человеко-машинного взаимодействия. Ожидается, что со временем её популярность значительно возрастёт.

Эти три конференции служат ключевыми ориентирами для профессионального сообщества. Мы внимательно отслеживаем их, участвуем, анализируем представленные работы и стараемся быть в курсе всех актуальных трендов. Особенно сильное впечатление на меня произвели демонстрационные стенды на этих мероприятиях. Теперь всё чаще можно увидеть не просто лабораторные образцы, а уже готовые коммерческие продукты от реальных компаний. Например, роботы-собаки или манипуляторы, способные функционировать в сложных условиях, а не только привычные промышленные устройства. Особый интерес вызывают последние достижения в области антропоморфной робототехники: ходьба, хоть и остаётся относительно медленной, стала гораздо более стабильной, активно развивается управление всем телом (whole-body control). Это свидетельствует о крайне высоком уровне технологического прогресса и производит неизгладимое впечатление.

— Я правильно понял, что ваш коллектив представил наибольшее число статей из России на конференции IROS?

Да, в прошлом году мы уже были единственной командой из России, чья работа о потенциальных полях для планирования движения мобильных роботов была принята на ICRA. Что касается IROS 2025, по моим данным, наш коллектив действительно подал наибольшее количество статей, которые были приняты — пять основных и одна бонусная, перенесенная из журнальной публикации, что является распространённой практикой. Впрочем, в России есть и другие выдающиеся команды в этой сфере, например, лаборатории Сергея Колюбина из ИТМО и Дмитрия Тетерюкова из Сколтеха.

— Расскажите о ваших работах, которые будут представлены на IROS.

Я бы выделил четыре ключевые работы. Первая посвящена развитию больших поведенческих моделей. Мы разработали новую архитектуру для VLA-моделей (зрение—язык—действие), способную выявлять неудачные действия и оперативно перестраивать план с учетом визуальной обратной связи. Этот подход позволяет роботу эффективно повторять или корректировать свои действия в динамичной среде. Его эффективность подтверждена экспериментами на реальных роботах, проведенными совместно с Центром робототехники «Сбера».

Вторая работа относится к обучению с подкреплением на основе моделей. Мы создали новый метод M3PO, который расширяет классическую архитектуру Proximal Policy Optimization (PPO). Он объединяет мультизадачность с моделью мира, которую робот формирует в процессе онлайн-взаимодействия. В результате этот метод обеспечивает быстрое обучение компактных стратегий, пригодных для оперативного внедрения на робототехнических манипуляторах.

Третья работа предлагает подход к нейросимвольной интеграции под названием verifying LLM. Она решает проблему неявных ограничений при формировании планов языковыми моделями. В этом методе используется линейная темпоральная логика для формального описания ограничений задачи и необходимой последовательности подзадач. Эти LTL-спецификации генерируются и служат ограничениями при построении плана LLM, что делает процесс планирования действий робота более верифицируемым и надежным.

Четвертая статья посвящена применению базовых моделей к задаче мультиагентного поиска пути (MAPF), которая актуальна, например, для логистики складов, где требуется быстро планировать непересекающиеся траектории для множества роботов. Мы предложили метод дообучения большой трансформерной модели на обширных данных с последующей адаптацией к новым задачам MAPF.

Кроме того, меня радуют успехи в области картирования и локализации. Наша работа по топологической локализации с одновременным построением карты (SLAM), опубликованная в журнале RA-L (Robotics and Automation Letters), также получила возможность быть представленной на конференции. Эта работа устанавливает новые рекордные результаты в своей области.

— Каковы общие тенденции развития автономных роботов? Какие задачи они уже способны выполнять самостоятельно?

Большинство разработок пока находятся на стадии лабораторных экспериментов. Исключение составляют лишь достаточно развитые роботы для простых задач, уже применяемые как в быту, так и в промышленности. Масштабного повсеместного внедрения автономных, особенно человекоподобных, систем, способных выполнять сложные операции вместо человека, пока не наблюдается. Тем не менее, уже сейчас автономные роботы успешно справляются с конкретными задачами: это уборка помещений, курьерская доставка, а также широкий спектр промышленных применений — инспекция объектов, участие в сборочных линиях и паллетирование. Одним из наиболее перспективных направлений для скорого внедрения является автоматизация научных лабораторий, где роботы смогут проводить «мокрые» эксперименты, например, синтез молекул.

— Как обеспечивается безопасность взаимодействия роботов с людьми в реальной среде?

Для решения этой задачи разработан отдельный класс устройств — коллаборативные роботы, или коботы. Они оснащены системами защиты, которые в случае незапланированного контакта с человеком моментально обнаруживают прикосновение и останавливают работу. В их конструкцию встраиваются защитные механизмы, а внешний корпус робота проектируется с обтекаемыми формами, чтобы минимизировать риск травм. Кроме того, при обучении роботов используются данные с интегрированными ограничителями. В большинстве случаев этого достаточно, например, на производственных предприятиях, где и для людей, и для роботов существуют чёткие правила поведения.

— Стоит ли ожидать повсеместного распространения человекоподобных роботов?

Распространение роботизированных систем неизбежно и является следующим этапом технологического развития. Однако не стоит ожидать, что доминировать будут исключительно антропоморфные роботы. Будущее, скорее всего, будет характеризоваться разнообразием форм-факторов, оптимально адаптированных под конкретные задачи. Человекоподобная форма далеко не всегда является наиболее эффективной. Нет смысла создавать «железного человека» для задач, с которыми лучше справятся колесные роботы или манипуляторы-щупы. Массовое применение найдут скорее колесные роботы, четвероногие платформы и другие специализированные конструкции. Главным критерием станет функциональность, а не обязательное внешнее сходство с человеком.

— Какие тенденции в интеллектуальной робототехнике будут наиболее значимыми в ближайшие 5–10 лет?

Ключевой тренд — это развитие и глубокая интеграция базовых поведенческих моделей. Ожидается значительный прорыв в VLA-моделях и других фундаментальных архитектурах. Крайне важно будет их более тесное слияние с методами оптимального управления, что позволит достичь высокой стабильности, повторяемости и уменьшить непредсказуемость результатов по сравнению с чисто обучаемыми подходами. Также я бы выделил укрепление связи между высокоуровневым (планирование, принятие решений) и низкоуровневым (непосредственное выполнение) управлением, что является основой для создания надёжных робототехнических архитектур.

— С какими вызовами сталкивается наука в робототехнике, и какие задачи остаются нерешёнными?

В первую очередь, это обеспечение надёжности управления в неопределённых условиях. Современные системы управления всё ещё демонстрируют высокий уровень ошибок, особенно когда цель не сформулирована абсолютно точно. Роботы пока не способны многократно выполнять одну и ту же задачу стабильно без чрезвычайно жёсткой спецификации цели. Ещё одним значимым вызовом является скорость и производительность. Недавно китайский робот-собака установил новый рекорд скорости бега, превзойдя даже результат Усэйна Болта (10,3 м/с). Это впечатляет, но важно помнить, что основная задача этого робота — именно скоростной бег. В случае роботов для бытовых или промышленных целей, операции значительно усложняются, и машине требуется обрабатывать огромные объёмы данных. В результате длительное время, необходимое для стабилизации, приводит к крайне медленному выполнению задач. Если вы когда-либо видели робофутбол, то, вероятно, он покажется скучным по сравнению с традиционной игрой. Поэтому приоритетной задачей является существенное ускорение систем управления до режима реального времени, без ущерба для их способности к обобщению и функционированию в условиях неопределённости.

Виктор Лебедев
Виктор Лебедев

Виктор Лебедев - политический обозреватель из Ярославля с 8-летним стажем. Специализируется на анализе международных отношений и региональной политики центрального федерального округа.

Обзор последних событий в мире шоу-бизнеса