Создание первого российского программно-аппаратного комплекса для искусственного интеллекта: опыт инженеров

Антон Юдин, начальник отдела разработки аппаратного обеспечения и развития технологий ИИ в компании Скала^р, рассказал «Ъ-Науке» о пути от задумки до готового решения, трудностях совмещения отечественного железа и софта, адаптации под различные языковые модели и дал ценные советы тем, кто только начинает создавать инфраструктуру для искусственного интеллекта.

Начальник отдела разработки аппаратного обеспечения Скала^р Антон Юдин

— Как возникла идея создания программно-аппаратного комплекса для ИИ?

— Около трех лет назад наша команда выдвинула предположение: сможем ли мы разработать базовый инфраструктурный элемент, специально адаптированный для решения задач искусственного интеллекта в интересах крупного бизнеса и государственных структур. К тому моменту мы уже умели собирать и обрабатывать данные, и следующим логичным шагом было начать применять эти данные с помощью ИИ.

На мое решение также повлиял личный опыт работы с NVIDIA, где я наблюдал, как ведущий игрок рынка строит свою экосистему — от создания инфраструктуры до поддержки новых проектов. В России на тот момент подобных комплексных решений не существовало. Поэтому, опираясь на запросы клиентов и необходимые нормативы, мы начали проектировать собственную архитектуру российского аппаратно-программного комплекса, а активная фаза разработки стартовала в 2025 году.

— С какими трудностями вы столкнулись в процессе разработки?

— На начальном этапе мы провели много времени, проверяя реальную востребованность такого продукта на рынке. Мы общались с потенциальными заказчиками и партнерами, уточняли их задачи и имеющиеся инфраструктурные ограничения, чтобы не тратить силы на создание чего-то ненужного. Благодаря этому удалось выделить наиболее актуальные сценарии использования, например, обучение моделей на конфиденциальных данных в изолированной среде.

Сложности были как технического, так и организационного характера. Одной из ключевых задач стала необходимость научно-исследовательских работ и формирования технологических альянсов с российскими производителями для создания специализированных решений для ИИ. Многие действительно понимали потребность в таких продуктах, но у вендоров не было уверенности в их успешности на рынке. Мы стали для них своего рода этапом клиентского тестирования с технологическим внедрением, основанным на нашем опыте на стыке прикладного софта, системного ПО и мощных аппаратных систем.

Одной из самых трудоемких задач оказалось сопряжение российского программного обеспечения и оборудования — приходилось не просто настраивать компоненты, но и вносить изменения в их внутреннее устройство. К примеру, для нашей платформы MLOps понадобилась ручная доработка конфигураций операционной системы RedOS и платформы Deckhouse. Затем возникли инженерные задачи: создание собственных драйверов, оптимизация работы сетей, отладка взаимодействия с системами хранения данных. Иначе говоря, нам пришлось вручную «обучать» различные элементы корректно взаимодействовать друг с другом для обеспечения стабильности и бесперебойности работы системы.

Еще одним испытанием стала адаптация графических карт азиатского производства для эффективной работы с моделью LLaMA. Этот процесс потребовал глубокого технического анализа, множества оптимизаций и длительной отладки. В итоге нам удалось успешно запустить модель, и этот прецедент стал важным для всего российского рынка.

И конечно, значительные усилия были направлены на приведение программно-аппаратного комплекса в соответствие с требованиями Минцифры и Минпромторга, а также на его сертификацию как единого изделия.

— Как вы проектировали архитектуру с учетом разнообразных моделей: языковых, визуальных, мультимодальных?

— Основной фокус был сделан на большие языковые и генеративные модели, так как именно они, по нашим оценкам, сейчас наиболее востребованы в России. Архитектура разрабатывалась с расчетом на максимальную эффективность для выполнения задач инференса и обучения больших языковых моделей (LLM и vLLM).

Мы применяли проверенные в высокопроизводительных вычислениях (HPC) подходы: RDMA, NVLink, NUMA-архитектура, аппаратное ускорение (HW-offload), DPU и другие. Проводили тщательное тестирование и проверку совместимости процессоров и карт ускорения с различными видами нагрузок. В результате мы получили модульную архитектуру, где все компоненты — от систем хранения данных до графических ускорителей — функционируют как единая вычислительная система. Это важно, поскольку дает возможность бизнесу и государственным структурам легко масштабировать систему и адаптировать ее под специфические задачи без необходимости полной перестройки существующей инфраструктуры.

Для обеспечения масштабируемости выбрали высокоскоростной стандарт Ethernet 400G, который обеспечивает минимальные задержки, сопоставимые с технологией InfiniBand. Управление системой осуществляется через отечественную платформу Kubernetes Deckhouse.

Над разработкой ПАКа постоянно трудятся более 20 специалистов. В процессе работы нам пришлось расширять команду, привлекая специалистов по данным (дата-сайентистов) и инженеров с глубоким пониманием работы графических ускорителей. Это было необходимо для настройки эффективного выполнения моделей на нашей платформе и организации качественной технической поддержки.

Комплекс для ИИ может поставляться как в виде модульного набора компонентов, так и как готовое интегрированное решение — это зависит от конкретных требований заказчика. Предусмотрены различные конфигурации для задач обучения и инференса. Все составляющие являются стандартными, масштабируемыми и способны интегрироваться с другими системами, формируя единые хранилища данных (лейкхаусы).

Мы используем только сертифицированные компоненты, которые включены в соответствующие реестры Минцифры и Минпромторга. Исключением на данный момент являются графические карты, которые пока не входят в критерии локализации, но мы активно работаем над использованием азиатских решений в этом направлении. Весь программный комплекс также сертифицирован: операционная система RedOS, платформа управления контейнерами Kubernetes Deckhouse от компании «Флант» и наши собственные инструменты мониторинга.

— Какие рекомендации вы можете дать тем, кто только приступает к созданию инфраструктуры для проектов в области ИИ?

— Крайне важно с самого начала уделять пристальное внимание деталям, поскольку инфраструктура — это не второстепенный элемент, а фундамент, определяющий успешность всей дальнейшей работы с моделями и данными. Прежде всего, четко определите основную цель: инференс, обучение моделей или комплексные сценарии, сочетающие оба подхода. От этого будет зависеть не только выбор технологий, но и стратегия масштабирования вашей системы.

Необходимо детально изучать передовой мировой опыт в сфере высокопроизводительных вычислений и практики крупных компаний-гиперскейлеров, которые уже прошли путь создания масштабных и сложных систем.

Полезно заранее оценить совместимость выбираемых фреймворков, драйверов и решений для хранения данных. Стоит также позаботиться об удобстве последующего обслуживания: заложить эффективные механизмы мониторинга, предусмотреть выполнение соглашений об уровне обслуживания (SLA) и планировать систему поддержки на этапе проектирования, а не после ее ввода в эксплуатацию.

Также следует помнить, что сфера инфраструктуры постоянно развивается — появляются новые технологии и требования. Это означает, что ваша архитектура должна быть модульной, чтобы была возможность легко заменять отдельные компоненты и расширять функциональность системы, не прерывая при этом работу уже запущенных процессов.

В конечном итоге, грамотно спроектированная инфраструктура позволит сэкономить ресурсы, ускорить запуск новых проектов и обеспечит стабильность и высокую производительность всех операций, связанных с искусственным интеллектом.

Мария Мартынова

Самомыслящая машина

Создание первого российского программно-аппаратного комплекса для искусственного интеллекта: опыт инженеров