Банк ушёл из облака: свой ИИ-кластер за 17 млн

Каждый месяц деньги уходили в облако. За аренду GPU-кластеров, за трафик, за хранение данных. И каждый месяц в финансовом отделе задавали один и тот же вопрос: до каких пор?

Но дело было не только в деньгах. Банк обучал собственные нейросети и гонял через чужие серверы финансовые данные клиентов. Веса моделей — результат месяцев работы команды — жили на инфраструктуре стороннего провайдера. Это не паранойя, это реальный риск: утечка, инцидент, изменение условий работы провайдера — и всё.

Решение напрашивалось само. Нужно было уйти из облака насовсем.

Задача: всё своё, всё внутри, всё быстро

Банк использовал GPU-мощности для двух направлений. Первое — предиктивная аналитика: глубокий анализ больших данных для оценки рисков и персонализации. Второе — генеративный ИИ: собственный LLM-ассистент для поддержки клиентов и сотрудников.

Для серьёзных задач нужна серьёзная машина. Не «достаточно мощный» сервер из каталога — а система, которая не знает слов «очередь» и «недостаточно памяти». Платформа, рассчитанная на работу в режиме 24/7 без деградации производительности и без единого окна, когда данные покидают периметр компании.

Мы взялись за проектирование.

Сердце системы: 576 ГБ видеопамяти в едином пуле

Банк ушёл из облака: свой ИИ-кластер за 17 млн

Шесть видеокарт NVIDIA RTX PRO 6000 Blackwell Server Edition — это не просто флагманские GPU. Каждая несёт на борту 96 ГБ видеопамяти. Шесть карт в сумме дают 576 ГБ — единый пул, в который целиком помещаются огромные датасеты и языковые модели.

Почему это меняет всё: когда модель живёт в видеопамяти целиком, исчезают медленные обращения к накопителям во время обучения. Каждая итерация — чистые вычисления без ожидания данных. Архитектура Blackwell с её тензорными ядрами нового поколения ускоряет именно те операции, которые составляют 90% времени обучения нейросетей.

Процессор, который не является узким местом

Шесть RTX PRO 6000 — это шесть устройств, которые постоянно требуют данных. Обеспечить их без очередей может только процессор исключительной пропускной способности.

Мы установили два AMD EPYC 9755 — итого 256 физических ядер и 512 потоков. Каждый EPYC работает на частоте до 4,1 ГГц. Препроцессинг данных, виртуализация, параллельная подача батчей на шесть GPU одновременно — процессор справляется со всем этим без малейшего намёка на насыщение.

3 ТБ оперативной памяти: когда «много» — это норма

Для задач промышленного масштаба понятие «достаточно памяти» смещается в другой диапазон.

В системе установлено 24 модуля по 128 ГБ серверной памяти Samsung ECC DDR5 с частотой 6400 МГц — итого 3 терабайта. Модули ECC критически важны для длительных вычислений: коррекция ошибок в реальном времени исключает риск того, что случайный сбой в одном бите обнулит результаты многочасового обучения.

Хранилище, которое не тормозит GPU

Дисковая подсистема построена на промышленных SSD Samsung PM9A3 Gen4 — тех самых, что стоят в дата-центрах с режимом постоянной перезаписи:

2 × 3,8 ТБ — системный раздел и кэш, скорость до 5500 МБ/с
2 × 7,68 ТБ — хранилище датасетов, скорость до 6700 МБ/с

Когда GPU запрашивает следующий батч данных, ответ приходит раньше, чем успевает появиться задержка.

Три проблемы, одно решение

Проект закрыл то, что облако закрыть не могло.

Безопасность. Финансовые данные, веса нейросетей, клиентская история — всё это теперь никогда не покидает периметр. Никаких сторонних провайдеров, никаких юрисдикционных рисков, никаких условий использования, которые меняются в одностороннем порядке.

Экономика. Облако выгодно на старте — пока нагрузка мала. С ростом интенсивности вычислений аренда начинает кратно обгонять стоимость собственного железа. Сервер за 17 миллионов — это разовая инвестиция, которая окупается на горизонте нескольких лет.

Производительность. Собственная инфраструктура не делит ресурсы с соседями по кластеру. Все 576 ГБ видеопамяти, все 256 ядер, все 3 ТБ RAM — только для задач банка, в любой момент, без очередей и лимитов.

Итог

1/6

Сервер работает в закрытом контуре банка в режиме 24/7. Команда дообучает языковые модели и проводит глубокую аналитику без ограничений по памяти, без зависимости от внешних провайдеров и без компромиссов по безопасности.

Цифровая независимость — это не лозунг. Это конкретная конфигурация с конкретными характеристиками.

Готовы обсудить миграцию вашей ИИ-инфраструктуры из облака в собственный контур? Проектируем системы под задачу — от архитектуры до запуска.

Заинтересовались?

Листая дальше, вы окажетесь на сайте HYPERPC — там конфигурации ИИ-серверов с ценами и форма заявки. Рассчитаем, через сколько месяцев собственный кластер окупит аренду облака.