АНАЛИЗ ВЛИЯНИЯ АРХИТЕКТУРЫ ГРАФИЧЕСКИХ ПРОЦЕССОРОВ (GPU) НА ПРОИЗВОДИТЕЛЬНОСТЬ В ЗАДАЧАХ ТРЕНИРОВКИ МАЛЫХ ЯЗЫКОВЫХ МОДЕЛЕЙ
Журнал: Научный журнал «Студенческий форум» выпуск №4(355)
Рубрика: Технические науки

Научный журнал «Студенческий форум» выпуск №4(355)
АНАЛИЗ ВЛИЯНИЯ АРХИТЕКТУРЫ ГРАФИЧЕСКИХ ПРОЦЕССОРОВ (GPU) НА ПРОИЗВОДИТЕЛЬНОСТЬ В ЗАДАЧАХ ТРЕНИРОВКИ МАЛЫХ ЯЗЫКОВЫХ МОДЕЛЕЙ
Графический процессор (GPU) — это электронная схема, которая может выполнять математические вычисления с высокой скоростью. Вычислительные задачи, такие как рендеринг графики, машинное обучение (ML) и редактирование видео, требуют применения аналогичных математических операций к большому набору данных. Конструкция графического процессора позволяет параллельно выполнять одну и ту же операцию с несколькими значениями данных. Это повышает эффективность обработки многих задач, требующих больших вычислительных ресурсов. [4]
В эпоху стремительного развития нейросетей, ИИ-агентов, DeepLearning алгоритмов и ML-технологий рынок графических процессоров переживает небывалый рост: размер рынка в 2025 году составляет 82,68 млрд долларов США, а по прогнозам, к 2030 году достигнет 352,55 млрд долларов США, что обеспечит среднегодовой тем роста 33,65%. Рост отражает поворот отрасли от исключительно графических рабочих нагрузок к ИИ-ориентированным вычислениям, где GPU – основной инструмент и главная вычислительная мощность для обучения генеративного искусственного интеллекта и гетерогенных пограничных систем. [8]
Малые языковые модели (SLM) — это подмножество языковых моделей, которые выполняют определенные задачи, используя меньше ресурсов, чем более крупные модели. SLM создаются с меньшим количеством параметров и более простыми нейронными архитектурами по сравнению с большими языковыми моделями (LLM), что позволяет ускорить обучение, снизить потребление энергии и выполнять развертывание на устройствах с ограниченными ресурсами. [11]
Влияние конкретных аппаратных характеристик (например, количество вычислительных ядер, иерархия памяти и пропускная способность межчисловых соединений) проявляется по-разному в зависимости от масштаба обучаемой модели. Так, исследования показывают, что обучение малых языковых моделей гораздо больше зависит от архитектурных особенностей графического процессора, в то время как для обучения сверхбольших языковых моделей важна вычислительная мощность GPU. [13]
Ключевое преимущество GPU для обучения языковых моделей – парадигма SiMT (Single Instruction, Multiple Threads), по которой строятся графические процессоры, оптимизирована для синхронного выполнения множества одинаковых действий над различными данными [5]. Ещё один ключевой компонент архитектуры графических процессоров, качественно улучшающий процесс обучения языковых моделей – тензорные ядра. Тензорные ядра - это специальные модули, встроенные в графические процессоры (GPU) и широко используемые с целью значительного ускорения вычислений на базе матричной алгебры [3]. Ключевое преимущество для обучения языковых моделей – возможность совершения действий над целыми матрицами за 1 такт. С каждой новой итерацией архитектур NVIDIA - от Ampere (A100) к Hopper (H100) и к Blackwell (B200) - производительность этих блоков росла экспоненциально.
Архитектура Hopper представила концепцию Transformer Engine, которая динамически управляет точностью вычислений, переключаясь между форматами FP16, BF16 и FP8. Это критически важно для обучения моделей, так как использование формата FP8 позволяет удвоить теоретическую вычислительную мощность, сохраняя при этом точность обучения на приемлемом уровне. Для сравнения, архитектура Ampere ограничена форматами более высокой точности, что делает её менее эффективной при масштабировании обучающих нагрузок.
Таблица 1.
Сравнительная характеристика итераций архитектур NVIDIA
|
Характеристика |
NVIDIA A100 (Ampere) |
NVIDIA H100 (Hopper) |
NVIDIA B200 (Blackwell) |
|
Техпроцесс |
7 нм (TSMC) |
4 нм (TSMC) |
4 нм (TSMC) |
|
Количество транзисторов |
54.2 млрд |
80 млрд |
208 млрд |
|
Пиковая производительность (FP16/BF16) |
312 TFLOPS |
989 TFLOPS |
2,250 TFLOPS |
|
Пиковая производительность (FP8) |
Не поддерживается |
1,979 TFLOPS |
4,500 TFLOPS |
|
Пропускная способность памяти (HBM) |
2.0 ТБ/с |
3.35 ТБ/с |
8.0 ТБ/с |
|
Объем памяти L2 |
40 МБ |
50 МБ |
>50 МБ |
|
Межчиповое соединение (NVLink) |
600 ГБ/с |
900 ГБ/с |
1.8 ТБ/с |
Как видно из таблицы, вычислительная мощность растёт значительно быстрее, чем пропускная способность памяти [9]. Такой разрыв формирует стену памяти – определяющий фактор при выборе стратегии обучения моделей разного размера [10].
Важно рассмотреть и архитектуру памяти в графических процессорах, так как обучение LLM и SLM требует постоянного перемещения огромных объёмов данных между глобальной памятью и вычислительными блоками. GPU имеет несколько уровней различных типов памяти, каждая из которых предназначена для определённых задач [2]:
- Регистры
- Кэши констант
- Общая память
- Кэш L1
- Кэш L2
- Глобальная память
Эффективность обучения напрямую зависит от того, насколько удачно алгоритм обучения задействует эти слои. Для обучения SLM кэш L2 имеет критическое значение. L2 играет роль высокоскоростного буфера, который минимизирует обращения к более медленной глобальной памяти. Как видно из таблицы 1, в архитектуре H100 объем кэша L2 составляет 50 мегабайт (против 40 мегабайт в предыдущем поколении), что позволяет хранить больше промежуточных активаций и весов прямо на чипе [12]. Это особенно важно при выполнении операций нормализации и softmax – неотъемлемых частей обучения языковых моделей. Они имеют низкую арифметическую интенсивность, а значит, сильно зависят от скорости доступа к данным.
Например, для модели с 1 миллиардом параметров потребуется 2-4 гигабайта [7] для хранения весов, однако отдельные слои могут полностью помещаться в кэш L2. Если архитектура графического процессора позволяет удерживать промежуточные результаты в кэше без обращения к глобальной памяти, скорость обучения малых языковых моделей возрастает в разы. Исследование Питера Гилена [13] показывает, что на малых моделях (до 10 миллионов параметров) даже обычный центральный процессор с большим объёмом кэша (64 мегабайт в исследовании) может быть более эффективным для обучения SLM, чем графический процессор NVIDIA RTX 3090 (архитектура – Ampere, ранее рассмотренная в таблице 1) [6] из-за меньшей задержки между запросом и началом передачи данных у кэша по сравнению с видеопамятью.
Из-за меньших размерностей и низкой арифметической интенсивности SLM упираются в пропускную способность памяти и эффективность управления данными на чипе. Увеличение объема кэша L2, ускорение глобальной памяти и снижение накладных расходов на запуск задач дают SLM непропорционально большой прирост эффективности по сравнению с LLM. Именно малые модели заставляют разработчиков графических процессоров искать способы преодоления стены памяти и оптимизировать каждый такт работы процессора. В будущем производители GPU, вероятно, будет двигаться в сторону специализированных архитектур, которые смогут эффективно обслуживать как вычислительно-плотные LLM, так и чувствительные к латентности SLM.

