Статья:

ТРОИЧНОЕ ВЕТВЛЕНИЕ В ГРАДИЕНТНОМ БУСТИНГЕ ДЛЯ ЗАДАЧ С КАТЕГОРИАЛЬНЫМИ ПРИЗНАКАМИ

Журнал: Научный журнал «Студенческий форум» выпуск №19(370)

Рубрика: Технические науки

Выходные данные
Курило А.А. ТРОИЧНОЕ ВЕТВЛЕНИЕ В ГРАДИЕНТНОМ БУСТИНГЕ ДЛЯ ЗАДАЧ С КАТЕГОРИАЛЬНЫМИ ПРИЗНАКАМИ // Студенческий форум: электрон. научн. журн. 2026. № 19(370). URL: https://nauchforum.ru/journal/stud/370/186785 (дата обращения: 14.06.2026).
Журнал опубликован
Мне нравится
на печатьскачать .pdfподелиться

ТРОИЧНОЕ ВЕТВЛЕНИЕ В ГРАДИЕНТНОМ БУСТИНГЕ ДЛЯ ЗАДАЧ С КАТЕГОРИАЛЬНЫМИ ПРИЗНАКАМИ

Курило Анна Андреевна
магистрант, МТУСИ, М092401 (76), РФ, г. Москва
Добряков Александр Сергеевич
научный руководитель, ассистент кафедры «Системное программирование», МТУСИ, РФ, г. Москва

 

Аннотация. В работе предложена и обоснована модификация градиентного бустинга над решающими деревьями (GBDT), в которой бинарное расщепление в узлах дерева заменяется троичным. Сформулировано определение корректности модификации; доказаны: лемма о существовании и единственности оптимальных значений в листьях при квадратичной аппроксимации (воспроизведение и обобщение результата [2]); теорема о выводе формул прироста качества Δ2, Δ3; теорема о доминировании, утверждающая, что любое бинарное расщепление воспроизводимо троичным (с точностью до штрафа γ); достаточное условие строгого превосходства троичного расщепления над оптимальным бинарным; лемма о разложении прироста через взвешенную дисперсию листовых статистик. Получена оценка вычислительной сложности алгоритма O(B²) и схема его встраивания в симметричные деревья. Численный эксперимент на трёх открытых наборах данных подтверждает теоретические выводы.

 

Ключевые слова: градиентный бустинг, решающие деревья, троичное ветвление, категориальные признаки, target statistics, симметричные деревья, регуляризованный риск.

 

1. Введение

Градиентный бустинг над решающими деревьями [1, 7] – стандартный инструмент анализа структурированных данных. Концептуальную основу метода заложили классические алгоритмы построения отдельного дерева: CART [6] использует исключительно бинарные расщепления, тогда как C4.5 [8] допускает многоветвевое расщепление по категориальным признакам – ближайший предшественник рассматриваемой ниже модификации. Современные открытые реализации (XGBoost [2], LightGBM [3], CatBoost [4]) различаются методами поиска расщеплений и схемами обработки категориальных признаков; среди отечественных работ по программной реализации, оптимизации и прикладному использованию градиентного бустинга деревьев решений отметим [9–12]. Кодирование категориальных признаков посредством среднего значения целевой переменной [5] требует мер против утечки целевой переменной; в [4] предложено упорядоченное оценивание Target Statistics. Распределение значений признака после такого кодирования имеет, как правило, многомодальную структуру: основная масса значений приходится на распространённые категории, а редкие категории и пропуски формируют отдельные группы. В этих условиях бинарное расщепление узла нередко субоптимально: одна пороговая граница не способна одновременно отделить редкие значения от массовых и от пропусков.

2. Постановка задачи и обозначения

Пусть задана обучающая выборка D = {(xi, yi)}i=1n, xi ∈ ℝd, yi ∈ ℝ. Категориальные координаты вектора xi предварительно подвергаются упорядоченному TS-кодированию [4]. Функция потерь ℓ: ℝ × ℝ → ℝ предполагается дважды непрерывно дифференцируемой и выпуклой по второму аргументу (стандартное предположение для XGBoost-семейства [2]). Регуляризованный эмпирический риск:

L(F) = ∑i=1..n ℓ(yi, F(xi)) + ∑t=1..T Ω(ft),                                                               (1)

где F = ∑t=1..T ν ft, ν ∈ (0, 1]. На шаге t ансамбль Ft-1 фиксирован; задача сводится к выбору дерева ft ∈ ℱ. Применение разложения Тейлора второго порядка функции потерь в окрестности Ft-1(xi) даёт ньютоновскую аппроксимацию [2]:

(t)(f) = ∑i=1..n [gif(xi) + ½ hif²(xi)] + Ω(f),                                                            (2)

где gi = ∂F ℓ(yi, Ft-1(xi)), hi = ∂²F ℓ(yi, Ft-1(xi)) ≥ 0; здесь производные берутся по второму аргументу функции потерь, то есть по значению прогноза ŷ = F_{t-1}(x_i): g_i = ∂ℓ(y_i, ŷ)/∂ŷ|_{ŷ=F_{t-1}(x_i)}, h_i = ∂²ℓ(y_i, ŷ)/∂ŷ²|_{ŷ=F_{t-1}(x_i)} (неотрицательность h_i следует из выпуклости ℓ по второму аргументу). Дерево f задаётся структурой – разбиением {Ij}j=1..J множества {1, ..., n} на J непересекающихся непустых классов (листьев) – и значениями w = (w1, ..., wJ) ∈ ℝJ; f(xi) = wj(i), где j(i) – индекс листа, содержащего i. Регуляризатор:

Ω(f) = γ J + ½ λ ‖w‖²,    γ ≥ 0,  λ > 0.                                                                (3)

Для произвольного S ⊆ {1, ..., n} обозначим GS = ∑iS gi, HS = ∑iS hi ≥ 0. Условие λ > 0 гарантирует строгую выпуклость функционала по w.

3. Формальное определение троичного ветвления

Определение 1 (бинарное расщепление). Пусть φ: ℝd → ℝ – функция признака (числового либо TS-кодированного категориального). Бинарным расщеплением узла I по предикату φ с порогом θ ∈ ℝ называется упорядоченная пара (IL(θ), IR(θ)), где IL(θ) = {iI: φ(xi) ≤ θ}, IR(θ) = I \ IL(θ).

Определение 2 (троичное расщепление). Пусть θ1 < θ2. Троичным расщеплением узла I по предикату φ с парой порогов (θ1, θ2) называется упорядоченная тройка непустых множеств:

IL = {iI: φ(xi) ≤ θ1},  IM = {iI: θ1 < φ(xi) ≤ θ2},  IR = {iI: φ(xi) > θ2}.     (4)

В случае категориального признака с выделенным значением «пропуск» (NaN) либо редкой категорией одна из ветвей задаётся индикатором принадлежности к выделенному множеству значений; все последующие утверждения сохраняются дословно при замене (4) на любое разбиение I на три непустых класса. Множество всех допустимых троичных расщеплений по признаку φ обозначим Π3(I, φ); множество бинарных – Π2(I, φ).

Определение 3 (корректность модификации). Модификация алгоритма построения дерева называется корректной, если выполнены следующие условия:

(К1) задача поиска оптимальных значений в листьях при фиксированной структуре имеет единственное решение в замкнутой форме;

(К2) функционал прироста качества при расщеплении выводится из (1)–(3) однозначно и совпадает с (1) на множестве деревьев построенной структуры;

(К3) множество допустимых расщеплений модификации асимптотически содержит множество расщеплений базового алгоритма: для любого бинарного расщепления существует последовательность троичных расщеплений, приросты качества которых сходятся к приросту бинарного (свойство асимптотической совместимости).

Цель раздела 4 – доказать корректность предлагаемой троичной модификации в смысле определения 3 и установить количественные характеристики прироста качества.

4. Корректность модификации: основные результаты

Лемма 1 (существование и единственность оптимальных значений в листьях). Пусть {Ij}j=1..J – фиксированное разбиение, λ > 0. Тогда функция L̃(t)(w) = ∑j[Gjwj + ½(Hj + λ)wj²] + γJ строго выпукла и достигает единственного глобального минимума в точке

wj* = – Gj / (Hj + λ),    j = 1, ..., J,                       (5)

причём минимальное значение функционала равно

L̃*({Ij}) = – ½ ∑j=1..J Gj² / (Hj + λ) + γJ.                   (6)

Доказательство. Гессиан функции L̃(t) по w есть диагональная матрица diag(H1 + λ, ..., HJ + λ). Поскольку hi ≥ 0 и λ > 0, имеем Hj + λ > 0 для всех j, следовательно гессиан положительно определён, а функционал – строго выпукл. Условие первого порядка ∂L̃(t)/∂wj = Gj + (Hj + λ)wj = 0 даёт (5). Подставляя (5) в выражение, получаем для каждого слагаемого:

Gjwj* + ½(Hj + λ)(wj*)² = – Gj²/(Hj + λ) + ½ Gj²/(Hj + λ) = – ½ Gj²/(Hj + λ),

откуда (6). Единственность следует из строгой выпуклости. Формулы (5) и (6) впервые получены в [2, разд. 2.2]; приведённое доказательство воспроизводит аргумент [2] для полноты изложения.

Лемма 1 доказывает условие (К1) определения 3 для произвольной – в том числе троичной – структуры дерева, поскольку оптимизация по w разделяется по листьям независимо от того, является ли внутреннее ветвление бинарным или троичным. Этот факт критичен: он показывает, что модификация не нарушает основное соотношение (5).

Теорема 1 (вывод формул прироста качества). Снижение функционала L̃(t) при бинарном расщеплении узла I на (IL, IR) и при троичном расщеплении на (IL, IM, IR) равно соответственно:

Δ2(IL, IR) = ½ [GL²/(HL + λ) + GR²/(HR + λ) – G²/(H + λ)] – γ,                           (7)

Δ3(IL, IM, IR) = ½ [GL²/(HL + λ) + GM²/(HM + λ) + GR²/(HR + λ) – G²/(H + λ)] – 2γ,        (8)

где G = GI = GL + GM + GR (для бинарного – G = GL + GR), аналогично для H.

Доказательство. Применим лемму 1 до и после расщепления. До расщепления вклад листа I в (6) есть –½ G²/(H + λ) + γ. После бинарного расщепления вклад заменяется на –½ [GL²/(HL + λ) + GR²/(HR + λ)] + 2γ, поскольку число листьев увеличилось на 1. Прирост качества – снижение функционала, то есть разность с противоположным знаком – даёт (7). Для троичного расщепления число листьев увеличивается на 2, что даёт штраф 2γ; вычисление аналогично и приводит к (8). Вывод формулы (7) воспроизводит схему [2, теорема 1]; формула (8) является оригинальным обобщением на троичный случай.

Теорема 1 доказывает условие (К2) определения 3: формулы (7), (8) однозначно выводятся из (1)–(3) и совпадают (с точностью до знака) с приращением функционала (1) на соответствующих структурах деревьев.

Лемма 2 (неравенство Энгеля для дробей; классический результат, являющийся формой неравенства Коши–Буняковского). Для произвольных a1, ..., am ∈ ℝ и p1, ..., pm > 0 справедливо

k=1..m ak²/pk ≥ (∑k=1..m ak)² / (∑k=1..m pk),                                                             (9)

причём равенство достигается тогда и только тогда, когда отношения ak/pk совпадают для всех k.

Доказательство. По неравенству Коши – Буняковского:

(∑k ak)² = (∑k (ak/√pk) · √pk)² ≤ (∑k ak²/pk) · (∑k pk).

Деление на ∑ pk даёт (9); равенство в неравенстве Коши – Буняковского означает пропорциональность векторов (ak/√pk) и (√pk), то есть ak/pk = const.

Теорема 2 (доминирование троичного расщепления). Для любого бинарного расщепления (IL, IR) ∈ Π2(I, φ) существует троичное расщепление (IL, IM, IR') ∈ Π3(I, φ) с тем же предикатом φ, для которого Δ3 = Δ2 + ½ [GM²/(HM + λ) + GR'²/(HR' + λ) – GR²/(HR + λ)] – γ. В частности, при выборе IM = IR, IR' → ∅ имеем Δ3 → Δ2 – γ.

Доказательство. Пусть θ – порог исходного бинарного расщепления, IR = {i: φ(xi) > θ}. Выберем произвольный θ2 > θ и положим IM = {i: θ < φ(xi) ≤ θ2}, IR' = {i: φ(xi) > θ2}; тогда IR = IMIR', GR = GM + GR', HR = HM + HR'. Подставляя в (8) и используя (7):

Δ3 – Δ2 = ½ [GM²/(HM + λ) + GR'²/(HR' + λ) – GR²/(HR + λ)] – γ.                      (10)

При θ2 → +∞ имеем IR' → ∅, GR' → 0, HR' → 0, и слагаемое GM²/(HM + λ) → GR²/(HR + λ); таким образом, выражение в скобках стремится к нулю, и Δ3 → Δ2 – γ.

Теорема 2 устанавливает условие (К3) определения 3 в асимптотическом смысле: для любого бинарного расщепления существует последовательность троичных, прирост качества которых сходится к бинарному с точностью до штрафа γ. Тем самым доказана корректность предлагаемой модификации в полном объёме определения 3.

Теорема 3 (достаточное условие строгого превосходства). Если для разбиения IR = IMIR' выполнено

GM²/(HM + λ) + GR'²/(HR' + λ) – GR²/(HR + λ) > 2γ,                    (11)

то Δ3(IL, IM, IR') > Δ2(IL, IR).

Доказательство. Подстановка (11) в (10) даёт Δ3 – Δ2 > γ – γ = 0.

Лемма 3 (разложение через взвешенную дисперсию). Пусть S = B1 ⊔ ... ⊔ Bk, HB_l > 0, λ ≥ 0. Введём λ-регуляризованные листовые статистики γl = GB_l/(HB_l + λ) и веса πl = (HB_l + λ)/∑l(HB_l + λ). Тогда

l=1..k GB_l²/(HB_l + λ) – GS²/∑l(HB_l + λ) = ∑l(HB_l + λ) · Varπ(γ),                   (12)

где Varπ(γ) = ∑l πl γl² – (∑l πl γl)² – взвешенная дисперсия γl.

Доказательство. По определению γ_l, имеем GB_l = (HB_l + λ)γl, откуда GB_l²/(HB_l + λ) = (HB_l + λ)γl². Также GS = ∑l GB_l = ∑l(HB_l + λ) · γ̄, где γ̄ = ∑l πl γl – взвешенное среднее. Тогда GS²/∑l(HB_l + λ) = ∑l(HB_l + λ) γ̄². Получаем

l GB_l²/(HB_l + λ) – GS²/∑l(HB_l + λ) = ∑l(HB_l + λ) γl² – ∑l(HB_l + λ) γ̄² = ∑l(HB_l + λ) · Varπ(γ).

Лемма 3 даёт прозрачную статистическую интерпретацию прироста: он пропорционален взвешенной дисперсии λ-регуляризованных листовых статистик. При λ → 0⁺ формула (12) переходит в классическое разложение через дисперсию отношений G/H. Расщепление информативно тогда и только тогда, когда оценки γl значимо неоднородны. Для троичного расщепления неоднородность по трём подмножествам оценивается лучше, чем по двум, что и составляет статистическое содержание модификации.

Теорема 4 (асимптотический выигрыш для редкой категории). Пусть категориальный признак содержит редкое значение c*; IM = {iI: xi(k) = c*}, |IM| = q · |I|, IR' = I \ IM. Предположим:

(А1) hi для всех iI (приближённая однородность вторых производных);

(А2) нормированные градиенты (отношения среднего градиента к средней второй производной) на IM и IR' различаются с контрастом c: γM – γR' = c, где γS = ḡS/;

(А3) λ ≪ q(1–q)|I| (регуляризация мала по сравнению с гессиановой массой групп).

Тогда левая часть условия (11) допускает оценку

GM²/(HM + λ) + GR'²/(HR' + λ) – (GM + GR')²/(HM + HR' + λ) = q(1 – q) |I| c² + o(q(1–q)|I|), (13)

то есть выигрыш от выделения редкой категории в собственную ветвь линейно растёт по абсолютному размеру категории q|I| при фиксированном c.

Доказательство. В силу (А1) GM = ∑i I_M gi = |IM| ḡM, HM |IM| = h̄ q |I|; аналогично GR' = (1–q)|I| ḡR', HR'(1–q)|I|. По лемме 3 (при λ > 0, что обосновано условием (А3), гарантирующим λ ≪ H, к разбиению I = IMIR'):

GM²/HM + GR'²/HR'G²/H = H · Varπ(γ),

где γM = ḡM/, γR' = ḡR'/, πM = q, πR' = 1 – q. Дисперсия двухточечного распределения с весами (q, 1–q) и значениями (γM, γR') равна q(1–q)(γM – γR')² = q(1–q) c² (по (А2) γM – γR' = c). Следовательно

H · Varπ(γ) = |I| · q(1–q) c² = q(1–q) |I| c².

Поправка на λ-регуляризацию по (А3) даёт остаток o(q(1–q)|I|), что и завершает (13).

Следствие 1 (условие выгодности троичного расщепления для редкой категории). При выполнении условий (А1)–(А3) теоремы 4 троичное расщепление, выделяющее редкую категорию c* в собственный лист, строго превосходит наилучшее бинарное при выполнении достаточного условия (11), которое в этих обозначениях принимает вид

q(1–q) |I| c² > 4γ + o(q(1–q)|I|).                                                                     (14)

Таким образом, троичное расщепление статистически и количественно оправдано в подмножествах с систематически отличным локальным градиентом – характерная ситуация для редких категорий и пропусков. Этим завершается теоретическое обоснование корректности и содержательной полезности модификации.

5. Алгоритм и анализ сложности

Поиск оптимального троичного расщепления реализуется как непосредственное обобщение алгоритма поиска бинарного порога [2, 3]. Признак φ предварительно дискретизуется на B корзин гистограммным методом [3]; обозначим G(b) = ∑i: φ(x_i)bin b gi, H(b) – аналогично.

Алгоритм 1 (поиск оптимального троичного расщепления узла).

Вход: множество I, признак φ, параметры γ, λ.

1. Вычислить кумулятивные суммы Ĝk = ∑b≤k G(b), Ĥk = ∑b≤k H(b) для k = 0, 1, ..., B.

2. Для всех пар 1 ≤ k1 < k2B – 1 положить GL = Ĝk₁, GM = Ĝk₂ – Ĝk₁, GR = ĜB – Ĝk₂ (аналогично для Ĥ); вычислить Δ3(k1, k2) по (8).

3. Возвратить (k1*, k2*) ∈ arg max Δ3 и соответствующее разбиение (IL, IM, IR).

Теорема 5 (вычислительная сложность). Алгоритм 1 имеет временную сложность O(B²) операций на признак на узел при предварительно вычисленных гистограммах G(b), H(b) сложности O(|I|). Бинарный аналог имеет сложность O(B) по тем же гистограммам.

Доказательство. Шаг 1 – стандартное накапливающее суммирование по k = 1, ..., B за O(B). Шаг 2 – двойной цикл по парам (k1, k2) мощности (B – 1)(B – 2)/2 = O(B²); вычисление Δ3 по формуле (8) по предвычисленным Ĝ, Ĥ – O(1) операций. Бинарный поиск перебирает O(B) кандидатов, что даёт O(B).

На практике B ограничено гистограммным методом значениями 32–256 [3], так что фактор B приемлем. Дополнительные ускорения: (а) усечение пар по правилу |IM| ≥ nmin; (б) ранний выход при достижении монотонного убывания; (в) параллелизм по k1 и по признакам.

В схеме симметричных (oblivious) деревьев CatBoost [4] на каждом уровне используется единый предикат расщепления. При замене бинарного расщепления троичным дерево глубины d имеет 3d листьев вместо 2d. Для сохранения сравнимой ёмкости рекомендуется использовать глубину d3 = ⌊d2 log3 2⌋ ≈ ⌊0,63 d2⌋ (из условия 3^{d₃} ≈ 2^{d₂}, обеспечивающего сравнимое число листьев). Структура остаётся индексируемой тернарной кодировкой пути; время инференса – O(d).

6. Численный эксперимент

Для эмпирической проверки сравнены бинарное и троичное ветвление в схеме симметричных деревьев на трёх открытых наборах данных с категориальными признаками: Adult (UCI), Bank Marketing (UCI), Amazon Employee Access (Kaggle). Категориальные признаки кодируются упорядоченным TS [4]. Гиперпараметры (λ, γ, темп обучения, число итераций, глубина) подобраны 5-fold кросс-валидацией; для троичной модификации глубина выбирается по соотношению d3 = ⌊0,63 d2⌋. Метрика – площадь под ROC-кривой (AUC); приведено относительное время обучения.

Таблица 1.

Сравнение бинарного и троичного ветвления (5-fold CV, средние значения)

Набор данных

AUC, бинарное

AUC, троичное

ΔAUC

Время, отн.

Adult (UCI)

0,9272

0,9301

+0,0029

×2,3

Bank Marketing (UCI)

0,9384

0,9402

+0,0018

×2,1

Amazon Employee Access

0,8541

0,8612

+0,0071

×2,5

 

Прирост AUC согласуется с теоремой 4: наибольший выигрыш – на наборе Amazon, в котором доля редких категорий и пропусков наибольшая, что приводит к большему контрасту c в (13). Увеличение времени обучения соответствует теореме 5 с поправкой на меньшую глубину d3 по сравнению с d2.

7. Заключение

Сформулировано определение корректности модификации (определение 3) и доказана корректность предлагаемой троичной модификации (леммы 1, 3, теоремы 1, 2, формулы (5)–(10)). Выведены замкнутые выражения (5)–(8) для оптимальных значений в листьях и приростов качества Δ2, Δ3. Доказана теорема 3 о достаточном условии (11) строгого превосходства троичного расщепления над оптимальным бинарным. А – а

Установлена теорема 4 о квантитативном выигрыше от выделения редкой категории – формула (13), оценивающая прирост через произведение средней гессиановой массы, биномиальной дисперсии q(1–q), размера выборки и квадрата контраста средних градиентов. Доказана теорема 5 о вычислительной сложности O(B²) и приведена схема встраивания в симметричные деревья CatBoost.

 

Список литературы:
1. Friedman J. H. Greedy function approximation: A gradient boosting machine // The Annals of Statistics 2001. Vol. 29, № 5. P. 1189–1232. DOI: 10.1214/aos/1013203451.
2. Chen T., Guestrin C. XGBoost: A Scalable Tree Boosting System // Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD '16) San Francisco, CA, USA: ACM, 2016. P. 785–794. DOI: 10.1145/2939672.2939785.
3. Ke G., Meng Q., Finley T., Wang T., Chen W., Ma W., Ye Q., Liu T.-Y. LightGBM: A Highly Efficient Gradient Boosting Decision Tree // Advances in Neural Information Processing Systems 30 (NIPS 2017) Long Beach, CA, USA: Curran Associates, 2017. P. 3149–3157.
4. Prokhorenkova L., Gusev G., Vorobev A., Dorogush A. V., Gulin A. CatBoost: unbiased boosting with categorical features // Advances in Neural Information Processing Systems 31(NeurIPS 2018). Montreal, Canada: Curran Associates, 2018. P. 6639–6649. arXiv:1706.09516.
5. Micci-Barreca D. A preprocessing scheme for high-cardinality categorical attributes in classification and prediction problems // ACM SIGKDD Explorations Newsletter 2001. Vol. 3, № 1. P. 27–32. DOI: 10.1145/507533.507538.
6. Breiman L., Friedman J. H., Olshen R. A., Stone C. J. Classification and Regression Trees Belmont, CA: Wadsworth, 1984. 358 p. ISBN 978-0-412-04841-8.
7. Friedman J. H. Stochastic gradient boosting // Computational Statistics & Data Analysis.2002. Vol. 38, № 4. P. 367–378. DOI: 10.1016/S0167-9473(01)00065-2.
8. Quinlan J. R. C4.5: Programs for Machine Learning San Mateo, CA: Morgan Kaufmann, 1993. 302 p. ISBN 1-55860-238-0.
9. Дружков П.Н., Золотых Н.Ю., Половинкин А.Н. Программная реализация алгоритма градиентного бустинга деревьев решений // Вестник Нижегородского государственного университета им. Н.И. Лобачевского. – 2011. – № 1. – С. 193–200.
10. Дружков П.Н., Золотых Н.Ю., Половинкин А.Н. Реализация параллельного алгоритма предсказания в методе градиентного бустинга деревьев решений // Вестник Южно-Уральского государственного университета. Серия: Математическое моделирование и программирование. – 2011. – № 37. – С. 82–89.
11. Салахутдинова К.И., Лебедев И.С., Кривцова И.Е. Алгоритм градиентного бустинга деревьев решений в задаче идентификации программного обеспечения // Научно-технический вестник информационных технологий, механики и оптики. – 2018. – Т. 18, № 6 (118). – С. 1016–1022. DOI: 10.17586/2226-1494-2018-18-6-1016-1022.
12. Ибрагимов Б.Л., Гусев Г.Г. Оптимизация стохастического градиентного бустинга с помощью out-of-sample оценок качества // Труды Московского физико-технического института. – 2024. – Т. 16, № 3. – С. 49–57.