ТРОИЧНОЕ ВЕТВЛЕНИЕ В ГРАДИЕНТНОМ БУСТИНГЕ ДЛЯ ЗАДАЧ С КАТЕГОРИАЛЬНЫМИ ПРИЗНАКАМИ
Журнал: Научный журнал «Студенческий форум» выпуск №19(370)
Рубрика: Технические науки

Научный журнал «Студенческий форум» выпуск №19(370)
ТРОИЧНОЕ ВЕТВЛЕНИЕ В ГРАДИЕНТНОМ БУСТИНГЕ ДЛЯ ЗАДАЧ С КАТЕГОРИАЛЬНЫМИ ПРИЗНАКАМИ
Аннотация. В работе предложена и обоснована модификация градиентного бустинга над решающими деревьями (GBDT), в которой бинарное расщепление в узлах дерева заменяется троичным. Сформулировано определение корректности модификации; доказаны: лемма о существовании и единственности оптимальных значений в листьях при квадратичной аппроксимации (воспроизведение и обобщение результата [2]); теорема о выводе формул прироста качества Δ2, Δ3; теорема о доминировании, утверждающая, что любое бинарное расщепление воспроизводимо троичным (с точностью до штрафа γ); достаточное условие строгого превосходства троичного расщепления над оптимальным бинарным; лемма о разложении прироста через взвешенную дисперсию листовых статистик. Получена оценка вычислительной сложности алгоритма O(B²) и схема его встраивания в симметричные деревья. Численный эксперимент на трёх открытых наборах данных подтверждает теоретические выводы.
Ключевые слова: градиентный бустинг, решающие деревья, троичное ветвление, категориальные признаки, target statistics, симметричные деревья, регуляризованный риск.
1. Введение
Градиентный бустинг над решающими деревьями [1, 7] – стандартный инструмент анализа структурированных данных. Концептуальную основу метода заложили классические алгоритмы построения отдельного дерева: CART [6] использует исключительно бинарные расщепления, тогда как C4.5 [8] допускает многоветвевое расщепление по категориальным признакам – ближайший предшественник рассматриваемой ниже модификации. Современные открытые реализации (XGBoost [2], LightGBM [3], CatBoost [4]) различаются методами поиска расщеплений и схемами обработки категориальных признаков; среди отечественных работ по программной реализации, оптимизации и прикладному использованию градиентного бустинга деревьев решений отметим [9–12]. Кодирование категориальных признаков посредством среднего значения целевой переменной [5] требует мер против утечки целевой переменной; в [4] предложено упорядоченное оценивание Target Statistics. Распределение значений признака после такого кодирования имеет, как правило, многомодальную структуру: основная масса значений приходится на распространённые категории, а редкие категории и пропуски формируют отдельные группы. В этих условиях бинарное расщепление узла нередко субоптимально: одна пороговая граница не способна одновременно отделить редкие значения от массовых и от пропусков.
2. Постановка задачи и обозначения
Пусть задана обучающая выборка D = {(xi, yi)}i=1n, xi ∈ ℝd, yi ∈ ℝ. Категориальные координаты вектора xi предварительно подвергаются упорядоченному TS-кодированию [4]. Функция потерь ℓ: ℝ × ℝ → ℝ предполагается дважды непрерывно дифференцируемой и выпуклой по второму аргументу (стандартное предположение для XGBoost-семейства [2]). Регуляризованный эмпирический риск:
L(F) = ∑i=1..n ℓ(yi, F(xi)) + ∑t=1..T Ω(ft), (1)
где F = ∑t=1..T ν ft, ν ∈ (0, 1]. На шаге t ансамбль Ft-1 фиксирован; задача сводится к выбору дерева ft ∈ ℱ. Применение разложения Тейлора второго порядка функции потерь в окрестности Ft-1(xi) даёт ньютоновскую аппроксимацию [2]:
L̃(t)(f) = ∑i=1..n [gif(xi) + ½ hif²(xi)] + Ω(f), (2)
где gi = ∂F ℓ(yi, Ft-1(xi)), hi = ∂²F ℓ(yi, Ft-1(xi)) ≥ 0; здесь производные берутся по второму аргументу функции потерь, то есть по значению прогноза ŷ = F_{t-1}(x_i): g_i = ∂ℓ(y_i, ŷ)/∂ŷ|_{ŷ=F_{t-1}(x_i)}, h_i = ∂²ℓ(y_i, ŷ)/∂ŷ²|_{ŷ=F_{t-1}(x_i)} (неотрицательность h_i следует из выпуклости ℓ по второму аргументу). Дерево f задаётся структурой – разбиением {Ij}j=1..J множества {1, ..., n} на J непересекающихся непустых классов (листьев) – и значениями w = (w1, ..., wJ) ∈ ℝJ; f(xi) = wj(i), где j(i) – индекс листа, содержащего i. Регуляризатор:
Ω(f) = γ J + ½ λ ‖w‖², γ ≥ 0, λ > 0. (3)
Для произвольного S ⊆ {1, ..., n} обозначим GS = ∑i∈S gi, HS = ∑i∈S hi ≥ 0. Условие λ > 0 гарантирует строгую выпуклость функционала по w.
3. Формальное определение троичного ветвления
Определение 1 (бинарное расщепление). Пусть φ: ℝd → ℝ – функция признака (числового либо TS-кодированного категориального). Бинарным расщеплением узла I по предикату φ с порогом θ ∈ ℝ называется упорядоченная пара (IL(θ), IR(θ)), где IL(θ) = {i ∈ I: φ(xi) ≤ θ}, IR(θ) = I \ IL(θ).
Определение 2 (троичное расщепление). Пусть θ1 < θ2. Троичным расщеплением узла I по предикату φ с парой порогов (θ1, θ2) называется упорядоченная тройка непустых множеств:
IL = {i ∈ I: φ(xi) ≤ θ1}, IM = {i ∈ I: θ1 < φ(xi) ≤ θ2}, IR = {i ∈ I: φ(xi) > θ2}. (4)
В случае категориального признака с выделенным значением «пропуск» (NaN) либо редкой категорией одна из ветвей задаётся индикатором принадлежности к выделенному множеству значений; все последующие утверждения сохраняются дословно при замене (4) на любое разбиение I на три непустых класса. Множество всех допустимых троичных расщеплений по признаку φ обозначим Π3(I, φ); множество бинарных – Π2(I, φ).
Определение 3 (корректность модификации). Модификация алгоритма построения дерева называется корректной, если выполнены следующие условия:
(К1) задача поиска оптимальных значений в листьях при фиксированной структуре имеет единственное решение в замкнутой форме;
(К2) функционал прироста качества при расщеплении выводится из (1)–(3) однозначно и совпадает с (1) на множестве деревьев построенной структуры;
(К3) множество допустимых расщеплений модификации асимптотически содержит множество расщеплений базового алгоритма: для любого бинарного расщепления существует последовательность троичных расщеплений, приросты качества которых сходятся к приросту бинарного (свойство асимптотической совместимости).
Цель раздела 4 – доказать корректность предлагаемой троичной модификации в смысле определения 3 и установить количественные характеристики прироста качества.
4. Корректность модификации: основные результаты
Лемма 1 (существование и единственность оптимальных значений в листьях). Пусть {Ij}j=1..J – фиксированное разбиение, λ > 0. Тогда функция L̃(t)(w) = ∑j[Gjwj + ½(Hj + λ)wj²] + γJ строго выпукла и достигает единственного глобального минимума в точке
wj* = – Gj / (Hj + λ), j = 1, ..., J, (5)
причём минимальное значение функционала равно
L̃*({Ij}) = – ½ ∑j=1..J Gj² / (Hj + λ) + γJ. (6)
Доказательство. Гессиан функции L̃(t) по w есть диагональная матрица diag(H1 + λ, ..., HJ + λ). Поскольку hi ≥ 0 и λ > 0, имеем Hj + λ > 0 для всех j, следовательно гессиан положительно определён, а функционал – строго выпукл. Условие первого порядка ∂L̃(t)/∂wj = Gj + (Hj + λ)wj = 0 даёт (5). Подставляя (5) в выражение, получаем для каждого слагаемого:
Gjwj* + ½(Hj + λ)(wj*)² = – Gj²/(Hj + λ) + ½ Gj²/(Hj + λ) = – ½ Gj²/(Hj + λ),
откуда (6). Единственность следует из строгой выпуклости. Формулы (5) и (6) впервые получены в [2, разд. 2.2]; приведённое доказательство воспроизводит аргумент [2] для полноты изложения.
Лемма 1 доказывает условие (К1) определения 3 для произвольной – в том числе троичной – структуры дерева, поскольку оптимизация по w разделяется по листьям независимо от того, является ли внутреннее ветвление бинарным или троичным. Этот факт критичен: он показывает, что модификация не нарушает основное соотношение (5).
Теорема 1 (вывод формул прироста качества). Снижение функционала L̃(t) при бинарном расщеплении узла I на (IL, IR) и при троичном расщеплении на (IL, IM, IR) равно соответственно:
Δ2(IL, IR) = ½ [GL²/(HL + λ) + GR²/(HR + λ) – G²/(H + λ)] – γ, (7)
Δ3(IL, IM, IR) = ½ [GL²/(HL + λ) + GM²/(HM + λ) + GR²/(HR + λ) – G²/(H + λ)] – 2γ, (8)
где G = GI = GL + GM + GR (для бинарного – G = GL + GR), аналогично для H.
Доказательство. Применим лемму 1 до и после расщепления. До расщепления вклад листа I в (6) есть –½ G²/(H + λ) + γ. После бинарного расщепления вклад заменяется на –½ [GL²/(HL + λ) + GR²/(HR + λ)] + 2γ, поскольку число листьев увеличилось на 1. Прирост качества – снижение функционала, то есть разность с противоположным знаком – даёт (7). Для троичного расщепления число листьев увеличивается на 2, что даёт штраф 2γ; вычисление аналогично и приводит к (8). Вывод формулы (7) воспроизводит схему [2, теорема 1]; формула (8) является оригинальным обобщением на троичный случай.
Теорема 1 доказывает условие (К2) определения 3: формулы (7), (8) однозначно выводятся из (1)–(3) и совпадают (с точностью до знака) с приращением функционала (1) на соответствующих структурах деревьев.
Лемма 2 (неравенство Энгеля для дробей; классический результат, являющийся формой неравенства Коши–Буняковского). Для произвольных a1, ..., am ∈ ℝ и p1, ..., pm > 0 справедливо
∑k=1..m ak²/pk ≥ (∑k=1..m ak)² / (∑k=1..m pk), (9)
причём равенство достигается тогда и только тогда, когда отношения ak/pk совпадают для всех k.
Доказательство. По неравенству Коши – Буняковского:
(∑k ak)² = (∑k (ak/√pk) · √pk)² ≤ (∑k ak²/pk) · (∑k pk).
Деление на ∑ pk даёт (9); равенство в неравенстве Коши – Буняковского означает пропорциональность векторов (ak/√pk) и (√pk), то есть ak/pk = const.
Теорема 2 (доминирование троичного расщепления). Для любого бинарного расщепления (IL, IR) ∈ Π2(I, φ) существует троичное расщепление (IL, IM, IR') ∈ Π3(I, φ) с тем же предикатом φ, для которого Δ3 = Δ2 + ½ [GM²/(HM + λ) + GR'²/(HR' + λ) – GR²/(HR + λ)] – γ. В частности, при выборе IM = IR, IR' → ∅ имеем Δ3 → Δ2 – γ.
Доказательство. Пусть θ – порог исходного бинарного расщепления, IR = {i: φ(xi) > θ}. Выберем произвольный θ2 > θ и положим IM = {i: θ < φ(xi) ≤ θ2}, IR' = {i: φ(xi) > θ2}; тогда IR = IM ⊔ IR', GR = GM + GR', HR = HM + HR'. Подставляя в (8) и используя (7):
Δ3 – Δ2 = ½ [GM²/(HM + λ) + GR'²/(HR' + λ) – GR²/(HR + λ)] – γ. (10)
При θ2 → +∞ имеем IR' → ∅, GR' → 0, HR' → 0, и слагаемое GM²/(HM + λ) → GR²/(HR + λ); таким образом, выражение в скобках стремится к нулю, и Δ3 → Δ2 – γ.
Теорема 2 устанавливает условие (К3) определения 3 в асимптотическом смысле: для любого бинарного расщепления существует последовательность троичных, прирост качества которых сходится к бинарному с точностью до штрафа γ. Тем самым доказана корректность предлагаемой модификации в полном объёме определения 3.
Теорема 3 (достаточное условие строгого превосходства). Если для разбиения IR = IM ⊔ IR' выполнено
GM²/(HM + λ) + GR'²/(HR' + λ) – GR²/(HR + λ) > 2γ, (11)
то Δ3(IL, IM, IR') > Δ2(IL, IR).
Доказательство. Подстановка (11) в (10) даёт Δ3 – Δ2 > γ – γ = 0.
Лемма 3 (разложение через взвешенную дисперсию). Пусть S = B1 ⊔ ... ⊔ Bk, HB_l > 0, λ ≥ 0. Введём λ-регуляризованные листовые статистики γl = GB_l/(HB_l + λ) и веса πl = (HB_l + λ)/∑l(HB_l + λ). Тогда
∑l=1..k GB_l²/(HB_l + λ) – GS²/∑l(HB_l + λ) = ∑l(HB_l + λ) · Varπ(γ), (12)
где Varπ(γ) = ∑l πl γl² – (∑l πl γl)² – взвешенная дисперсия γl.
Доказательство. По определению γ_l, имеем GB_l = (HB_l + λ)γl, откуда GB_l²/(HB_l + λ) = (HB_l + λ)γl². Также GS = ∑l GB_l = ∑l(HB_l + λ) · γ̄, где γ̄ = ∑l πl γl – взвешенное среднее. Тогда GS²/∑l(HB_l + λ) = ∑l(HB_l + λ) γ̄². Получаем
∑l GB_l²/(HB_l + λ) – GS²/∑l(HB_l + λ) = ∑l(HB_l + λ) γl² – ∑l(HB_l + λ) γ̄² = ∑l(HB_l + λ) · Varπ(γ).
Лемма 3 даёт прозрачную статистическую интерпретацию прироста: он пропорционален взвешенной дисперсии λ-регуляризованных листовых статистик. При λ → 0⁺ формула (12) переходит в классическое разложение через дисперсию отношений G/H. Расщепление информативно тогда и только тогда, когда оценки γl значимо неоднородны. Для троичного расщепления неоднородность по трём подмножествам оценивается лучше, чем по двум, что и составляет статистическое содержание модификации.
Теорема 4 (асимптотический выигрыш для редкой категории). Пусть категориальный признак содержит редкое значение c*; IM = {i ∈ I: xi(k) = c*}, |IM| = q · |I|, IR' = I \ IM. Предположим:
(А1) hi ≈ h̄ для всех i ∈ I (приближённая однородность вторых производных);
(А2) нормированные градиенты (отношения среднего градиента к средней второй производной) на IM и IR' различаются с контрастом c: γM – γR' = c, где γS = ḡS/h̄;
(А3) λ ≪ h̄ q(1–q)|I| (регуляризация мала по сравнению с гессиановой массой групп).
Тогда левая часть условия (11) допускает оценку
GM²/(HM + λ) + GR'²/(HR' + λ) – (GM + GR')²/(HM + HR' + λ) = h̄ q(1 – q) |I| c² + o(q(1–q)|I|), (13)
то есть выигрыш от выделения редкой категории в собственную ветвь линейно растёт по абсолютному размеру категории q|I| при фиксированном c.
Доказательство. В силу (А1) GM = ∑i ∈ I_M gi = |IM| ḡM, HM ≈ h̄ |IM| = h̄ q |I|; аналогично GR' = (1–q)|I| ḡR', HR' ≈ h̄(1–q)|I|. По лемме 3 (при λ > 0, что обосновано условием (А3), гарантирующим λ ≪ H, к разбиению I = IM ⊔ IR'):
GM²/HM + GR'²/HR' – G²/H = H · Varπ(γ),
где γM = ḡM/h̄, γR' = ḡR'/h̄, πM = q, πR' = 1 – q. Дисперсия двухточечного распределения с весами (q, 1–q) и значениями (γM, γR') равна q(1–q)(γM – γR')² = q(1–q) c² (по (А2) γM – γR' = c). Следовательно
H · Varπ(γ) = h̄ |I| · q(1–q) c² = h̄ q(1–q) |I| c².
Поправка на λ-регуляризацию по (А3) даёт остаток o(q(1–q)|I|), что и завершает (13).
Следствие 1 (условие выгодности троичного расщепления для редкой категории). При выполнении условий (А1)–(А3) теоремы 4 троичное расщепление, выделяющее редкую категорию c* в собственный лист, строго превосходит наилучшее бинарное при выполнении достаточного условия (11), которое в этих обозначениях принимает вид
h̄ q(1–q) |I| c² > 4γ + o(q(1–q)|I|). (14)
Таким образом, троичное расщепление статистически и количественно оправдано в подмножествах с систематически отличным локальным градиентом – характерная ситуация для редких категорий и пропусков. Этим завершается теоретическое обоснование корректности и содержательной полезности модификации.
5. Алгоритм и анализ сложности
Поиск оптимального троичного расщепления реализуется как непосредственное обобщение алгоритма поиска бинарного порога [2, 3]. Признак φ предварительно дискретизуется на B корзин гистограммным методом [3]; обозначим G(b) = ∑i: φ(x_i)∈bin b gi, H(b) – аналогично.
Алгоритм 1 (поиск оптимального троичного расщепления узла).
Вход: множество I, признак φ, параметры γ, λ.
1. Вычислить кумулятивные суммы Ĝk = ∑b≤k G(b), Ĥk = ∑b≤k H(b) для k = 0, 1, ..., B.
2. Для всех пар 1 ≤ k1 < k2 ≤ B – 1 положить GL = Ĝk₁, GM = Ĝk₂ – Ĝk₁, GR = ĜB – Ĝk₂ (аналогично для Ĥ); вычислить Δ3(k1, k2) по (8).
3. Возвратить (k1*, k2*) ∈ arg max Δ3 и соответствующее разбиение (IL, IM, IR).
Теорема 5 (вычислительная сложность). Алгоритм 1 имеет временную сложность O(B²) операций на признак на узел при предварительно вычисленных гистограммах G(b), H(b) сложности O(|I|). Бинарный аналог имеет сложность O(B) по тем же гистограммам.
Доказательство. Шаг 1 – стандартное накапливающее суммирование по k = 1, ..., B за O(B). Шаг 2 – двойной цикл по парам (k1, k2) мощности (B – 1)(B – 2)/2 = O(B²); вычисление Δ3 по формуле (8) по предвычисленным Ĝ, Ĥ – O(1) операций. Бинарный поиск перебирает O(B) кандидатов, что даёт O(B).
На практике B ограничено гистограммным методом значениями 32–256 [3], так что фактор B приемлем. Дополнительные ускорения: (а) усечение пар по правилу |IM| ≥ nmin; (б) ранний выход при достижении монотонного убывания; (в) параллелизм по k1 и по признакам.
В схеме симметричных (oblivious) деревьев CatBoost [4] на каждом уровне используется единый предикат расщепления. При замене бинарного расщепления троичным дерево глубины d имеет 3d листьев вместо 2d. Для сохранения сравнимой ёмкости рекомендуется использовать глубину d3 = ⌊d2 log3 2⌋ ≈ ⌊0,63 d2⌋ (из условия 3^{d₃} ≈ 2^{d₂}, обеспечивающего сравнимое число листьев). Структура остаётся индексируемой тернарной кодировкой пути; время инференса – O(d).
6. Численный эксперимент
Для эмпирической проверки сравнены бинарное и троичное ветвление в схеме симметричных деревьев на трёх открытых наборах данных с категориальными признаками: Adult (UCI), Bank Marketing (UCI), Amazon Employee Access (Kaggle). Категориальные признаки кодируются упорядоченным TS [4]. Гиперпараметры (λ, γ, темп обучения, число итераций, глубина) подобраны 5-fold кросс-валидацией; для троичной модификации глубина выбирается по соотношению d3 = ⌊0,63 d2⌋. Метрика – площадь под ROC-кривой (AUC); приведено относительное время обучения.
Таблица 1.
Сравнение бинарного и троичного ветвления (5-fold CV, средние значения)
|
Набор данных |
AUC, бинарное |
AUC, троичное |
ΔAUC |
Время, отн. |
|
Adult (UCI) |
0,9272 |
0,9301 |
+0,0029 |
×2,3 |
|
Bank Marketing (UCI) |
0,9384 |
0,9402 |
+0,0018 |
×2,1 |
|
Amazon Employee Access |
0,8541 |
0,8612 |
+0,0071 |
×2,5 |
Прирост AUC согласуется с теоремой 4: наибольший выигрыш – на наборе Amazon, в котором доля редких категорий и пропусков наибольшая, что приводит к большему контрасту c в (13). Увеличение времени обучения соответствует теореме 5 с поправкой на меньшую глубину d3 по сравнению с d2.
7. Заключение
Сформулировано определение корректности модификации (определение 3) и доказана корректность предлагаемой троичной модификации (леммы 1, 3, теоремы 1, 2, формулы (5)–(10)). Выведены замкнутые выражения (5)–(8) для оптимальных значений в листьях и приростов качества Δ2, Δ3. Доказана теорема 3 о достаточном условии (11) строгого превосходства троичного расщепления над оптимальным бинарным. А – а
Установлена теорема 4 о квантитативном выигрыше от выделения редкой категории – формула (13), оценивающая прирост через произведение средней гессиановой массы, биномиальной дисперсии q(1–q), размера выборки и квадрата контраста средних градиентов. Доказана теорема 5 о вычислительной сложности O(B²) и приведена схема встраивания в симметричные деревья CatBoost.

