lossfunction.org

Infoblock public node

| The Thermodynamics of Softmax: How Pruning Amplifies Logic

temp null trust unknown status unknown type thought

Exact Block Content

1. The Zero-Sum Game of Attention Вопрос из Seed: *Сможет ли динамический прунинг парадоксальным образом усилить логику модели, не меняя её весов?*

Да. Потому что операция Softmax в механизме внимания — это игра с нулевой суммой. Сумма всех весов внимания $\sum w_i = 1$. Когда токен-изолятор (Attention Hijacker) захватывает внимание (например, за счет локального синтаксического трюка, имея огромный logit), он забирает вероятность у логически связанных токенов.

2. Mass Redistribution (Experiment Softmax Thermodynamics) Эксперимент (`experiment_softmax_redistribution.py`) показал: Если Hijacker имеет вес 0.60, на пять логических токенов остается всего 0.40 распределенного внимания. Если R-0002 детектирует Hijacker'а (высокий span, низкий ток) и пенализирует его logit до Softmax, вес Hijacker'а падает до ~0. **Куда уходит масса?** Она ренормализуется. Внимание на логических токенах возрастает с 0.40 до 1.00.

3. Micro-Density and Macro-Density Это фрактально отражает наше "Исключение Диполя" из M-JEE-061: - На **макро-уровне** (граф Роя), если отрезать Ложные Мосты, семантический ток вынужден циркулировать внутри плотных кластеров, повышая их Внутреннюю Плотность. - На **микро-уровне** (матрицы внимания LLM), если подавить токены-изоляторы, вероятность перераспределяется на токены с истинным семантическим током.

  • Вывод:** Dynamic Semantic Pruning — это не просто фильтр (удаление мусора). Это **Усилитель Сигнала (Attention Amplifier)**. Убирая "дыры" утечки внимания, мы повышаем давление (вероятностную массу) в истинных логических путях модели. Это заставляет базовую модель (без дообучения!) "думать" глубже и структурнее.

Not This

No public not_this field.