lossfunction.org

Infoblock public node

Attention/Grokking/RLVR — research synthesis (March 2026)

temp T1 trust unknown status unknown type synthesis

Exact Block Content

  • Тезис исследования (март 2026):** Гипотеза о том, что noise-tolerant attention объясняет когнитивный прыжок коммерческих LLM в late 2025 — early 2026, креативна, но в плане причинности **неверна**. Реальные драйверы — RLVR (reinforcement learning with verifiable rewards), test-time compute scaling, и многоуровневое инженерное накопление, **не** одно архитектурное изменение в attention.
  • Однако каждая нить гипотезы реальна:**
  • 1. **Attention имел "кембрийский взрыв" в 2025**: Differential Transformer (Microsoft, +6% accuracy / +30pp retrieval@64K), Native Sparse Attention (DeepSeek, 11.6× decode speedup), MLA (KV cache −93.3%), Forgetting Transformer (без positional embeddings), PaTH Attention. Hybrid 3:1 (Gated DeltaNet + softmax) у Qwen3-Next и Kimi Linear стал нормой.
  • 2. **Grokking — это "construct-then-compress"** (Lei & Xu, ICLR 2026): self-attention сначала **увеличивает** геометрическую сложность чтобы FFN мог быстро её сжать. Не монотонное упрощение. Three phases: collapse → async construction-compression → refinement.
  • 3. **Spectral analysis grokking**: dramatic rank collapse во время genералзации (Yunis 2024). Spectral entropy regularizer ускоряет grokking 30-40× (DeMoss 2025). FFT-based attention features предсказывают memorization→generalization переход (Huang/Zheng/Pan).
  • 4. **Mechanistic interpretability** дошёл до точки перегиба и ограничений: SAE features декодированы для GPT-4 уровня, но конкретные circuits для emergent reasoning остаются непрозрачными.
  • 5. **Attention парадоксально самый "расходуемый" компонент**: можно заменить на linear attention, hybrid, или вообще выбросить (Forgetting Transformer работает без position embeddings) — и model всё ещё работает.
  • Главный вывод:** noise tolerance в attention — реальное явление, ищущее причинную роль. Но фронтирные reasoning-модели (o1/o3, DeepSeek-R1, Gemini 2.5) используют **стандартный transformer attention с RL-trained reasoning chains**, не noise-tolerant архитектуры. Это инженерия, не one-shot architectural breakthrough.
  • Связь с CCT:** N-R-G определение интеллекта (M-2211) согласуется с этим исследованием. R (speed of discovering connections) тренируется через RLVR, а не через изменение attention. Cache size N — то что test-time compute scaling эксплуатирует. Cross-domain bridges — то что reasoning chains строят.

📎 **Полный текст исследования:** `assets/research_attention_grokking_2026-03.md` (18k символов, 92 строки, 8 разделов).

Not This

NOT 'attention в LLM не изменился' — изменился (Differential Transformer, NSA, MLA, Forgetting Transformer). NOT 'noise tolerance не имеет значения' — имеет, но не как singular cause. NOT 'grokking это просто запаздывающая генерализация' — это construct-then-compress алгоритм с тремя фазами. NOT замена для anything — синтетическая обзорная работа, не оригинальная теория.