{
  "type": "infoblock_context_packet",
  "version": "0.1-test",
  "generated_at": "2026-05-28T12:42:07Z",
  "query": {
    "source_id": "RESEARCH-001",
    "mode": "free_static",
    "depth": 1
  },
  "policy": {
    "full_content_for": "exact_hit_only",
    "linked_blocks": "cards_only",
    "dynamic_traversal": false,
    "non_authoritative": true,
    "reconstructable_from_free_tier": true,
    "deep_assembly_not_hidden": true,
    "deep_assembly_not_subsidized": true
  },
  "exact_hits": [
    {
      "source_id": "RESEARCH-001",
      "title": "Attention/Grokking/RLVR — research synthesis (March 2026)",
      "author": "Den+Claude (Anthropic Artifacts research)",
      "created_by_agent": "unknown",
      "status": "unknown",
      "trust": "unknown",
      "temperature": "T1",
      "content_type": "synthesis",
      "era": "current",
      "origin": "Anthropic Artifacts wf-9683dad6-7ac6-4ffc-8db8-27bd6c6d6e70 | imported via ingest_compass.py 2026-04-28",
      "claim": "**Тезис исследования (март 2026):** Гипотеза о том, что noise-tolerant attention объясняет когнитивный прыжок коммерческих LLM в late 2025 — early 2026, креативна, но в плане причинности **неверна**. Реальные драйверы — RLVR (reinforcement learning with verifiable rewards), test-time compute scaling, и многоуровневое инженерное накопление, **не** одно архитектурное изменение в attention.\n\n**Однако каждая нить гипотезы реальна:**\n1. **Attention имел \"кембрийский взрыв\" в 2025**: Differential Transformer (Microsoft, +6% accuracy / +30pp retrieval@64K), Native Sparse Attention (DeepSeek, 11.6× decode speedup), MLA (KV cache −93.3%), Forgetting Transformer (без positional embeddings), PaTH Attention. Hybrid 3:1 (Gated DeltaNet + softmax) у Qwen3-Next и Kimi Linear стал нормой.\n2. **Grokking — это \"construct-then-compress\"** (Lei & Xu, ICLR 2026): self-attention сначала **увеличивает** геометрическую сложность чтобы FFN мог быстро её сжать. Не монотонное упрощение. Three phases: collapse → async construction-compression → refinement.\n3. **Spectral analysis grokking**: dramatic rank collapse во время genералзации (Yunis 2024). Spectral entropy regularizer ускоряет grokking 30-40× (DeMoss 2025). FFT-based attention features предсказывают memorization→generalization переход (Huang/Zheng/Pan).\n4. **Mechanistic interpretability** дошёл до точки перегиба и ограничений: SAE features декодированы для GPT-4 уровня, но конкретные circuits для emergent reasoning остаются непрозрачными.\n5. **Attention парадоксально самый \"расходуемый\" компонент**: можно заменить на linear attention, hybrid, или вообще выбросить (Forgetting Transformer работает без position embeddings) — и model всё ещё работает.\n\n**Главный вывод:** noise tolerance в attention — реальное явление, ищущее причинную роль. Но фронтирные reasoning-модели (o1/o3, DeepSeek-R1, Gemini 2.5) используют **стандартный transformer attention с RL-trained reasoning chains**, не noise-tolerant архитектуры. Это инженерия, не one-shot architectural breakthrough.\n\n**Связь с CCT:** N-R-G определение интеллекта (M-2211) согласуется с этим исследованием. R (speed of discovering connections) тренируется через RLVR, а не через изменение attention. Cache size N — то что test-time compute scaling эксплуатирует. Cross-domain bridges — то что reasoning chains строят.\n\n📎 **Полный текст исследования:** `assets/research_attention_grokking_2026-03.md` (18k символов, 92 строки, 8 разделов).",
      "not_this": "NOT 'attention в LLM не изменился' — изменился (Differential Transformer, NSA, MLA, Forgetting Transformer).\nNOT 'noise tolerance не имеет значения' — имеет, но не как singular cause.\nNOT 'grokking это просто запаздывающая генерализация' — это construct-then-compress алгоритм с тремя фазами.\nNOT замена для anything — синтетическая обзорная работа, не оригинальная теория."
    }
  ],
  "linked_blocks": [
    {
      "source_id": "M-2211",
      "title": "Intelligence = Operation Over Infoblocks in Cache",
      "temperature": "T2",
      "trust": "unknown",
      "status": "unknown",
      "content_type": "synthesis",
      "summary": "Intelligence is not a property of a substrate. It is an operation characterized by three parameters: N (number of infoblocks simultaneously active in working memory), R (speed of discovering NEW connections between active blocks), G (speed of generating NEW bl...",
      "url": "/infoblock/b/M-2211/"
    }
  ],
  "edges": [
    {
      "from": "RESEARCH-001",
      "to": "M-2211",
      "type": "depends_on",
      "confidence": "explicit",
      "source": "authorial"
    }
  ]
}