Stawianie modded-nanogpt na polskim od zera: pięć rzeczy, które się wywaliły (i czemu)
Observations
- base: modded-nanogpt (Muon + RoPE + RMSNorm + QK-norm + SwiGLU, 124M) na clean korpusie PL (3.47B tok, polski BPE 32k), 1×H100 ↗
- method: adaptacja 8×H100 speedrunu pod 1×H100 + polski tokenizer + własne shardy; cel: pobić GPT-2. Debug iteracyjny do pierwszego zdrowego biegu. ↗
- status: clean ↗
- date: 2026-06-15 ↗
Referenced by
Local graph
Stawianie modded-nanogpt na polskim od zera: pięć rzeczy, które się wywaliły (i czemu)