source current

Slayer — open Polish LLM lab

Observations

Aktualny wynik — Bielik-11B-v3 vs Qwen3.5-9B — Pomiar Fazy 0 (baseline). Oba modele: 4-bit GGUF, ollama @ RTX 3090, deterministycznie, mierzone czysto (agregaty, zero inspekcji itemów), wiele seedów. Benchmark | Metryka | Bielik-11B-v3 | Qwen3.5-9B | Wynik LLMzSzŁ (egz. państwowe PL) | accuracy MCQ | 61.1 | 58.2 | 🟢 Bielik +2.9 PES (medyczny) | accuracy | 48.0 | 52.7 | Qwen +4.7 Belebele (PL) | accuracy MCQ | 86.3 | 89.4 | Qwen +3.1 PoQuAD | trafność (sędzia-LLM) | 80.6 | 82.8 | Qwen +2.2 FLORES-200 (PL↔) | chrF | 53.0 | 55.0 | Qwen +2.0 Belebele (EN) | accuracy MCQ | 92.4 | 94.9 | Qwen +2.5 ARC-Challenge (EN) | accuracy MCQ | 89.2 | 94.1 | Qwen +4.9 MMLU (EN) | accuracy MCQ | 67.2 | 77.1 | Qwen +9.9 GSM8K (EN) | exact match | — | +34.5 | Qwen +34.5 Stan: Bielik 1 : 8 Qwen3.5-9B (9 ważnych osi). INCLUDE-44: loader naprawiony (PR #20 - mapowanie gold 0-based) i z powrotem w narzędziach leaderboardu. Wraca do tej tabeli po pełnym re-runie Fazy 0; dotąd tylko pilotaż n=50 (Bielik 70 / Qwen 64), za mały na headline. Wniosek: Qwen3.5-9B jest wyraźnie mocniejszy (zwłaszcza rozumowanie EN), a wąsko wygrywa na większości osi polskich. Bielik trzyma jedynie LLMzSzŁ (egzaminy państwowe/zawodowe PL) — czyli dokładnie oś naszego targetu urzędniczo-prawniczego. Decyzja: baza = Qwen3.5-9B + polska specjalizacja. — ↗
Zasada czystości (no benchmaxxing) — - Zbiory ewaluacyjne (LLMzSzŁ, PES, PoQuAD, Belebele, FLORES, regresja EN) służą wyłącznie do pomiaru — nigdy w treningu. - Zdolności budujemy na niezależnych danych; benchmark tylko weryfikuje uogólnienie na held-out. - Mierzymy tylko publiczne, pobieralne, deterministyczne zbiory. Zamknięte (EQ-Bench, CPTUB, PLCC) — osobno. - Korpusy treningowe przechodzą dekontaminację względem zbiorów testowych. ↗
Strategia treningu — tańsza ścieżka vs Bielik — Bielik-11B-v3 (raport techniczny) trenowano pełnym, kosztownym pipeline’em: Mistral 7B → Depth Up-Scaling → CPT ~1.1T tokenów → SFT (~20M instrukcji) → DPO/DPO-P (114k) → GRPO/RLVR (143k, weryfikatory matma/STEM-MCQ/tool-use). Tokenizera PL nie rozszerzano; pary preferencji generowano m.in. DeepSeek-V3. Nasza teza „super tanio + epsilon": startujemy z Qwen3.5-9B (bije Bielika 8:1 wg leaderboardu) → pomijamy najdroższy etap (CPT) → tani QLoRA SFT + GRPO/RLVR z weryfikatorem MCQ, celowany w jedyną oś Bielika (LLMzSzŁ) i prawo/administrację. Generowanie danych: DeepSeek (jak Bielik). Pełna metodyka: /trening. Licencja bazy: Qwen3.5-9B jest na Apache 2.0 — wolno komercyjnie używać, fine-tunować i otwarcie wydać pochodną (z zachowaniem noty licencyjnej), bez klauzul typu MAU. Kompromis: bazujemy na zagranicznych wagach (mniejsza suwerenność łańcucha niż własna baza Bielika), ale trening/hosting w PL i pełna jawność receptury. ↗
Reprodukcja — Wymagania: ollama, Python 3.10+. pip install -e . (lub uv sync). ollama pull qwen3.5:9b ollama pull hf.co/speakleash/Bielik-11B-v3.0-Instruct-GGUF:Q4_K_M # pojedynczy benchmark (MCQ): bench <N|0=full> python3 bench/bench_mcq.py llmzszl 400 42 python3 bench/bench_poquad.py 1000 42 # PoQuAD + sędzia-LLM python3 bench/bench_flores.py 600 42 # FLORES (gated — wymaga HF_TOKEN) # pełna kolejka + dashboard bash bench/run_all.sh python3 bench/make_dashboard.py # -> results/leaderboard.json ↗
Struktura — bench/ harness ewaluacyjny (MCQ, PoQuAD+judge, FLORES, GSM8K), orkiestrator, dashboard results/ wyniki (leaderboard.json, status.json) *.html strona (slayer.fabryka.ai) — modularny system: assets/lab.css + assets/site.js ↗
Współpraca — Szukamy ludzi: dane (korpusy prawno-urzędowe), ewaluacje, trening (SFT/DPO/GRPO), infra — oraz firm (use case) i fundatorów compute. - 📋 Zadania od początkujących · 🧪 Metody treningu - ✍️ Dołącz / zapisz się · Discord ↗
Licencja — MIT — patrz LICENSE. Wyniki i metodyka są otwarte. ↗

Referenced by

MCQ (mentions)
MMLU (EN) (mentions)
QLoRA (mentions)
CPTUB (mentions)
MMLU (mentions)
ARC-Challenge (EN) (mentions)
prawo (mentions)
GSM8K (mentions)
closed (mentions)
PLCC (mentions)
PoQuAD (mentions)
CPT (mentions)
STEM (mentions)
LLMzSzŁ (mentions)
INCLUDE (mentions)
PES (mentions)
GGUF (mentions)
ARC (mentions)
GSM8K (EN) (mentions)
belebele (mentions)
MIT (mentions)
SpeakLeash (mentions)
SFT (mentions)
PES (medyczny) (mentions)
regresja (mentions)
ARC-Challenge (mentions)
Belebele (PL) (mentions)
DeepSeek (mentions)
DPO (mentions)
held-out (mentions)
rozumowanie (mentions)
chrF (mentions)
FLORES (mentions)
LLM (mentions)
LLM (defined-by)
Belebele (EN) (mentions)

Local graph

Slayer — open Polish LLM lab

← mentions MCQ
← mentions MMLU (EN)
← mentions QLoRA
← mentions CPTUB
← mentions MMLU
← mentions ARC-Challenge (EN)
← mentions prawo
← mentions GSM8K
← mentions closed
← mentions PLCC
← mentions PoQuAD
← mentions CPT
← mentions STEM
← mentions LLMzSzŁ
← mentions INCLUDE
← mentions PES
← mentions GGUF
← mentions ARC
← mentions GSM8K (EN)
← mentions belebele
← mentions MIT
← mentions SpeakLeash
← mentions SFT
← mentions PES (medyczny)
← mentions regresja
← mentions ARC-Challenge
← mentions Belebele (PL)
← mentions DeepSeek
← mentions DPO
← mentions held-out
← mentions rozumowanie
← mentions chrF
← mentions FLORES
← mentions LLM
← defined-by LLM
← mentions Belebele (EN)

Provenance

slayer@882fb52:README.md