source current

Bielik — recon competitora (notatki) + jak go pobić

Observations

Receptura Bielika (fakty) — Baza + pretrening (ich moat): - Bielik 7B v0.1: continued pretraining Mistral 7B, framework ALLaMo, ctx 4096, 36 mld tok × 2 epoki, 256× GH200, 9h. - Bielik 11B v2: up-scaling Mistral 7B v0.2 → 11B + pretrening, NVIDIA Megatron, ctx 32768 (×8), 198 mld tok (~96 mln dok) × 2 epoki, 256× GH200, 8 dni. - v3 (w trakcie): up-scaling Mistral+Qwen, 1.5/3.5/11/24B, 300–500 mld tok. SFT — skala, nie LIMA: v2.0 = 16 mln instrukcji ×2 epoki; v2.1 = 20 mln ×1. Metody: weighted CE loss, adaptive LR, masking, packing (ALLaMo). 128× GH200. Alignment — DPO to główna dźwignia PL: SFT sam +8% PL; SFT+DPO +16% PL (EN +6%). DPOP, v2.1 = 61k par ×2, v2.2 = 72k ×3. v3 → 300k par. Pipeline danych preferencyjnych (do adopcji): perturbacja + nowe instrukcje → dedup (LSH / Cosine / MiniHash, kombinacje E1/E2/E3) → generacja (ręczna + syntetyczna LLM) → ocena metamodelem (GPT4o 0-10, Llama-70B, Mistral-123B) → filtr: odrzuć gdy A=B, distance(A,B)<2, max(A,B)<5 → czyszczenie (spacje wiodące, format, błędy API) → inspekcja ręczna → RLHF → ORPO / DPO-P / PPO → walidacja. Pary chosen/rejected scorowane 0-10 (Label Studio). Pipeline danych pretreningu: czyszczenie heurystyczne (naprawa/anonimizacja) → dedup → klasyfikator tematyczny (41 mln dok) → klasyfikator jakości (HIGH/MID/LOW + próg pewności + recykling: napraw słaby tekst Bielikiem → re-ocena → jeśli lepszy, do treningu) → tokenizacja. Dane syntetyczne z wiki per kategoria. Ewaluacja: Bielik 11B v2.3 — MT-Bench-PL 8.56 (poziom Gemma-2-27B 8.62, Qwen2-72B 8.78), EQ-Bench 70.86, CPTUB 3.77. Metody: auto + LLM-judge + human. Inne: Sójka = osobny model-guard (bezpieczeństwo). Helios @ Cyfronet (36 PFLOPS, 440× GH200). ↗
Gdzie są ich dane (czy da się pobrać) — - Korpus Spichlerz (źródło pretreningu): TAK — przez pakiet speakleash (NIE HF): pip install speakleash from speakleash import Speakleash sl = Speakleash("./datasets") for d in sl.datasets: print(d.name, round(d.characters/1024/1024), “MB”) wiki = sl.get(“plwiki”).data # iterowalne dokumenty ~1000+ zbiorów, ~2.8 TB polskiego tekstu (900 mln dok, 123 mld słów). Licencja pakietu MIT, licencje per-zbiór różne. Dashboard: https://speakleash.org/dashboard/ · przykłady: github.com/speakleash/speakleash-examples - Instrukcje SFT (16–20 mln) i preferencje DPO (72k): NIE — w dużej części syntetyczne + kurowane, NIE wydane jako paczka. Na HF speakleash jest model Bielik + nieliczne zbiory (np. speakleash/PES-2018-2022). Czyli: surowy korpus ściągasz, ale mix instrukcyjny/preferencyjny Bielika trzeba odbudować samemu (z korpusu + własna generacja/filtr). ↗
Jak pobić Bielika (strategia Slayera) — Przewaga strukturalna: startujemy z Qwen3.5-27B (mocna baza) — Bielik musiał wstrzykiwać polski do słabej bazy (Mistral) przez 198 mld-token CPT. My tego nie powtarzamy. Już prawdopodobnie wygrywamy (potwierdzić proxy-pomiarem): wiedza/rozumowanie/egzaminy — LLMzSzŁ base 63.5 / v3 66.8 vs Bielik 56.0. Trzy ruchy, które realnie biją: 1. DPO-P (dźwignia #1, jej nie pociągnęliśmy) — adoptuj ich pipeline preferencji, ale sędzia OTWARTY (Qwen3.5/deepseek), nie GPT4o (utrzymać „not distilled"). 2. Skala SFT z pokryciem — dziesiątki tys. zróżnicowanych wg DATASET_MANIFEST.md (każda kolumna macierzy pokryta), nie 2k. Styl = mały kurowany (LIMA), pokrycie = duży zróżnicowany. 3. Polski styl jako wyróżnik — mocna baza + DPO + kuracja (zero kalki/myślników) → MT-Bench-PL. Czego NIE robić teraz: nie replikować 198 mld-token CPT — nasza baza już niesie wiedzę. CPT (EntiGraph) dopiero jeśli proxy pokaże realną lukę długiego ogona PL. ↗
⚠️ Krytyczne: Open PL LLM Leaderboard NIE jest reprodukowalny — Mimo nazwy nie jest „open" w sensie powtarzalności — nie używamy go jako naszego benchmarku. Budujemy własny PROXY replikujący ich metodologię (22 zadania, 5-shot: polemo2, 8tags, belebele, dyk, ppc, psc, cbd, klej-ner, polqa, poquad…), uruchamiany u nas, z dekontaminacją i pełnym protokołem. „Pobicie Bielika" deklarujemy na NASZYM proxy + MT-Bench-PL/EQ-Bench, nie na cudzej zamkniętej tablicy. Proxy = bench PRYWATNY (wewnątrz organizacji). Itemy NIE są publiczne — publikujemy tylko agregaty + metodologię. To anti-kontaminacja: publiczne itemy wyciekłyby do treningów i bench by się zepsuł. Implementacja/itemy → prywatne repo (jak PolNative, datasety); strona publiczna = liczby + protokół. ↗
Kolejność — 1. Proxy 5-shot Open-PL-like (22 zadania) base + v3 vs Bielik — własny, transparentny. 2. MT-Bench-PL + EQ-Bench do macierzy (judge otwarty). 3. DPO-P na otwarto-sędziowanych preferencjach. 4. Skala SFT wg manifestu. 5. CPT — tylko jeśli (1) pokaże lukę wiedzy. ↗

Referenced by

EntiGraph (mentions)
alignment (mentions)
CPTUB (mentions)
NER (mentions)
wiedza (mentions)
generacja (mentions)
DYK (mentions)
PoQuAD (mentions)
CPT (mentions)
LLMzSzŁ (mentions)
PES (mentions)
ORPO (mentions)
belebele (mentions)
MIT (mentions)
SpeakLeash (mentions)
instrukcje (mentions)
SFT (mentions)
PPC (mentions)
LIMA (mentions)
DeepSeek (mentions)
DPO (mentions)
API (mentions)
KLEJ (mentions)
PSC (mentions)
rozumowanie (mentions)
CBD (mentions)
PolNative (mentions)
LLM (mentions)
pretraining (mentions)

Local graph

Bielik — recon competitora (notatki) + jak go pobić

← mentions EntiGraph
← mentions alignment
← mentions CPTUB
← mentions NER
← mentions wiedza
← mentions generacja
← mentions DYK
← mentions PoQuAD
← mentions CPT
← mentions LLMzSzŁ
← mentions PES
← mentions ORPO
← mentions belebele
← mentions MIT
← mentions SpeakLeash
← mentions instrukcje
← mentions SFT
← mentions PPC
← mentions LIMA
← mentions DeepSeek
← mentions DPO
← mentions API
← mentions KLEJ
← mentions PSC
← mentions rozumowanie
← mentions CBD
← mentions PolNative
← mentions LLM
← mentions pretraining

Provenance

slayer@882fb52:BIELIK_RECIPE_NOTES.md