MOC · ewaluacja axis KLEJ / Open-PL — 6 zadań Knowledge probe — długi ogon wiedzy o Polsce LLMzSzŁ — likelihood (protokół paperowy) Suita generatywna (ollama, Q4) benchmark ARC-Challenge (EN) Belebele (EN) Belebele (PL) FLORES-200 (PL) GSM8K (EN) INCLUDE-44 (PL) LLMzSzŁ MMLU (EN) PES (medyczny) PoQuAD