Diagnoza: „przegrana” na CBD/DYK/GSM8K to bug harnessu, nie modelu
Observations
- base: Qwen3.5-27B (base/v3/v4) ↗
- method: pełna macierz modeli (bench_runner, n=100) + probe scoringu: TAK/NIE vs YES/NO, sum vs per-token vs kalibracja kontekstowa, accuracy vs F1 ↗
- status: clean ↗
- date: 2026-06-15 ↗
Referenced by
Local graph
Diagnoza: „przegrana” na CBD/DYK/GSM8K to bug harnessu, nie modelu