Pubblicato il 08/09/2025
Confidenza di token: probabilità del token (logprob trasformato) come proxy di affidabilità [1].
Confidenza di gruppo: media/aggregato di confidenza su una finestra di token adiacenti [1].
Tail/lowest-group: statistiche sulla coda o sul gruppo con confidenza minima per traccia [1].
Filtro top-x%: mantiene solo le tracce nel quantile di confidenza desiderato [1].
DeepConf è un metodo a test-time per valutare la qualità del ragionamento tramite segnali interni di confidenza, così da scartare precocemente percorsi deboli e concentrare il budget su quelli promettenti [1]. In scenari multi-traccia (p.es. self-consistency), questo porta a decisioni più robuste con meno token [1].
Si calcola la confidenza per token dai logprob del modello e la si aggrega su finestre scorrevoli per ottenere una confidenza di gruppo, più stabile e locale [1]. Si considerano anche statistiche come bottom-10% (gruppi nel decile più basso), tail confidence e lowest-group confidence per caratterizzare “colli di bottiglia” nel ragionamento [1].
Offline: si generano più tracce complete, si stima la loro confidenza e si effettua confidence-weighted majority voting [1]. Online: durante la generazione si applica un filtro di confidenza con finestra scorrevole ed early-stop su tracce deboli per risparmiare token [1].
Su AIME 2025, DeepConf@512 raggiunge fino al 99,9% di accuratezza e riduce i token generati fino a −84,7% rispetto al parallel thinking standard con lo stesso budget [1]. Altri benchmark mostrano tendenze simili di forte risparmio token con compromessi d’accuratezza controllati quando si aumenta l’intensità del filtro [1].
Metodo | Budget K | Token (×10^8) | Accuratezza % | Note |
---|---|---|---|---|
DeepConf‑low (top‑10%) | 512 | — | 99,9 | AIME; ↓84,7% token vs standard [1] |
DeepConf‑high (top‑90%) | 512 | — | ~99–100 | Maggiore copertura; risparmi minori [1] |
Majority Voting | 512 | — | ≤99,9 | Nessun filtro; costo più alto [1] |
logprobs
per token per derivare confidenza [1].τ
[1].enable_logprobs
[1].Le misure di confidenza basate su logprob possono essere mal calibrate su alcuni modelli/domini; servono tecniche di ricalibrazione e studi su come generalizzano le finestre ottime e le statistiche di coda tra compiti diversi [1].
[1] Deep Think with Confidence (DeepConf), arXiv:2508.15260 (v1), 21 Aug 2025.