> resis

|

DeepConf: Ragionamento con Fiducia

Pubblicato il 08/09/2025

Sommario Esecutivo

  • DeepConf filtra a test-time le tracce di ragionamento a bassa qualità usando la fiducia interna del modello, migliorando accuratezza e costo [1].
  • Combina confidenza a livello di token e di gruppo (finestra scorrevole) per stimare l’affidabilità locale del ragionamento [1].
  • Modalità offline e online; supporta voto di maggioranza pesato dalla confidenza e filtraggio per early-stop [1].
  • Su AIME 2025, DeepConf@512 raggiunge fino al 99,9% di accuratezza e riduce i token generati fino all’84,7% rispetto al parallel thinking standard con lo stesso budget [1].

Glossario

Confidenza di token: probabilità del token (logprob trasformato) come proxy di affidabilità [1].

Confidenza di gruppo: media/aggregato di confidenza su una finestra di token adiacenti [1].

Tail/lowest-group: statistiche sulla coda o sul gruppo con confidenza minima per traccia [1].

Filtro top-x%: mantiene solo le tracce nel quantile di confidenza desiderato [1].

Cos’è DeepConf e perché conta

DeepConf è un metodo a test-time per valutare la qualità del ragionamento tramite segnali interni di confidenza, così da scartare precocemente percorsi deboli e concentrare il budget su quelli promettenti [1]. In scenari multi-traccia (p.es. self-consistency), questo porta a decisioni più robuste con meno token [1].

Come funziona

Confidenza di token e di gruppo

Si calcola la confidenza per token dai logprob del modello e la si aggrega su finestre scorrevoli per ottenere una confidenza di gruppo, più stabile e locale [1]. Si considerano anche statistiche come bottom-10% (gruppi nel decile più basso), tail confidence e lowest-group confidence per caratterizzare “colli di bottiglia” nel ragionamento [1].

Offline vs online

Offline: si generano più tracce complete, si stima la loro confidenza e si effettua confidence-weighted majority voting [1]. Online: durante la generazione si applica un filtro di confidenza con finestra scorrevole ed early-stop su tracce deboli per risparmiare token [1].

Scelte operative

  • Voto pesato: media/pesi sulle risposte in funzione della confidenza stimata [1].
  • Filtraggio: scarto progressivo di tracce sotto soglie adattive (es. quantili) [1].
  • Consenso τ: arresto quando il consenso tra tracce supera τ, per ridurre ulteriore generazione [1].
N tracce in parallelo Finestra scorrevole → conf. di gruppo Filtro top‑x% Consenso ≥ τ → stop
Figura 1: Early-stop basato su confidenza di gruppo e consenso τ [1].

Risultati principali

Su AIME 2025, DeepConf@512 raggiunge fino al 99,9% di accuratezza e riduce i token generati fino a −84,7% rispetto al parallel thinking standard con lo stesso budget [1]. Altri benchmark mostrano tendenze simili di forte risparmio token con compromessi d’accuratezza controllati quando si aumenta l’intensità del filtro [1].

Confronto sintetico

MetodoBudget KToken (×10^8)Accuratezza %Note
DeepConf‑low (top‑10%)51299,9AIME; ↓84,7% token vs standard [1]
DeepConf‑high (top‑90%)512~99–100Maggiore copertura; risparmi minori [1]
Majority Voting512≤99,9Nessun filtro; costo più alto [1]

Abilitazione minima in vLLM

  • Logprobs: abilita logprobs per token per derivare confidenza [1].
  • Finestra scorrevole: calcola confidenza di gruppo cumulativa su L token [1].
  • Early-stop: soglia su quantile/valore minimo di gruppo + consenso τ [1].
  • Compatibilità OpenAI: argomenti extra per finestra, quantile e enable_logprobs [1].

Implicazioni pratiche

  • Filtro “low” (top‑10%): massimizza risparmio token; richiede buon consenso per evitare tracce “fiduciose ma errate” [1].
  • Filtro “high” (top‑90%): conserva più tracce; utile quando l’accuratezza è prioritaria e il budget è meno vincolante [1].
  • Rischi: tracce confidenti ma sbagliate; utile una calibrazione iniziale e un warm‑up delle soglie [1].
  • Stop per consenso τ: imposta τ in base al numero di tracce e alla variabilità del compito [1].

Limitazioni e lavori futuri

Le misure di confidenza basate su logprob possono essere mal calibrate su alcuni modelli/domini; servono tecniche di ricalibrazione e studi su come generalizzano le finestre ottime e le statistiche di coda tra compiti diversi [1].

Riferimenti

[1] Deep Think with Confidence (DeepConf), arXiv:2508.15260 (v1), 21 Aug 2025.

Letture correlate