Subquadratic sostiene di aver aggirato il collo di bottiglia dei Transformer

La startup Subquadratic ha presentato SubQ, un’architettura per modelli linguistici che punta a superare uno dei principali limiti dei Transformer: il costo computazionale che cresce quadraticamente con la lunghezza del contesto. Invece di calcolare l’attenzione tra tutti i token, SubQ utilizza una forma di sparse attention dinamica che seleziona solo le parti rilevanti del contesto, consentendo teoricamente di gestire fino a 12 milioni di token con costi drasticamente inferiori. Nei benchmark pubblicati dall’azienda, il modello risulta fino a 56 volte più veloce delle implementazioni basate su FlashAttention e mostra costi operativi enormemente ridotti rispetto ai modelli di fascia alta per contesti molto lunghi. Tuttavia, i risultati derivano principalmente da test controllati, il modello si basa su pesi preaddestrati di Qwen e mancano ancora validazioni indipendenti su larga scala. Se le prestazioni verranno confermate in ambienti reali, l’impatto potrebbe essere significativo per applicazioni enterprise che elaborano grandi quantità di testo, codice e documentazione.

Link alla fonte:
https://www.tomshw.it/business/subquadratic-subq-sparse-attention-llm-bottleneck-2026


Scopri di più da AI NEWS by BDB

Abbonati per ricevere gli ultimi articoli inviati alla tua e-mail.