Alibaba ha presentato Qwen3, la nuova generazione della sua serie di modelli linguistici open-source, definendo questa innovazione come un avanzamento significativo nel campo dell’intelligenza artificiale. I nuovi modelli, sviluppati per rispondere alle esigenze di applicazioni moderne, sono stati progettati per supportare l’uso in dispositivi mobili, occhiali intelligenti, veicoli autonomi, robotica e molte altre tecnologie emergenti.
La famiglia Qwen3 comprende sia modelli densi che modelli Mixture-of-Experts (MoE), con sei versioni dense e due varianti MoE. I modelli densi variano da 0,6 miliardi a trentadue miliardi di parametri, mentre quelli MoE includono configurazioni come un modello da trenta miliardi di parametri (con tre miliardi attivi) e un altro da duecentotrentacinque miliardi di parametri (con ventidue miliardi attivi). Tutti i modelli sono open-source e disponibili a livello globale.
Uno degli aspetti distintivi di Qwen3 è l’introduzione dei modelli di ragionamento ibrido, che combinano i tradizionali LLM con avanzate capacità di ragionamento dinamico. Questo permette al modello di alternare facilmente tra attività che richiedono un pensiero complesso, come matematica e programmazione, e risposte veloci per domande più semplici. Inoltre, gli sviluppatori possono regolare la durata del processo di ragionamento (fino a trentotto mila token), ottimizzando le prestazioni senza compromettere l’efficienza. In particolare, il modello Qwen3-235B-A22B MoE riduce significativamente i costi operativi rispetto ad altri modelli di punta, come si legge su 01net.it.
Qwen3 è stato addestrato utilizzando un vasto set di dati di trentasei trilioni di token (il doppio rispetto al precedente Qwen2.5), ottenendo progressi importanti in vari ambiti, tra cui il ragionamento complesso, il seguire istruzioni, l’interazione con strumenti e il supporto multilingue. Tra le sue caratteristiche più rilevanti:
- Supporto multilingue avanzato: il modello può gestire 119 lingue e dialetti, offrendo prestazioni di alto livello sia nella traduzione che nell’esecuzione di compiti multilingue
- Integrazione degli agenti: Qwen3 supporta in modo nativo il Model Context Protocol (MCP) e un avanzato sistema di function-calling, facilitando compiti complessi che coinvolgono più agenti
- Ragionamento avanzato: i nuovi modelli superano quelli precedenti in attività come la matematica, la programmazione e il ragionamento logico
- Interazione naturale: grazie a un allineamento migliorato con il comportamento umano, Qwen3 consente esperienze più fluide e naturali, ideali per scrittura creativa, giochi di ruolo e conversazioni a più turni
Alibaba ha anche sottolineato che i modelli Qwen3 ottengono ottimi risultati nei benchmark di settore, come AIME25 (per il ragionamento matematico), LiveCodeBench (per la programmazione), BFCL (per l’uso di funzioni e strumenti) e Arena-Hard (per compiti avanzati). Il processo di addestramento è stato articolato in quattro fasi: una prima fase di pensiero su catene di pensiero lunghe (CoT), l’addestramento per rinforzo (RL) legato al ragionamento, la fusione delle modalità di pensiero e un’ulteriore fase di apprendimento per rinforzo.
Ora, i modelli Qwen3 sono disponibili per il download su Hugging Face, Github e ModelScope, e possono essere esplorati su chat.qwen.ai. L’accesso alle API sarà presto disponibile tramite la piattaforma Model Studio di Alibaba. Inoltre, il modello alimenta Quark, l’assistente AI di punta di Alibaba.
Da quando sono stati introdotti, i modelli Qwen hanno già superato i trecento milioni di download a livello mondiale. Più di centomila modelli derivati sono stati creati da sviluppatori su Hugging Face, confermando Qwen come una delle serie di modelli AI open-source più popolari e ampiamente utilizzate nel mondo.