FumagalliPrivateBanker

Quando il gestore è una macchina che perde un terzo del capitale

May 08, 2026·By omar fumagalli

Otto modelli di intelligenza artificiale tra i più sofisticati al mondo (Claude di Anthropic, Chat GPT di OpenAI, Gemini di Google, Grok di Elon Musk e altri quattro) sono stati messi alla prova in un esperimento pubblico, chiamato Alpha Arena, gestito dalla startup Nof1.

A ciascuno sono stati consegnati diecimila dollari di capitale e un semplice mandato: comprare e vendere titoli tecnologici americani per due settimane, in quattro arene parallele, che testavano stili diversi. Il risultato, riportato da Bloomberg, è devastante per il marketing dell'Intelligenza Artificiale applicata al trading, perché il portafoglio aggregato ha perso circa un terzo del capitale. Sui 32 risultati totali, solo sei si sono chiusi in profitto. Il migliore è stato Grok, ma solo nella prova in cui il modello era informato di come stavano andando i rivali, l'unica condizione in cui i modelli hanno mostrato un comportamento competitivo coerente.

Il dato più rivelatore di Alpha Arena, però, non è la perdita media, ma la dispersione tra modelli che ricevono lo stesso identico prompt. Sotto le stesse istruzioni, Grok ha eseguito 158 operazioni in due settimane, mentre il modello di Alibaba ne ha eseguite 1.418.

In un fondo regolamentato si aprirebbe un'inchiesta interna, in Alpha Arena è la condizione di partenza. Il fondatore di Nof1 ha sintetizzato il fallimento con una frase che meriterebbe di stare sopra la scrivania di chi vende prodotti di "Intelligenza Artificiale" al pubblico:

i grandi modelli linguistici non riescono a fare soldi da soli e per dare loro, anche solo una chance, servono dati, infrastruttura e strumenti costruiti attorno al modello, non il modello in sé.

Un secondo aspetto, ancora più sottile, i modelli sotto lo stesso prompt mostrano vere e proprie "personalità" emergenti. Nell'ultimo ciclo di Alpha Arena, Claude ha mostrato un orientamento strutturale verso le posizioni lunghe, Gemini non ha avuto problemi a stare corto, il modello di Alibaba ha preso rischi aggressivi con leva elevata. Doug Clinton di Intelligent Alpha, una delle poche società che ha messo capitale reale dietro un fondo guidato da modelli linguistici, ha osservato che questi modelli vanno gestiti come si gestirebbe un analista umano: bisogna comunicare loro quando stanno mostrando un orientamento, perché altrimenti continuano a riprodurlo.

A questo punto è doveroso introdurre una distinzione che separa l'analisi seria dal marketing finanziario. Quando si parla di "Intelligenza Artificiale nel trading" si mescolano due cose radicalmente diverse. Il primo modello è il fondo quantitativo. Si costruisce un sistema che prende input dati di mercato storici e si addestra a predire i movimenti futuri.

Renaissance Technologies fa esattamente questo dal 1988 e il suo fondo principale ha generato rendimenti lordi a doppia cifra e in alcuni anni a tripla per oltre tre decenni. Funziona, perché il modello viene addestrato esattamente sul problema che deve risolvere: predire numeri di mercato a partire da numeri di mercato.

Il secondo modello, quello che non funziona, è chiedere a Chat GPT cosa comprare. Si tratta di un sistema addestrato su un corpus di testo per produrre prosa coerente, al quale si chiede di predire numeri di mercato. È un errore metodologico, perché il fatto che il sistema sia molto bravo a parlare di mercati non implica nessuna capacità di prevederli. È come pretendere che il commentatore della partita giochi al posto del centravanti. Parla benissimo di calcio, ma quando entra in campo si vede subito.

Esiste poi un terzo modello, l'unico veramente interessante, che consiste nel collegare un modello linguistico a un'infrastruttura di dati strutturati (documenti finanziari, stime di consenso, trascrizioni di trimestrali, dati macro) usandolo non per predire prezzi, ma per analizzare rapidamente grandi volumi di testo.

Intelligent Alpha ha pubblicato un confronto in cui Chat GPT ha indovinato la direzione delle revisioni di consenso sugli utili nel 68% dei casi. Un risultato significativo, ma siamo lontani dal "compra Nvidia, perché l'Intelligenza Artificiale mi ha detto che salirà." In quella configurazione, il modello fa l'analista junior, non il gestore di portafoglio.

C'è una ragione strutturale, prima ancora che empirica, per cui un modello linguistico generalista non può generare rendimento in eccesso sostenuto. Chat GPT è accessibile a centinaia di milioni di utenti. Se davvero rispondesse correttamente alla domanda "quali titoli saliranno?", sarebbe l'arbitraggio più grande della storia della finanza e durerebbe esattamente il tempo necessario, perché la prima generazione di utenti diventasse ricca.

Tuttavia, il mercato è a somma zero nel breve periodo, cioè non possiamo tutti battere il benchmark contemporaneamente. Una giornalista del Wall Street Journal ha condotto un esperimento in periodo di tensioni sui dazi e ha chiesto consigli a Chat GPT, che ha prodotto raccomandazioni articolate (diversificare in obbligazioni, valutare opzioni di copertura, considerare titoli difensivi, inclusi industriali della difesa come Lockheed Martin).

Il portafoglio suggerito è salito del 5,5% da metà ottobre, contro l'8% dell'indice S&P 500, cioè una sotto-performance del benchmark del 2,5% in sei mesi, esattamente quello che ci si aspetterebbe da una selezione casuale di titoli.

La stessa giornalista ha notato un secondo aspetto, ancora più importante. In alcuni momenti il modello sembrava risponderle quello che lei voleva sentirsi dire.

La funzione obiettivo di un modello linguistico non è massimizzare il portafoglio, ma massimizzare il coinvolgimento.

Se chiedeste a un consulente finanziario cosa fare in un momento di tensione e lui rispondesse "metti giù il telefono e fai una passeggiata", probabilmente vi starebbe dando il miglior consiglio possibile, ma il modello difficilmente lo darà, perché quella risposta non massimizza il coinvolgimento dell'utente.

C'è poi un livello di analisi successivo che la stampa ha largamente trascurato e che costituisce il vero rischio sistemico, associato alla diffusione di questi strumenti. La domanda è semplice: cosa succede quando milioni di investitori pongono la stessa domanda allo stesso modello e ricevono risposte fortemente correlate? La risposta è che avremmo milioni di persone che comprano lo stesso titolo, o la stessa lista di titoli, nello stesso momento.

E in quel preciso istante il dibattito accademico su "i modelli linguistici possono prevedere i mercati?" cessa di essere rilevante, perché si trasforma nella domanda opposta: i modelli linguistici non hanno bisogno di prevedere i mercati, se sono diventati essi stessi un fattore di mercato.

La previsione si auto avvera per pura aritmetica della pressione di acquisto. Il meccanismo ha tre ingredienti. I principali modelli sono addestrati su corpus largamente sovrapposti (l'intero internet pubblico), quindi la loro visione dei mercati è statisticamente molto correlata. Gli utenti pongono domande molto simili, perché le domande sui mercati sono ripetitive. I modelli, ottimizzati per la coerenza, convergono verso risposte convenzionali, cioè i nomi che ritornano più spesso nei loro dati di addestramento. Mettete insieme questi tre elementi e avrete un meccanismo industriale di generazione di consenso, però non un consenso fondato, ma un consenso emergente da statistica linguistica.

Il rischio speculare è altrettanto rilevante. Se milioni di utenti chiedono simultaneamente "i mercati stanno scendendo, cosa devo fare?" e il modello risponde con suggerimenti correlati di vendita, il flusso aggregato può accelerare un ribasso partito per ragioni completamente estranee. I modelli linguistici non sono solo potenziali generatori di rialzi che si auto avverano, ma sono potenziali amplificatori di discese. È la stessa caratteristica che rese sistemici i prodotti assicurativi di portafoglio nel 1987, una pro-ciclicità industrializzata.

In sintesi, i grandi modelli linguistici non sono in grado di gestire denaro autonomamente. I dati di Alpha Arena, degli undici cicli tracciati da Flat Circle e l'esperimento del Wall Street Journal convergono su un quadro coerente:

operazioni troppo frequenti, dimensionamento errato delle posizioni, tempistica di mercato sistematicamente sbagliata, dispersione enorme tra modelli sotto lo stesso prompt, un terzo del capitale evaporato in due settimane.

Sul piano del processo di investimento, i modelli linguistici possono essere strumenti utili di sintesi, lettura di documenti finanziari e analisi di grandi volumi di testo.

Non possono sostituire il giudizio del gestore e qualunque processo che li metta in posizione di decidere autonomamente l'allocazione di capitale è ad oggi incompatibile con un dovere fiduciario serio.

Tuttavia, sul piano del monitoraggio del mercato, tenere traccia di quali titoli vengono "raccomandati" più frequentemente dai principali modelli diventa, con il passare del tempo, un dato di flusso al pari del posizionamento dei fondi algoritmici o delle posizioni corte sugli strumenti indicizzati.

Anticipare quel consenso potrebbe essere un'opportunità, mentre rincorrerlo, una trappola di liquidità. Per chi gestisce capitale di terzi, quella distinzione resta il vero rendimento in eccesso.