2.1 — Robotica e AI | 💻 Tecnologia

2.1.2 — La singolarità gentile

Siamo nella singolarità? GPT-5 Pro dà risposte a problemi FrontierMath Livello 4 — talmente difficili che, quando vengono risolti, richiedono a esperti matematici settimane di lavoro. GPT-5 ha persino proposto un meccanismo scientifico paragonato alla mossa 37 di AlphaGo^[1] — quella giocata che nessun umano avrebbe concepito. In parallelo, Gemini con Deep Think ha raggiunto il livello di medaglia d'oro all'Olimpiade Internazionale di Matematica^[2] (♾️ ff.135.3 Siamo nella singolarità?). Alex Wissner-Gross descrive la singolarità come un'illusione ottica: da lontano appare come un asintoto verticale, ma “quando ci sei in mezzo, sembra abbastanza continuo.” Sam Altman preferisce parlare di “singolarità gentile”: non un'esplosione improvvisa, ma un'accelerazione che entra nella vita quotidiana senza essere percepita come discontinuità (🕳️ ff.129.1 La singolarità gentile di Altman). Ray Kurzweil, nel 2005, aveva previsto l'AGI entro il 2029^[3]. L'economista Tyler Cowen, in un sondaggio Polymarket del 2025, stima la probabilità al 30% — un anno prima era al 5% (🛠️ ff.123.1 L'AI con il coltellino svizzero). Il rapporto tra pensiero, parole e costruzione del mondo è cruciale: Wittgenstein nel Tractatus scriveva che “il pensiero è l'immagine logica dei fatti”, e i modelli di linguaggio come ChatGPT hanno reso questa connessione ancora più stretta — il linguaggio non descrive più soltanto il mondo, lo genera (🗣️ ff.134.1 Parole, parole, parole…).

L'economista Tyler Cowen, in un sondaggio Polymarket del 2025, stima la probabilità dell'AGI al 30% — un anno prima era al 5%. GPT-5 completa compiti software della durata media di 2 ore e 17 minuti con un tasso di successo del 50%. La macchina non è diventata più veloce: è diventata più tenace.

Ma la singolarità gentile ha le sue prove empiriche, e non sono solo matematiche. Il benchmark METR documenta agenti AI capaci di lavorare ore senza supervisione, coordinandosi tra loro. Il report su GPT-5 rivela un dato che merita di essere letto due volte: il modello completa compiti software della durata media di 2 ore e 17 minuti con un tasso di successo del 50%, contro l’ora e mezza di GPT-3. La macchina non è diventata più veloce: è diventata più tenace. Riesce a portare a termine operazioni che prima abbandonava a metà, gestendo dipendenze, errori a catena, timeout (🤖 ff.144.3 Agenti autonomi e Moltbook).

Per arrivare al metaverso servono tecnologie ancora in fase embrionale, tra cui le interfacce cervello-computer. In una pubblicazione su Nature, un gruppo di ricercatori ha mostrato come convertire il pensiero di un paziente paralizzato in testo scritto, a una velocità di novanta caratteri al minuto e con il novantacinque per cento di confidenza nella traduzione. Al paziente veniva chiesto di immaginare di scrivere a mano determinati caratteri: il sistema traduceva quei movimenti mentali in lettere leggibili. L’interfaccia tra corpo e computer non è più un concetto astratto: è un protocollo che funziona, e la distanza tra pensiero e azione si riduce a ogni esperimento (🦾 ff.3.6 L’integrazione corpo-computer).

Parallelamente alle interfacce cervello-computer, la ricerca esplora architetture che imitano il cervello dall’interno. Dragon Hatchling è un’architettura AI che replica il funzionamento cerebrale con neuroni semplificati e relazioni causa-effetto dirette, collocandosi a metà strada tra i transformer e la corteccia biologica. L’obiettivo non è costruire un cervello artificiale, ma trovare un punto di equilibrio tra la potenza computazionale dei modelli attuali e l’efficienza che la natura ha affinato in milioni di anni di evoluzione.

La ricerca di architetture alternative ai transformer non è solo accademica: ha trovato un miliardo di dollari. AMI, la startup fondata da Yann LeCun dopo Meta, ha raccolto 1,03 miliardi di dollari per sviluppare JEPA^[4] — un’architettura con memoria persistente, ragionamento causale e world models pensata per robotica e healthcare. Se LeCun ha ragione che i LLM non bastano, il prossimo foundation model non parlerà ma agirà.

E la scommessa sui World Models si sta affollando. Per passare da una chat al mondo reale — da ChatGPT a Westworld — secondo molti serve qualcosa in più del next token prediction: nelle azioni fisiche serve capire concetti ma anche collocarli nello spazio e nel tempo. I prossimi OpenAI o Anthropic, quindi, potrebbero essere i World Models. General Intuition^[5] ha costruito proprio questa tesi: i World Models sono una nuova classe di foundation model più potenti dei LLM per ragionamento spaziale e temporale. AMI Labs di Yann LeCun e Physical Intelligence lavorano in parallelo sulla stessa frontiera — quest’ultima ha già mostrato un caso applicativo per cucinare un perfetto grilled cheese sandwich, manipolazione bimanuale inclusa. Se i LLM hanno imparato a parlare scomponendo il linguaggio in token, i World Models stanno imparando a muoversi scomponendo il mondo in geometrie. Non un concorrente del chatbot: un modello di cosa serve perché il chatbot scenda dalla finestra del browser (🌎 ff.148.3 Un mondo là fuori?).

E mentre LeCun punta sulla robotica e General Intuition sullo spazio, altri puntano direttamente sulla scienza. Lila Sciences ha raccolto 235 milioni di dollari a una valutazione di 1,23 miliardi con l’obiettivo dichiarato di costruire superintelligenza scientifica — non un’AGI generalista per chatbot, ma un’AI che scopra. Se il laboratorio del Novecento era un edificio con tavoli e microscopi, il laboratorio del 2030 potrebbe essere un datacenter con un workflow di ipotesi-esperimento-iterazione a velocità algoritmica. La domanda è se la scienza tradizionale, con i suoi cicli di peer review da 18 mesi, possa reggere il confronto con un’AI che formula e testa in tempo reale migliaia di ipotesi. Non è più solo la questione dell’AGI: è la questione di chi scriverà il prossimo paper di rottura.

Ma l'AI non si limita ad agire: comincia a guardare dentro la mente stessa. Anthropic, l'azienda fondata da fuoriusciti di OpenAI, ha fatto qualcosa di inedito: ha vivisezionato i pensieri di Claude, scomponendo il modello in componenti interpretabili^[6]. Certi assembramenti di “neuroni artificiali” si attivano in modo specifico per sport, numeri, sequenze di DNA — pattern che ricordano da vicino le aree specializzate della corteccia cerebrale umana. L'obiettivo dichiarato è rendere meno opachi gli output dei modelli linguistici, ma il sottoprodotto è forse più importante dell'obiettivo: studiando come le reti neurali hanno interiorizzato il concetto di tempo^[7], stiamo capendo meglio come lo interiorizza il nostro cervello. La ricorsività è vertiginosa: costruiamo una mente artificiale per capire quella biologica, e la mente biologica usa quella artificiale per capire sé stessa. Meta ha già portato questo loop al livello successivo: il modello TRIBE, con un miliardo di parametri, è il primo a predire le risposte cerebrali agli stimoli^[8], mentre un altro modello decifra il monologo interiore dall'attività cerebrale con un'accuratezza fino al 74%. La critica storica ai LLM — casualità, scarsa riproducibilità, opacità — si sta trasformando nel suo opposto: proprio perché non capiamo come pensano, li stiamo usando come specchi per capire come pensiamo noi (🔎 ff.83.5 Capire il cervello con l’AI). Se i modelli ci aiutano a capire il cervello, altri modelli stanno superandolo del tutto. Come AlphaGo, battuto poi da AlphaZero — che si è auto-allenato senza mai vedere una partita umana. David Silver e Richard Sutton, pionieri del reinforcement learning, dichiarano l’“Era dell’Esperienza”: agenti autonomi che esplorano senza conferme umane^[9]. DreamerV3 di Google/DeepMind, senza aver mai visto giocare Minecraft, in 100 milioni di passi ha imparato a rompere alberi, costruire bastoni, migliorare picconi^[10], fino al primo blocco di diamante. L’uomo è il collo di bottiglia. Contropunto: Dan Hendrycks del Center for AI Safety avverte che lasciare evolvere l’AI in modo indipendente potrebbe essere la nostra fine^[11] (💎 ff.123.2 Minecraft oltre l’uomo).

Il modello TRIBE di Meta, con un miliardo di parametri, è il primo a predire le risposte cerebrali agli stimoli, mentre un altro modello decifra il monologo interiore dall'attività cerebrale con un'accuratezza fino al 74%. Costruiamo una mente artificiale per capire quella biologica, e la mente biologica usa quella artificiale per capire sé stessa.

E se la trasparenza è il primo passo, il secondo è la profondità. Con il lancio di o1 (Project Strawberry), OpenAI ha introdotto un cambio di paradigma che merita un nome preciso: ragionamento deliberato. GPT-4 era il modello del pettegolo — la risposta veloce, la chiacchiera da bar, l'intuizione brillante ma superficiale. o1, prima di parlare, pensa. Il paper Learning to Reason with LLMs^[12] dettaglia la svolta: nei modelli precedenti, più parametri e più dati durante il training producevano risultati migliori. Con o1, il salto avviene dopo l'allenamento — aumentando le risorse allocate al momento della risposta, il modello esplora alberi di riflessione interni (chain of thought) più profondi, valutando e scartando ipotesi prima di convergere. È la differenza tra chi spara la prima cosa che gli viene in mente e chi si prende trenta secondi per pensare — e quei trenta secondi, nei benchmark matematici e di coding, valgono decine di punti percentuali. Il report METR su GPT-5, già citato, conferma la traiettoria: la macchina non è solo diventata più intelligente, è diventata più paziente. E la pazienza, nell'era dell'attenzione frammentata, potrebbe essere la forma di intelligenza più sottovalutata (🍓 ff.103.1 Prima di parlare, pensa).

Per toccare con mano cosa significa ragionare combinando strumenti, basta un gioco. Ethan Mollick ha fatto giocare o3 a GeoGuessr^[13] — il gioco dove devi indovinare dove sei nel mondo da un’immagine — e il modello ha combinato mappe, screenshot e ragionamento spaziale per localizzare i luoghi. L’autore gli ha poi chiesto quando il sole sarebbe sorto tra due monti visibili dalla finestra^[14]: o3 ha identificato i monti, usato formule astronomiche e ipotizzato un margine di errore in base alla posizione dell’osservatore — se sul sagrato o nel parcheggio del cimitero. Non è solo ragionamento: è ragionamento spaziale con strumenti (🗺️ ff.123.3 Il nuovo campione di GeoGuessr: o3).

La pazienza dei modelli trova un avvocato inatteso in Marc Andreessen. Nel suo saggio Why AI Will Save the World^[15], il cofondatore di a16z smonta sistematicamente le tre paure dominanti: la sostituzione lavorativa, il rischio esistenziale delle paper clips e la corsa agli armamenti con la Cina. L’argomento storico-filosofico è il più affilato: ogni tecnologia trasformativa — dalla stampa all’elettricità — ha generato lo stesso ciclo di panico morale, e il bilancio a vent’anni è stato sempre nettamente positivo. Andreessen inserisce il problema dell’alignment non come ostacolo ma come disciplina ingegneristica risolvibile, paragonandolo ai protocolli di sicurezza nucleare: pericolosi se ignorati, gestibili se presi sul serio. Il saggio non è privo di punti ciechi — sottovaluta la concentrazione di potere nelle mani di chi controlla i modelli — ma offre un antidoto al catastrofismo che paralizza il dibattito pubblico. Perché il vero rischio dell’AI non è che ci sostituisca: è che il panico ci impedisca di usarla dove serve davvero, dalla diagnostica medica alla decarbonizzazione delle reti energetiche (📜 ff.67.2 Due articoli).

Andreessen non è stato l’unico a piantare una bandiera ottimista. Lux Capital già assegnava il 2024 ai libri di storia^[16]. Il 2023 si è chiuso con il Techno-Optimist Manifesto di Marc Andreessen^[17] — esagerato e idealista, come ogni manifesto deve essere. Le frasi più taglienti: “Stiamo letteralmente facendo pensare la roccia, la sabbia, il silicio.” E ancora: “Crediamo che la popolazione mondiale possa raggiungere i 50 miliardi di persone e diffondersi su altri pianeti.” Il nemico dichiarato è la stagnazione — anti-meritocrazia, anti-ambizione, burocrazia, veto-crazia. In chiusura, una lista di “santi laici”: Andy Warhol, Bertrand Russell, Jeff Bezos, Filippo Tommaso Marinetti. Nel frattempo anche George Hotz, il nerd dietro il primo jailbreak di iPhone^[18], ha pubblicato il proprio manifesto. L’ottimismo tecnologico non è una posizione scientifica: è un atto di fede laica, con tanto di credo e santi (➕ ff.81.1 Il tecno-ottimismo).

Le capacità del nuovo modello o1 sono sorprendenti dove esiste una risposta univoca. In 5 minuti ha riprodotto un filtro per buchi neri che era costato 10 mesi di lavoro a un ricercatore NASA. E @Maximlott ha sottoposto o1 al test MENSA^[19] usando domande non pubbliche per ridurre la probabilità di averle memorizzate: risultato, QI intorno a 100, ovvero media umana. Più del numero, sorprende il delta: GPT-4 stazionava a 60, o1 balza a 100 in una sola generazione di modelli. (🎓 ff.103.2 NASA, MENSA e QI).

Quando l'AI ottimizza l'AI, la curva di Wright si auto-accelera. AlphaEvolve ha scoperto varianti algoritmiche per l'inference di Gemini con -74% di memoria, 6.8x di runtime^[20], riducendo i costi di inferenza Google a parità di output. Un modello che riscrive il codice che fa girare un altro modello: la legge dei costi dell'AI sta piegandosi più velocemente di Moore.

Il lavoro d'ufficio più noioso del mondo — la slide di PowerPoint — è stato tra i primi a cadere sotto l'AI generativa. Fabian Stelzer ha mostrato che si può ottenere una presentazione intera da un solo prompt (ad esempio «How To Survive In The Wilderness: A Practical Guide» in stile illustrazioni anni '80), con immagini generate dall'AI e narratore animato via Synthesia. La slide diventa output di pipeline invece che manufatto artigianale: lo stesso destino che aspetta report, pitch e training material aziendali. Presentazioni Powerpoint^[21] (👨‍🏫 ff.40.3 Presentazioni Powerpoint).

🕳️ 2.1.2 — La singolarità gentile

2.1.2 — La singolarità gentile

Fonti esterne citate in 2.1.2