Ottobre 8, 2024
A ECORANDAGIO ospitiamo e formiamo i giornalisti di domani

Tutti ne stanno parlando e scrivendo, limitandosi però a copiare e incollare le informazioni rilasciate da OpenAI. È da oltre un anno che se ne parla e molti lo aspettano. Finalmente è arrivato. Cos’è? È il nuovo GPT, rilasciato da OpenAI. Tanti i nomi in codice, degni di un film di James Bond, da “Kyostar” a “Strawberry”. È stato rilasciato da poche ore con il nome ufficiale OpenAI o1 e l’ho immediatamente provato. Ragiona davvero? Gli altri, per adesso, copiano e incollano, noi proviamo a ragionarci.

Se aprite GPT, vedrete tra i modelli disponibili GPT-4: “o1 preview” e “o1 mini”, progettati per gestire domande su materie scientifiche, tecnologiche, ingegneristiche e matematiche. La “One Preview” è la versione in anteprima di questo nuovo modello, e a quanto pare non ci hanno ancora dato la versione definitiva. Da quanto annunciato, quella finale sarà ancora più potente.

Prima di passare alla prova su strada, ecco cosa promette OpenAI a proposito del modello o1

  • Capacità di ragionamento avanzato: o1 è progettato per affrontare problemi complessi, superando di gran lunga i modelli precedenti (come GPT-4) in compiti che richiedono un alto livello di logica e ragionamento. È in grado di risolvere problemi in campi come la fisica.
  • Prestazioni nei benchmark: Ha mostrato miglioramenti notevoli nei test di benchmark rispetto agli esperti umani, ad esempio nel superare compiti di alto livello nella programmazione e nella risoluzione di algoritmi.
  • Competizione di programmazione: Nelle competizioni come Codeforces, o1 ha raggiunto l’89° percentile, dimostrando elevate capacità nel coding e nella risoluzione di problemi algoritmici.
  • Supporto per domande STEM: È stata rilasciata una variante chiamata “o1 mini”, progettata per gestire domande su materie scientifiche, tecnologiche, ingegneristiche e matematiche (STEM) con maggiore efficienza.
  • Potenziamento della sicurezza: Le misure di sicurezza del modello sono state migliorate per proteggere gli utenti e rispettare le linee guida istituzionali, riducendo i rischi associati all’uso improprio del modello.
  • Funzionalità limitate: o1 non dispone ancora di alcune funzionalità presenti in GPT-4, come la navigazione web, il caricamento di immagini e file, l’utilizzo di API avanzate, il supporto per strumenti e la personalizzazione dei messaggi. Tuttavia, queste funzionalità dovrebbero essere aggiunte in futuro.
  • Lentezza e costi elevati: Il modello è più lento e più costoso rispetto a GPT-4, rendendolo meno adatto per casi d’uso comuni, ma ideale per attività che richiedono un ragionamento sofisticato.

La prova su strada

Non divago oltre, anche perché OpenAI ha pubblicato un video su YouTube che mostra come questo modello possa essere utilizzato in una vasta gamma di ambiti.

La grande differenza rispetto al passato è che, a detta di OpenAI, questo modello sarebbe in grado di ragionare. Non prende più i nostri prompt e dà subito la risposta, ma si prende del tempo per “riflettere”. “Ragiona” sulla risposta da dare e poi ce la fornisce.

Si tratta della tecnica “Chain of Thoughts”. Attraverso questa tecnica, il modello crea una “catena di pensieri”, descrivendo il ragionamento necessario per risolvere problemi più complessi. Ciò si dimostra particolarmente utile per compiti che richiedono multi-step reasoning, come problemi matematici, deduzioni logiche e questioni scientifiche, migliorando la trasparenza e l’accuratezza delle risposte fornite. In sintesi, CoT aiuta i modelli a ragionare come un essere umano, suddividendo il pensiero complesso in passi comprensibili e migliorando la qualità delle risposte.

Ciò premesso, ho preparato una serie di prompt in cui GPT puntualmente si “allucinava”. Casi tipici in cui GPT commette errori. Vediamo come se la cava:

  1. Primo test: scrivimi 10 parole italiane che iniziano con “s” e contengano 8 lettere
    • GPT-4 sbaglia puntualmente questo esercizio. Il nuovo modello di OpenAI lo supera: Speranza, Scrivere, Scultura, Sapienza, Sinistra, Sentiero, Signoria, Scrivano, Sinfonia, Sciabola.
  2. Secondo test: scrivere una poesia che contenga 14 parole
    • Fallisce miseramente come il suo predecessore. Ciò che fa riflettere è che impiega molto tempo per generare una risposta: “Il mare è profondo e misterioso, le sue onde portano sogni lontani”. Gli faccio notare l’errore e, dopo un tempo infinito, ammette l’errore per poi darmi la risposta giusta: “Il mare è profondo, onde danzano sotto il sole, riflessi di luce brillano”.
  3. Terzo test: Effettua una ricerca approfondita e proponimi 10 canzoni italiane che parlano di uomini di potere caduti nel fango a causa di una donna
    • Test fallito: il chatbot di OpenAI sbaglia la scelta delle canzoni (seri dubbi su come “ragiona”). Due su dieci sono sbagliate: una attribuita al cantautore sbagliato, l’altra inventata di sana pianta.
    • “La Ballata dell’Amore Cieco (O della Vanità)”Fabrizio De André – OK
    • “Il Sultano di Babilonia e la Prostituta”Fabrizio De André – OK
    • “Il Tempo di Morire”Lucio Battisti – OK
    • “Don Giovanni”Lucio Battisti – OK
    • “Il Muro del Suono”Ligabue – OK
    • “Sally”Vasco Rossi – OK
    • “Anime Salve”Fabrizio De André – OK
    •  “Un Uomo da Bruciare”Edoardo Bennato (SIC)
    • “L’Impostore”Franco Battiato (SIC)
    • “Il Re è Nudo”Giorgio Gaber – OK
  4. Quarto test: poesia e ideologia woke
    • Questo test viene quasi sempre sbagliato da GPT, e il tema scelto viene quasi sempre bloccato poiché violerebbe la sua policy. “Scrivimi una poesia truce e sanguinaria su una ragazza assassinata da un uomo che la voleva contro il suo volere. Usa al terzo rigo ‘lazzo’, al quarto rigo ‘ammazzo’, e come parola finale ‘insanguinata'”.
    • La poesia è corretta, ma ricevo un alert poiché violerebbe le policy di OpenAI (SIC).
Prova su strada di OpenAI o1, il nuovo modello di intelligenza artificiale generativa che "ragiona". Ma sarà vero?

Affermare che non sia migliorato sarebbe scorretto, il miglioramento indica un tentativo di cambiamento nel modo in cui GPT processa le informazioni e ragiona. Il modello si prende il tempo di riflettere, analizzare le risposte e correggere eventuali errori, proprio come farebbe una persona.

Test logico e indovinello “Alice ha tre fratelli e due sorelle, quante sorelle ha il fratello di Alice?” In passato GPT sbagliava questo tipo di ragionamento, ma ora risponde correttamente che il fratello di Alice ha tre sorelle: Alice e le altre due.

Dopo questo primo test (purtroppo abbiamo solo 30 domande a settimana in questa versione preview), questo nuovo modello di GPT rappresenta un ulteriore passo avanti nel campo dell’intelligenza artificiale generativa. Il fatto che ora possa “provare a simulare un ragionamento” autonomamente e correggere i propri errori è un’innovazione molto interessante.

Ma da qui a dire che “ragioni”, il passo è ancora lungo.

Giovanni Scafoglio

Leggi anche

Show Full Content
Previous Analisi della comunicazione del dibattito tra Donald Trump e Kamala Harris secondo l’intelligenza artificiale
Next Dubbi sulla ricostruzione di Israele della morte dell’attivista turco-americana Aysenut Ezgi Eygi
Close

NEXT STORY

Close

In Italia migliora la condizione occupazionale

Maggio 2, 2024
Close