Chat-GPT

ChatGPT O1: ecco come funziona il modello di OpenAI che ragiona prima di rispondere

Capacità avanzate e compromessi operativi di o1 di OpenAI

Carlo D'Angiò · 15 Set 2024 · 5 min di lettura

L’ultimo modello di OpenAI si chiama o1, ed è in ChatGPT. Si distingue dai modelli precedenti come GPT-4o, GPT-4 e persino da altri modelli come Claude, Gemini e LLaMA.

Ma come funziona? E quali sono i suoi punti di forza e, diciamolo, anche i suoi aspetti meno performanti in termini di velocità?

Parliamone!

Cos’è ChatGPT o1 e come funziona?

Il modello o1 di OpenAI rappresenta l’ultima iterazione focalizzata sul ragionamento avanzato e sull’elaborazione della catena di pensiero.

A differenza dei modelli precedenti come GPT-4o o GPT-4, o1 è stato progettato specificamente per “pensare” prima di rispondere. Questo significa che non si limita a generare testo, ma esegue diversi passaggi di ragionamento per risolvere problemi complessi prima di fornire una risposta. Questo approccio lo rende superiore nelle attività che richiedono un ragionamento dettagliato, come la risoluzione di problemi matematici o sfide di programmazione. È più o meno come noi: pensiamo prima di parlare.

Sfortunatamente, proprio come accade a volte a noi, questo processo di riflessione prima di rispondere rende o1 significativamente più lento rispetto ai modelli precedenti. In alcuni casi, può persino non fornire risposte.

Catena di pensiero

Quando poni una domanda, ci vuole più tempo perché il modello impiega maggiore elaborazione per l’inferenza. In pratica, si prende il tempo per riflettere e perfezionare la sua risposta. È simile a chiedere di “pensare passo dopo passo” utilizzando la tecnica Chain-of-Thought (Catena di pensiero), ma o1 lo fa automaticamente ogni volta. Questo perché il modello è stato ulteriormente addestrato con l’apprendimento per rinforzo per costringerlo a pensare passo dopo passo e riflettere prima di rispondere. Sfortunatamente, non ci sono dettagli sul set di dati utilizzato per questo addestramento, se non che è “in un processo di addestramento altamente efficiente in termini di dati”.

Sebbene i risultati finora siano impressionanti, dovremo attendere per vedere se gli utenti apprezzeranno il fatto che ci vuole molto più tempo per ottenere risposte di qualità.

Tuttavia, ci sono alcuni aspetti molto interessanti da considerare…

Differenze chiave tra o1 e GPT-4o

Prima di tutto, ciò che distingue veramente ChatGPT o1 da modelli come GPT-4o sono le sue avanzate capacità di ragionamento integrate. Nei test, o1 ha superato GPT-4o in attività che richiedono un ragionamento intenso, come la codifica, la risoluzione di problemi e i benchmark accademici. Una delle caratteristiche più importanti di o1 è la sua capacità di concatenare i pensieri, il che significa che è meglio equipaggiato per affrontare problemi a più fasi, dove i modelli precedenti avrebbero potuto incontrare difficoltà.

Ad esempio, in compiti come le competizioni di matematica e le sfide di programmazione, o1 è stato in grado di risolvere problemi significativamente più complessi. In media, o1 ha ottenuto punteggi molto più alti in benchmark come l’AIME (American Invitational Mathematics Examination), risolvendo il 74% dei problemi rispetto al 9% di GPT-4o.

ChatGPT o1 in American Invitational Mathematics Examination

Compromesso tra tempo di inferenza e prestazioni

È qui che i punti di forza di o1 si trasformano in potenziali debolezze. Sebbene il modello sia notevolmente più abile nel ragionamento, questo vantaggio comporta un aumento del tempo di inferenza e del numero di token utilizzati. Il processo di ragionamento basato sulla catena di pensiero rende o1 più lento rispetto a GPT-4o, poiché dedica più tempo all’analisi dei problemi durante l’inferenza.

È interessante osservare come sia stata esplorata un’altra direzione, che migliora significativamente i risultati e diventa ora praticabile grazie ai recenti progressi nell’efficienza della generazione di token da parte dei modelli più recenti. Questi miglioramenti riducono continuamente i costi di generazione e la latenza. Tuttavia, ciò comporta un aumento significativo sia dei costi che della latenza.

Questa variazione di latenza si manifesta particolarmente nelle attività che richiedono al modello di gestire ragionamenti complessi e a più fasi. Pertanto, se si utilizza o1 per compiti rapidi e semplici, potrebbe apparire leggermente più lento rispetto a modelli come GPT-4o-mini o Claude. In sostanza, si tratta del compromesso tra velocità e profondità di comprensione.

Riduzione delle Allucinazioni

Un altro aspetto in cui ChatGPT o1 si distingue è la diminuzione delle allucinazioni, ossia quei casi in cui il modello fornisce informazioni inventate. Nei test effettuati, o1 ha mostrato un numero di allucinazioni notevolmente inferiore rispetto a GPT-4o, specialmente in compiti dove l’accuratezza dei dati è cruciale. Ad esempio, nel test SimpleQA, o1 ha registrato un tasso di allucinazioni di soli 0,44, contro 0,61 per GPT-4o. Questo rende o1 più affidabile per attività in cui è fondamentale ottenere informazioni corrette e precise.

test SimpleQA

Conclusioni

o1 non rappresenta un grande passo avanti, ma piuttosto un modello migliorato che implementa la catena di pensiero già utilizzata da molti di noi in precedenza. Il problema principale è che richiede più tempo per generare le risposte ed è più costoso a causa dell’uso maggiore di token, motivo per cui molte persone hanno smesso di utilizzarlo.

Tuttavia, sembra che OpenAI abbia deciso di investire completamente in questa direzione. In effetti, o1 è più lento rispetto a modelli come GPT-4o perché dedica più tempo al ragionamento sui problemi. Tuttavia, se hai bisogno di un modello che eccelle nella risoluzione di attività complesse, o1 è la scelta ideale.

Carlo D'Angiò

Carlo D'Angiò

Proprietario di questo sito e creatore di Carlissimo Me

19 anni di blogging e infomarketing. Decine di eBook scritti, venduti… e puntualmente scopiazzati da chi non ha più un’idea manco sotto tortura. Corsi che hanno generato milioni, e centinaia di webinar dove ho visto tutto: chi vola, chi si schianta, chi riappare anni dopo dicendo “avevi ragione tu”.

Scopri di più »

0 commenti

Invia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *