LLM come OCR: Perché Non Funziona e Cosa Usare Invece

Affrontare l’estrazione di dati da documenti complessi — specialmente PDF scansionati pieni di tabelle, grafici e testo incorporato in immagini — è una sfida che molti di noi affrontano quotidianamente. L’idea di inviare semplicemente questi file a un potente modello linguistico (LLM) e ottenere in cambio dati puliti e strutturati sembra una soluzione magica.

Questa promessa, tuttavia, nasconde una realtà ben più complicata. Lo ha scoperto Marta Fernández García, sviluppatrice, che ha recentemente condiviso su Medium un’esperienza illuminante sul tema. Il suo articolo, intitolato “Don’t Use LLMs as OCR: Lessons Learned from Extracting Complex Documents“, offre lezioni preziose per chiunque lavori con l’estrazione automatica di dati.

Ho trovato la sua analisi così rilevante — soprattutto per chi, come noi in ITTweb, lavora quotidianamente con integrazioni documentali per clienti B2B — che ho deciso di commentarla e amplificarla

Lezione 1: L’illusione dell’interfaccia

La prima scoperta di Marta riguarda la differenza fondamentale tra usare un’interfaccia consumer come ChatGPT e integrare un LLM tramite API. Quelli che sembrano passaggi “magici” di pre-elaborazione nell’interfaccia utente non sono affatto garantiti quando si interagisce con il modello a livello programmatico.

Per capire meglio il problema, Marta ha condotto un esperimento controllato: ha convertito ogni pagina dei documenti in immagini PNG ad alta risoluzione e ha chiesto esplicitamente all’LLM di agire come sistema OCR.

Il punto chiave: L’API non è un servizio “tutto compreso”. Ciò che funziona con un clic in un’interfaccia web richiede un approccio ingegneristico molto più rigoroso nel backend.

Lezione 2: Il pericolo dei numeri

I risultati dell’esperimento di Marta furono rivelatori: sebbene l’estrazione del testo fosse generalmente di buona qualità, un problema critico emerse con i dati numerici. Gli LLM fallivano frequentemente nell’interpretare correttamente i valori.

Come sottolinea Marta, confondere “38,000,000” con “88,000,000” è un errore di una sola cifra, ma in scenari reali può essere catastrofico — a livello finanziario, operativo o legale.

La massima di Marta: “Quando i numeri contano, una correttezza approssimativa non è correttezza.”

Lezione 3: La soluzione dimenticata

Marta ha iniziato a cercare best practice. Sorprendentemente, quasi tutto ciò che trovava online si concentrava sull’uso diretto degli LLM come OCR. La cosa non la convinceva.

Come scrive nel suo articolo: “Non stavo cercando creatività o flessibilità; avevo bisogno di fedeltà e determinismo. Mi serviva una soluzione che estraesse in modo affidabile ciò che era scritto nel documento, non ciò che un modello pensava ci fosse scritto.“

La svolta è arrivata tornando a una soluzione classica: un sistema OCR tradizionale e specializzato, come AWS Textract.

Lezione 4: Il flusso di lavoro vincente

La soluzione finale proposta da Marta non scarta gli LLM, ma li impiega nel modo corretto, creando un flusso di lavoro ibrido:

Fase 1 — Estrazione con OCR: Un sistema OCR specializzato analizza il documento, rileva la sua struttura ed estrae i dati grezzi con altissima fedeltà.
Fase 2 — Elaborazione con LLM: Solo dopo aver ottenuto dati puliti, questi vengono passati a un LLM per ristrutturare le informazioni, migliorare la leggibilità, formattare l’output.

La formula di Marta: “OCR per l’estrazione. LLM per il ragionamento e la trasformazione.”

Riflessione finale

C’è un passaggio nell’articolo di Marta che mi ha particolarmente colpito: “Stiamo vivendo un enorme boom dell’intelligenza artificiale generativa, e per questo sta diventando sempre più difficile trovare discussioni su approcci classici e non-generativi a certi problemi.”

Condivido pienamente questa riflessione. L’IA generativa è potente, ma non dovremmo dimenticare che esistono altri metodi che, in molti casi, sono semplicemente migliori. Quando correttezza, fedeltà e determinismo sono cruciali, le soluzioni classiche spesso superano quelle generative.

Nella fretta di adottare l’ultima novità tecnologica,
quali altri strumenti solidi e affidabili rischiamo di dimenticare?

Fonte e Attribuzioni

Questo articolo è ispirato e basato sull’esperienza condivisa da Marta Fernández García nel suo post su Medium:

“Don’t Use LLMs as OCR: Lessons Learned from Extracting Complex Documents”
https://medium.com/@martia_es/dont-use-llms-as-ocr-lessons-learned-from-extracting-complex-documents-db2d1fafcdfb

Gli esperimenti, le scoperte e le conclusioni tecniche descritte sono frutto del lavoro di Marta. Ho aggiunto commenti e riflessioni dalla prospettiva di chi, come ITTweb, lavora quotidianamente con integrazioni documentali in contesti B2B.

Marco Macari è CEO di ITTweb, system integrator AI-native con sede a San Marino, specializzato in e-commerce B2B, CRM e digital transformation.

Perché Non Dovresti Usare gli LLM come OCR 4 Lezioni da un’Esperienza Sul Campo

Quando la precisione conta, le soluzioni "classiche" battono ancora l'IA generativa

Lezione 1: L’illusione dell’interfaccia

Lezione 2: Il pericolo dei numeri

Lezione 3: La soluzione dimenticata

Lezione 4: Il flusso di lavoro vincente

Riflessione finale

Fonte e Attribuzioni

Unisciti alla Newsletter

Perché Non Dovresti Usare gli LLM come OCR 4 Lezioni da un’Esperienza Sul Campo

Quando la precisione conta, le soluzioni "classiche" battono ancora l'IA generativa

Lezione 1: L’illusione dell’interfaccia

Lezione 2: Il pericolo dei numeri

Lezione 3: La soluzione dimenticata

Lezione 4: Il flusso di lavoro vincente

Riflessione finale

Fonte e Attribuzioni

Unisciti alla Newsletter

5 Previsioni sull’IA per il 2026

Oltre l’Hype: 4 Sorprendenti Verità sul Futuro della Tecnologia che Devi Conoscere

Una Nuova Frontiera per la Valutazione dei Large Language Models