5 Previsioni sull’IA per il 2026
Siamo nel pieno di un’ondata di entusiasmo per l’intelligenza artificiale, alimentata da modelli sempre più grandi e demo sbalorditive. Ma...
Affrontare l’estrazione di dati da documenti complessi — specialmente PDF scansionati pieni di tabelle, grafici e testo incorporato in immagini — è una sfida che molti di noi affrontano quotidianamente. L’idea di inviare semplicemente questi file a un potente modello linguistico (LLM) e ottenere in cambio dati puliti e strutturati sembra una soluzione magica.
Questa promessa, tuttavia, nasconde una realtà ben più complicata. Lo ha scoperto Marta Fernández García, sviluppatrice, che ha recentemente condiviso su Medium un’esperienza illuminante sul tema. Il suo articolo, intitolato “Don’t Use LLMs as OCR: Lessons Learned from Extracting Complex Documents“, offre lezioni preziose per chiunque lavori con l’estrazione automatica di dati.
Ho trovato la sua analisi così rilevante — soprattutto per chi, come noi in ITTweb, lavora quotidianamente con integrazioni documentali per clienti B2B — che ho deciso di commentarla e amplificarla

La prima scoperta di Marta riguarda la differenza fondamentale tra usare un’interfaccia consumer come ChatGPT e integrare un LLM tramite API. Quelli che sembrano passaggi “magici” di pre-elaborazione nell’interfaccia utente non sono affatto garantiti quando si interagisce con il modello a livello programmatico.
Per capire meglio il problema, Marta ha condotto un esperimento controllato: ha convertito ogni pagina dei documenti in immagini PNG ad alta risoluzione e ha chiesto esplicitamente all’LLM di agire come sistema OCR.
Il punto chiave: L’API non è un servizio “tutto compreso”. Ciò che funziona con un clic in un’interfaccia web richiede un approccio ingegneristico molto più rigoroso nel backend.
I risultati dell’esperimento di Marta furono rivelatori: sebbene l’estrazione del testo fosse generalmente di buona qualità, un problema critico emerse con i dati numerici. Gli LLM fallivano frequentemente nell’interpretare correttamente i valori.
Come sottolinea Marta, confondere “38,000,000” con “88,000,000” è un errore di una sola cifra, ma in scenari reali può essere catastrofico — a livello finanziario, operativo o legale.
La massima di Marta: “Quando i numeri contano, una correttezza approssimativa non è correttezza.”
Marta ha iniziato a cercare best practice. Sorprendentemente, quasi tutto ciò che trovava online si concentrava sull’uso diretto degli LLM come OCR. La cosa non la convinceva.
Come scrive nel suo articolo: “Non stavo cercando creatività o flessibilità; avevo bisogno di fedeltà e determinismo. Mi serviva una soluzione che estraesse in modo affidabile ciò che era scritto nel documento, non ciò che un modello pensava ci fosse scritto.“
La svolta è arrivata tornando a una soluzione classica: un sistema OCR tradizionale e specializzato, come AWS Textract.
La soluzione finale proposta da Marta non scarta gli LLM, ma li impiega nel modo corretto, creando un flusso di lavoro ibrido:
La formula di Marta: “OCR per l’estrazione. LLM per il ragionamento e la trasformazione.”
C’è un passaggio nell’articolo di Marta che mi ha particolarmente colpito: “Stiamo vivendo un enorme boom dell’intelligenza artificiale generativa, e per questo sta diventando sempre più difficile trovare discussioni su approcci classici e non-generativi a certi problemi.”
Condivido pienamente questa riflessione. L’IA generativa è potente, ma non dovremmo dimenticare che esistono altri metodi che, in molti casi, sono semplicemente migliori. Quando correttezza, fedeltà e determinismo sono cruciali, le soluzioni classiche spesso superano quelle generative.
Nella fretta di adottare l’ultima novità tecnologica,
quali altri strumenti solidi e affidabili rischiamo di dimenticare?
Questo articolo è ispirato e basato sull’esperienza condivisa da Marta Fernández García nel suo post su Medium:
“Don’t Use LLMs as OCR: Lessons Learned from Extracting Complex Documents”
https://medium.com/@martia_es/dont-use-llms-as-ocr-lessons-learned-from-extracting-complex-documents-db2d1fafcdfb
Gli esperimenti, le scoperte e le conclusioni tecniche descritte sono frutto del lavoro di Marta. Ho aggiunto commenti e riflessioni dalla prospettiva di chi, come ITTweb, lavora quotidianamente con integrazioni documentali in contesti B2B.
Marco Macari è CEO di ITTweb, system integrator AI-native con sede a San Marino, specializzato in e-commerce B2B, CRM e digital transformation.