Extracció de dades de factures amb IA: com muntar el pipeline
Les factures de proveïdors consumeixen 6-10 hores a la setmana en una empresa mitjana. Com automatitzar l'extracció sense tocar l'ERP.
En cada Diagnòstic Flash amb una directora financera o d'operacions apareix la mateixa escena: algú de l'equip dedica entre 6 i 10 hores a la setmana a rebre factures de proveïdors per correu, descarregar-les, obrir-les una a una, copiar l'import, data, número de factura, NIF i concepte a l'ERP. A vegades hi ha errors. A vegades falta una factura. A vegades es cola un duplicat. El procés no escala — duplicar l'empresa significa duplicar la persona dedicada a això.
L'extracció de dades de factures amb IA és un dels processos on el patró funciona millor a escala mid-market. Compleix les tres proves de viabilitat: volum clar (200-2.000 factures/mes en empreses de 50-500 persones), dades en format raonablement estructurat (PDFs amb camps repetitius) i decisió amb marge d'error tolerable (un camp mal extret es corregeix abans de tocar l'ERP). Aquí tens el pla que apliquem per deixar-ho en producció en 2 a 4 setmanes sense tocar el teu ERP.
Per què començar per factures i no per una altra cosa
Abans de començar: les factures són el cas d'ús d'IA aplicada amb millor ROI per a mid-market que coneixem. Tres raons:
-
El procés ja està documentat. Cada empresa té una manera de processar factures. No estàs inventant un flux nou — estàs automatitzant un que ja existeix i que l'equip entén.
-
L'estalvi és mesurable i obvi. 6-10 hores/setmana × 52 setmanes × tarifa interna = entre 15.000 i 30.000 €/any recuperats d'una sola persona. I normalment afecta més d'una.
-
L'humà segueix revisant al començament. Si la IA s'equivoca en un camp, el revisor el corregeix abans de ficar-ho a l'ERP. Risc baix, aprenentatge ràpid.
Pas a pas: cinc passos
Cataloga els teus tipus de factura
No totes les factures són iguals. Demana a l'equip 50-100 factures dels últims 3 mesos i agrupa-les en categories per proveïdor o per format. Veuràs que el 80% segueix 3-5 plantilles repetides (el proveïdor X sempre envia el mateix PDF, Y envia Excel, Z envia imatge escanejada). Això et diu quins casos són de volum alt i prioritaris, i quins són rareses que no val la pena automatitzar al començament.
Tria el motor de raonament segons el cas
Tres famílies d'opcions realistes el 2026:
- LLMs amb visió (Claude, GPT-4o, Gemini): llegeixen PDFs i imatges directament, retornen JSON estructurat. Millor balanç qualitat/cost quan els documents són llegibles.
- OCR especialitzat + LLM: si les teves factures són escanejades de baixa qualitat o tenen taules complexes, una passada d'OCR (Azure Document Intelligence o AWS Textract) abans del LLM millora la fiabilitat.
- Models a VPC pròpia: si les dades no poden sortir de la teva infraestructura per compliance, models open-source desplegats a Azure o AWS dins la teva xarxa privada.
La decisió depèn del cas concret: privacitat de les dades, qualitat de les factures i volum. No tenim un default que recomanem a tothom.
Munta el pipeline
Patró mínim en cinc capes:
- Entrada: correu dedicat, carpeta compartida monitoritzada, o webhook des del teu sistema de bústia entrant.
- Orquestració: un servei propi sobre Azure Functions o AWS Lambda — el codi viu on tu vols, no a una plataforma de tercers.
- Processament: el model de raonament extreu els 8 camps clau (proveïdor, NIF, data, número, import sense IVA, IVA, total, concepte/línia). JSON estricte.
- Capa intermèdia: una base de dades pròpia on aterra el resultat amb estat "pendent_revisió" i referència al PDF original.
- Sortida: notificació al revisor amb enllaç a la factura i al registre. Sense tocar l'ERP encara.
Sense tocar el teu ERP. La integració a l'ERP és el pas 5, quan ja confies en les dades.
Humà al bucle durant 4 setmanes
Les primeres 4 setmanes el revisor obre cada factura processada, compara els 8 camps extrets amb l'original i corregeix el que estigui malament. Porta un comptador simple: "vegades que la IA va encertar / vegades que vaig haver de corregir cada camp". Després de 200-400 factures tindràs mètriques reals per camp: probablement "import total" encertarà el 99%, "concepte/línia" potser només el 85%.
Això no és overhead — és exactament el que estalviava temps des del primer dia (el revisor ja no transcriu, només confirma). I et dóna les dades per decidir el pas següent.
Passa a auto els camps d'alta confiança
Quan un camp té >97% d'encert consistent durant 3 setmanes seguides, passa a inserció automàtica a l'ERP per a aquest camp. Els camps amb menys confiança segueixen requerint confirmació. El revisor passa de revisar-ho tot a revisar només els casos que la IA marca com a "baixa confiança" o els proveïdors nous sense històric.
Connexió a l'ERP: si el teu ERP té API (Business Central, Dynamics 365, Sage X3), inserció directa contra l'endpoint corresponent. Si té un mòdul de pre-assentament o staging, millor passar per allà. Si no, escriure a la capa intermèdia i que la teva integració existent la importi.
Errors comuns
Prompt massa general. "Extreu totes les dades d'aquesta factura" dóna resultats inconsistents. Demana els 8 camps específics pel nom, dóna exemples de format esperat ("data: YYYY-MM-DD", "import: número amb dos decimals sense moneda") i obliga a tornar JSON estricte. Fet una vegada al començament, això augmenta la fiabilitat significativament.
No guardar la factura original. Si només guardes els camps extrets, quan algú disputi una dada no tens prova. Emmagatzema el PDF original amb la mateixa key que el registre extret, en blob storage (Azure Blob, S3) amb retenció segons la teva política fiscal.
Saltar-se la revisió humana del començament. És temptador connectar directe a l'ERP i "confiar". El primer mes aquesta confiança no existeix — els models varien, els proveïdors canvien format. Les 4 setmanes de revisió són la diferència entre un projecte que sobreviu i un que es desconnecta quan apareixen errors en producció.
El que es replica després
El patró que muntes per a factures no s'acaba aquí. La infraestructura d'orquestració, emmagatzematge i revisió que has construït serveix per als processos següents:
- Albarans i parts de treball amb el mateix patró d'extracció.
- Contractes amb extracció de clàusules clau.
- Tiquets de suport amb classificació i enrutament.
- Respostes comercials amb generació contextual.
Cada un reutilitza el 70% de la plataforma. L'equip aprèn, els següents projectes costen menys.
🎯 Key Takeaway
Automatitzar l'extracció de factures amb IA és el projecte de major ROI i menor risc per començar a mid-market. Patró: servei propi a cloud (Azure/AWS) + model de raonament segons el cas + capa intermèdia + revisió humana 4 setmanes + pas a auto per camp segons confiança. Total: 2-4 setmanes d'implementació, ROI clar al primer trimestre.
El pas següent si t'encaixen els números
Si gestiones més de 200 factures al mes a mà i reconeixes el cost ocult, el cas de negoci està fet.
El Diagnòstic Flash són 30-45 minuts per videotrucada en què veiem el teu volum real, identifiquem els tipus de factura que val la pena automatitzar i et lliurem un pla d'una pàgina amb cost i termini. És gratuït i sense compromís.
Serveis Relacionats
Articles Relacionats
Vols parlar sobre aquest tema?
Reserva una sessió d'estratègia gratuïta amb el nostre equip.
Reservar Trucada