Skip to main content

Cum să îmbunătățim procesul de digitizare a documentelor pe hârtie? Crearea de arhive de date folosind Inteligența Artificială

By May 6, 2022August 21st, 2023Artificial Intelligence, Machine Learning, R & D
iDoc-citire-date-din-documente

Organizațiile care activează pe piață de mulți ani au dosare vaste care conțin documente formale și legale. Unele exemple includ acte notariale, precum cele de concesiune, închiriere, termeni și condiții și alte tipuri similare de acorduri între firme sau entități publice.

Cu timpul, companiile evoluează și achiziționează noi clienți, ceea ce face ca arhivele lor să crească și mai mult. Acesta este un motiv de îngrijorare pentru multe firme din sectoarele de telecomunicații, energie, termoficare și utilități de apă și canalizare. În funcție de caz, fie își păstrează documentația în întregime pe hârtie, fie doar o parte din aceasta este digitizată.

pic_1

Pentru a asigura eficacitatea operațiunilor de business urgente și de rutină, recuperarea datelor trebuie să fie rapidă și ușoară. Acest lucru este posibil prin menținerea unei baze de date cu date clasificate și structurate care vă permite să accesați rapid informații specifice sau un anumit set de date. O bază de date digitală facilitează analiza și interpretarea datelor, precum și crearea de rapoarte. Este mult mai bună decât o arhivă pe hârtie sau un simplu depozit digital care utilizează recunoașterea optică a caracterelor pentru a citi documentele scanate. Arhivele pe hârtie și arhivele digitale simple vă permit să căutați informații specifice, dar natura lor nestructurată face ca lucrul cu datele să fie lent și greoi.

Apar câteva întrebări: cum să mutați eficient datele din documente pe hârtie în baze de date structurate? Există vreo modalitate de a îmbunătăți acest proces?

Cum se transferă datele din documente într-o bază de date?

De obicei, răspunsul la această întrebare este foarte ușor și mult mai puțin spectaculos decât ne-am aștepta să fie.

Introducerea datelor este efectuată de o persoană, deseori cineva angajat în acest scop. Aceasta copiază informațiile cheie din documente și le introduce manual în secțiunile corespunzătoare ale bazei de date. Datele includ de obicei datele, numerele și tipurile acordurilor, precum și numerele de registru de caz și numerele de înregistrare a terenului. Datele mutate într-o bază de date pot fi utilizate în multe departamente ale companiei (cum ar fi serviciul pentru clienți), îmbunătățind semnificativ calitatea muncii și a serviciilor oferite clienților.

pic_2

Dacă nu există multe documente și introducerea datelor nu durează prea mult, acest proces nu ar trebui să fie extrem de dificil (deși este unul plictisitor). Pe de altă parte, companiile mari, consacrate, se confruntă cu un număr copleșitor de documente și cantități de date care continuă să crească și trebuie introduse într-o bază de date, astfel încât, în cazul lor, o astfel de operațiune poate necesita un loc de muncă cu normă întreagă. Prin urmare, o companie trebuie să angajeze o persoană a cărei unică sarcină este să introducă datele din documente într-o bază de date.

Introducerea manuală a datelor cauzează multe probleme:

Este o muncă repetitivă, care contribuie la o rotație mare a angajaților. Angajații responsabili cu introducerea manuală a datelor renunță adesea după câteva luni.
Ca urmare, compania trebuie să dedice în mod constant resurse și timp recrutării, integrării și formării noilor angajați..
Deoarece sarcinile sunt plictisitoare, oamenii obosesc rapid și sunt predispuși să facă erori. Apoi, datele necesită verificări și corecții suplimentare care extind întregul proces și pot avea, de asemenea, un impact negativ asupra calității datelor.
Deoarece avem de-a face cu un număr mare de documente, copierea datelor necesită o mulțime de resurse (atât timp, cât și bani), așa că nu este neobișnuit ca multe documente pe hârtie să nu ajungă niciodată într-o bază de date. Ca urmare, datele pe care le conțin sunt inaccesibile angajaților.

Cum să îmbunătățiți procesul de colectare a datelor pentru documentația formală și legală pe hârtie?

Globema este recunoscută pentru realizarea de proiecte de cercetare și dezvoltare, motiv pentru care am decis să investigăm această problemă pentru a găsi o modalitate mai bună pentru companii de a colecta datele conținute în documentele pe hârtie.

Răspunsul nostru a fost utilizarea inteligenței artificiale și algoritmi de învățare automată (AI/ML) și automatizarea procesului. Am revenit la experiența noastră cu LocDoc application unde am folosit inteligența artificială pentru a clasifica documentele și a citi datele din documentația tehnică așa cum a fost construită.

Am folosit mecanisme AI/ML similare ca în soluția LocDoc, dar de data aceasta, am automatizat procesul de citire și introducere a datelor conținute în documente formale și legale în baze de date care sunt deja utilizate în organizații. Așa a apărut iDoc.

Click pentru a mări
Aplicația iDoc. Încărcarea documentelor scanate în sistem – pregătire pentru citirea și clasificarea datelor.

Cum funcționează iDoc, o soluție pentru extragerea și clasificarea automată a datelor?

Soluția iDoc utilizează algoritmi AI/ML pentru a citi și clasifica automat datele conținute în documente formale și legale.

iDoc poate înțelege și citi documente formale și legale, cum ar fi:

  • acte notariale
  • contracte de concesionare
  • contracte de închiriere

…și alte tipuri similare de acorduri între firme sau entități publice. Fiecare tip de acord este diferit și conține informații unice.

Algoritmul citește informațiile conținute într-un document și îi recunoaște tipul (îl clasifică). Apoi, colectează informațiile și le salvează într-o bază de date în funcție de atribute(categorii de documente și tipuri de date). Această bază de date poate fi integrată cu alte baze de date sau sisteme care operează la o companie.

Gama de date conținute în contracte este foarte largă (de obicei, aproximativ 30 până la 40 de atribute și categorii de date diferite, în funcție de tipul de document). Exemplu:

  • date despre părțile contractante (nume de companii, proprietari, antreprenori, avocați, notari etc.)
  • date de adresă (adresele tuturor părților contractante, numerele parcelelor etc.)
  • durata contractului
  • datele contractului
  • numerele de identificare ale contractului, cum ar fi numărul de înregistrare a terenului
  • detaliile obiectului
  • informații despre obiectul contractului
  • datele de plată
pic_3

Prelucrarea unui act notarial (citirea, clasificarea și introducerea datelor într-o bază de date) în iDoc durează aproximativ 12 secunde, ceea ce este un rezultat de neatins pentru un om. În medie, o persoană are nevoie de 11 minute pentru a procesa un document de 6 pagini.

Inteligența artificială a îmbunătățit recuperarea informațiilor despre servituțile din documente pe hârtie

Vezi cum, folosind AI pentru a citi datele, Stoen Operator a redus timpul petrecut cu arhivarea acordurilor de servitute și a actelor notariale cu peste 60%.

Află mai multe

Poate inteligența artificială să facă toată treaba și să înlocuiască oamenii?

Soluția Globema se bazează pe algoritmi AI care pot citi și interpreta datele conținute în documentele de hârtie, cu toate acestea, oamenii sunt încă necesari pentru a introduce date în sistem. În primul rând, o persoană trebuie să încarce documentele scanate în iDoc (soluția nu scanează documente, poate doar să citească și să clasifice datele din scanări). Cel mai important, o persoană trebuie să verifice acuratețea datelor, acordând o atenție deosebită fragmentelor care pot fi greu de citit de un computer. Acestea includ scrisul de mână, ștampilele, scanările încețoșate, hârtie încrețită sau ruptă, precum și structurile confuze, de ex. când atributele sunt specificate folosind informații indirecte.

Cum arată procesul de verificare? Fiecare document este prezentat pe ecran cu fraze cheie evidențiate recunoscute de AI. Alături, există un panou cu câmpuri completate cu aceste date recunoscute. Toate obiectele și atributele sunt aranjate într-o ordine logică și li se atribuie culori care se potrivesc cu cele folosite pentru a evidenția textul corespunzător pe pagina scanată. Acest „cod de culoare” permite utilizatorilor să verifice rapid, vizual,  acuratețea prin compararea datelor dintre cele două ferestre (documente și panoul lateral).

În sfârșit, dacă este necesar, un utilizator introduce corecții și apoi acceptă documentul pe care tocmai l-a verificat.

După cum puteți vedea, factorul uman nu este complet eliminat din proces. O persoană joacă în continuare un rol vital – poate unul și mai important decât înainte. În loc să efectueze copiere mecanică repetitivă, persoana se poate concentra acum pe verificarea datelor și gestionarea întregului proces de actualizare a bazei de date și întreținere a calității datelor.

Click pentru a mări
iDoc. Vedere a panoului de verificare a datelor. Puteți verifica cu ușurință acuratețea informațiilor citite (situate în fereastra din stânga) și să o comparați cu sursa din previzualizarea documentului (din dreapta). Aplicația vă oferă, de asemenea, o alegere de candidați de rezervă pentru valoarea unui anumit atribut și îi evidențiază în previzualizare.

.

Comparație statistică între operatorul uman și iDoc

În medie, un om poate clasifica (recunoaște cu ce tip de document are de-a face) aproximativ 3100 de pagini într-o singură zi de lucru. În același timp, un algoritm de inteligență artificială poate clasifica mai mult de 30 000 de pagini menținând o acuratețe de cel puțin 96%.

Situația este similară atunci când este vorba de citirea și introducerea anumitor informații într-o bază de date. În timpul unei zile de lucru, o persoană poate citi și introduce aproximativ 2000 de atribute într-o bază de date, în timp ce o mașină poate muta de aproximativ 10 ori mai multe date (care reprezintă aproximativ 20000 de atribute!), menținând aproximativ 85% precizie.

pic_4

Acest lucru înseamnă că, deși accelerează semnificativ munca, algoritmii nu pot asigura acuratețea 100% a datelor pe care le recunosc. AI ar putea considera o cantitate mică de informații ca fiind mai puțin exacte și poate sugera unui utilizator să o verifice. Prin urmare, acuratețea identificării atributelor este definită ca raportul dintre toate valorile atributelor recunoscute cu acuratețe (cele care nu au necesitat corecții de către utilizator) și suma tuturor atributelor completate de algoritmi.

20
Acesta este numărul de atribute pe care este capabil să le citească și să le încarce algoritmul iDoc AI într-o zi lucrătoare, cu o precizie de 85%
30
Acesta este numărul de pagini pe care le poate clasifica iDoc într-o zi lucrătoare, cu o precizie de 96%

Care sunt beneficiile utilizării AI/ML pentru clasificarea documentelor?

Este greu să supraevaluezi beneficiile automatizării procesului de clasificare a datelor. Mai ales dacă mutarea datelor din documente într-un sistem ocupă cea mai mare parte a unui post cu normă întreagă la compania dumneavoastră, iar volumul documentelor continuă să crească.

Utilizarea AI/ML și automatizarea procesului de introducere a datelor formale și legale conținute în documente pe hârtie într-o bază de date digitală înseamnă:

  • clasificare și prelucrare de 5-10 ori mai rapidă a datelor conținute în documente
  • mutarea sarcinii obositoare de la un om la o mașină și permiterea angajaților să se concentreze pe supravegherea întregului proces
  • nu este nevoie să angajați o persoană responsabilă doar de popularea bazei de date, aceasta reduce la rândul său costurile de recrutare și fluctuația angajaților
  • digitizarea documentelor poate fi efectuată în afara orelor de lucru și fără pauze
  • calitate superioară a datelor: procesul automatizat nu este predispus la oboseală și distragere a atenției – factorii care îi determină pe oameni să comită erori la introducerea datelor
  • baze de date mai complete. Există o șansă mult mai mare de a muta toate informațiile, inclusiv datele istorice, într-un sistem decât atunci când procesul este manual.

Dacă vă întrebați dacă automatizarea procesării datelor conținute în documentele pe hârtie și în iDoc este ceva care v-ar ajuta afacerea…

În următorul articol despre automatizarea digitizării datelor, vom vorbi despre implementarea serviciului nostru la o companie lider de energie.