Data-driven era: l’eccesso di informazioni e l’Information Extraction
Effetti collaterali della sovrabbondanza di informazioni.
Nell’attuale era data-driven, organizzazioni e individui generano e scambiano enormi volumi di informazioni, spesso in formati non strutturati o semi-strutturati, attraverso vari canali.
Questa proliferazione di dati, unita alla crescente massa di contenuti online, complica significativamente l’accesso a informazioni precise e pertinenti, nonostante i progressi nei motori di ricerca.
Il risultato è un sovraccarico informativo che ostacola la rapida individuazione dei dati necessari, talvolta richiedendo interventi manuali per la ricerca e l’inserimento dei dati.
In questo scenario, emerge la necessità di sviluppare strumenti e metodi più sofisticati per non solo estrarre dati pertinenti da fonti strutturate e non strutturate, ma anche per affrontare la sfida di questa era digitale rappresentata dalla sovrabbondanza ed eterogeneità delle informazioni.
Un approccio efficace: l’Information Extraction
Una tecnologia che può dare risposte a questa necessità è l’Information Extraction (IE):
essa rappresenta un ramo avanzato del Natural Language Processing (NLP) e dell’Intelligenza Artificiale (IA), dedicato all’identificazione e all’estrazione automatica di dati specifici, strutturati e significativi da testi non strutturati o semi-strutturati.
Questa tecnologia trova impiego in numerosi ambiti caratterizzati dalla presenza di ampie quantità di testo non organizzato, con l’obbiettivo di convertire tali contenuti in informazioni strutturate e prontamente accessibili.
Alla base dell’Information Extraction troviamo metodologie di NLP e IA, le quali consentono di elaborare testi con una precisione e un’efficienza sempre maggiori, facilitando l’estrazione di dati dal contenuto informativo strategico.
Una volta estratti, questi dati diventano risorse preziose per il supporto decisionale o per l’alimentazione di processi automatici.
I testi oggetto dell’elaborazione da parte del processo di Information Extraction possono provenire da una ampia varietà di fonti e sono rappresentati in vari formati; vediamo nel seguito qualche esempio:
- Documenti Digitali:
Report aziendali, documenti PDF, documenti Word, fogli di calcolo Excel e presentazioni PowerPoint.
- Pagine Web:
Contenuti HTML da applicativi aziendali, siti web, blog, portali di notizie e forum online.
- Database di Testo:
Collezioni di articoli scientifici, Curricula Vitae, brevetti, documentazione tecnica e archivi di notizie.
- E-mail e Comunicazioni di Messaggistica:
Archivi di e-mail aziendali, chat da piattaforme di instant messaging come WhatsApp o Telegram, messaggi da piattaforme di collaborazione come Zoom, Meet o Microsoft Teams.
- Registrazioni di Call Center:
Trascrizioni di conversazioni telefoniche con i clienti o tra membri del personale.
Ambiti di applicazione.
Vediamo ora degli esempi contesti e settori di mercato in cui sia utile e strategico utilizzare l’Information Extraction:
- Business Intelligence e Analisi di Mercato:
L’IE può essere utilizzata per estrarre dati da rapporti finanziari, notizie di settore, e social media per identificare tendenze, opportunità di mercato, e sentiment dei consumatori. - Analisi dei flussi finanziari:
Estrazione dati dai flussi di rendicontazione bancaria e documenti aggiuntivi extra-flussi al fine di gestire automaticamente processi di riconciliazione o effettuare analisi riguardanti, ad esempio, le abitudini di pagamento dei clienti oppure le dinamiche dei flussi di cassa con predizione di scenari futuri. - Sicurezza Informatica:
Nella sicurezza informatica, l’IE aiuta nell’analisi di log applicativi o flussi del traffico di rete per identificare minacce e anomalie derivanti da intrusioni, malware o frodi interne ed esterne. - Knowledge Management:
In ambito aziendale, può aiutare a organizzare e rendere accessibili grandi volumi di documentazione interna, estrarre dati da contratti, report e comunicazioni interne. - Medicina e Ricerca Biomedica:
Nella ricerca medica, l’IE può estrarre informazioni da articoli scientifici, report di studi clinici e cartelle cliniche elettroniche, facilitando la meta-analisi e l’identificazione di pattern nelle diagnosi e terapie. - Servizi al Cliente e CRM:
Nell’assistenza clienti, l’IE può analizzare feedback, recensioni di prodotti e comunicazioni dei clienti per migliorare il servizio, identificare i punti di forza e debolezza dei prodotti. - Ricerca Legale e Conformità:
Utilizzata per estrarre informazioni rilevanti da grandi dataset di documenti legali, brevetti, e pubblicazioni normative al fine di identificare requisiti di conformità e potenziali violazioni. - Media e Giornalismo:
L’IE può analizzare grandi quantità di contenuti multimediali per identificare eventi, persone, luoghi e temi rilevanti, aiutando nella creazione di contenuti riassuntivi o analitici. - Social Media:
Post, tweet, commenti e recensioni pubblicati su piattaforme di social media come Facebook, Twitter, LinkedIn e siti di recensioni come TripAdvisor.
Il nostro utilizzo per l’efficientamento dei processi di back-office.
In K Linx utilizziamo l’Information Extraction per l’analisi dei flussi finanziari di incasso da pagamenti non strutturati, al fine di riconciliare gli stessi con le fatture pertinenti, utilizzando, quando presenti, anche documenti di preavviso, mandati di pagamento o altre specifiche di dettaglio.
Utilizziamo inoltre questa tecnologia in ottica più generalizzata per l’estrazione dati da documenti digitali in contesti cross-industry come ad esempio in progetti di digitalizzazione dell’apertura sinistri o della liquidazione degli stessi nel settore INSURANCE.
La nostra roadmap prevede di espandere progressivamente gli ambiti di applicazione della soluzione iXtract (former K Word) includendo in primis l’Information Extraction da applicativi intranet ai fini della fraud-detection, dove al riguardo abbiamo un track record d’eccezione avendo sviluppato progetti di internal fraud detection su clienti istituzionali e finanziari.
La soluzione che abbiamo implementato si basa su un mix di approcci tecnologici, fra cui l’Intelligenza Artificiale declinata con modelli di deep learning, algoritmi tradizionali di pattern matching e ricerche di tag di prossimità, il tutto integrato anche da un motore LLM opzionale.
Mario S. Farris