Fälschungserkennung bei der automatisierten Verarbeitung von Dokumenten
Um die Digitalisierung der deutschen Wirtschaft durch webbasierte Services für Bürgerinnen und Bürger voranzutreiben, werden immer mehr Dokumente mithilfe von Künstlicher Intelligenz (KI) voll- oder teilautomatisiert verarbeitet (Intelligent Document Processing, IDP). Dies beschleunigt und vereinfacht die Prozesse, jedoch öffnet die geringe menschliche Beteiligung das Tor für Fälschungen. Moderne Bildbearbeitungsprogramme vereinfachen das Fälschen so weit, dass auch Laiinnen und Laien nach kurzer Einarbeitungszeit Dokumente wie etwa Rechnungen oder Verträge manipulieren können. Beispielsweise lassen sich Zahlen und Buchstaben innerhalb eines Dokuments kopieren und verschieben, Inhalte löschen und entstandene Lücken auffüllen oder neuer Text in entsprechender Optik einfügen. Da die Bildbearbeitungsprogramme durch den Einsatz moderner KI-Technologien immer besser werden, müssen Abwehrmechanismen kontinuierlich angepasst werden, um Cyberangriffen dauerhaft standzuhalten.
Ziel des Vorhabens „Identifizierung von Fälschungen bei der automatisierten Verarbeitung von Dokumenten (ForensicIDP)“ ist es, eine Lösung zu entwickeln, die nicht nur alle relevanten Informationen aus Dokumenten extrahiert, sondern zusätzlich einschätzt, ob und wo diese manipuliert wurden. Hierzu soll die KI einer Texterkennung dahingehend weiterentwickelt werden, dass sie nicht nur Zeichen wie Zahlen und Buchstaben, sondern auch gefälschte Dokumenteninhalte identifizieren kann. Die zu entwickelnde Software soll beispielsweise auffällige Pixelmuster oder minimale Darstellungsfehler in Texten erkennen können. Zusätzlich soll eine intelligente Namenserkennung entwickelt werden, die im Dokument vorhandene Entitäten wie Firmennamen oder Artikelbezeichnungen in einem umfassenden Kontext betrachtet und über Plausibilitätsprüfungen die Fälschungserkennung unterstützt. Beispielsweise soll das System prüfen, ob Artikelpreise in einer Rechnung korrekt aufsummiert und mit den richtigen Steuersätzen verrechnet wurden. Durch die Kombination der verbesserten Texterkennung mit der Entitätsprüfung soll eine möglichst geringe Rate an falsch-positiven Ergebnissen erreicht werden, die einen hohen Kontrollaufwand verursachen würden. Verdachtsfälle werden manuell geprüft und mit Feedback versehen, um die Beurteilungen der KI kontinuierlich zu verbessern. Durch einen Privacy-by-Design-Ansatz sollen bei der Verarbeitung vertraulicher Dokumente zudem alle Aspekte des Datenschutzes eingehalten werden.
Im Projekt kombinieren die Forschenden Techniken der Textverarbeitung und Mustererkennung, um Synergien zu nutzen und so die Detektion von Fälschungen in der automatisierten Verarbeitung von Dokumenten signifikant zu verbessern. Auf diese Weise kann ein erheblicher Beitrag zur Absicherung der Prozessautomatisierung in Unternehmen und Behörden geleistet und so der Wirtschaftsstandort Deutschland gestärkt werden. Indem das Projekt eine deutsche Sicherheitslösung für die hochsensible Verarbeitung vertraulicher Dokumente schafft, stärkt es zudem die digitale Souveränität.