Whitepaper von Krohne und Inovex zu PDF-Dokumenten: Datenschätze bergen und maschinenlesbar bereitstellen

Nils Klute Unkategorisiert 15. Juni 2022

Von Nils Klute, IT-Fachredakteur und Projektmanager Kommunikation Cloud Services bei EuroCloud Deutschland_eco e.V.

Daten in Geschäftsmodelle integrieren und neue Erlösquellen erschließen – wie das gelingen soll, ist für viele Unternehmen nicht ersichtlich. Zudem trüben analoge Formate, heterogene Systeme und verschlossene Silostrukturen den Blick ein. Warum es sich lohnt, Datenschätze zu bergen. Und wie sich beispielsweise Service-Wissen aus PDF-Dateien extrahieren lässt.

Daten teilen, um neue digitale Produkte und Services zu realisieren – laut Studie vom Institut der deutschen Wirtschaft (IW) bleibt das eher eine Ausnahme und keine Regel: So bewirtschaften 73 Prozent der befragten Unternehmen ihre Daten nicht gemeinsam mit anderen. Und 71 Prozent der Firmen erfüllen auch gar nicht die Voraussetzungen, die notwendig sind, um Daten effizient bewirtschafte zu können. Beispiel Cloud: „Die Cloud ist das zentrale Instrument, um Daten zu speichern, auszutauschen und gemeinsam ökonomisch zu verwerten“, sagt Barbara Engels, Senior Economist beim IW im Interview auf eurocloud.de. Aber nur 40 Prozent setzen auf die Technologie, wie die Umfrage aus dem Herbst 2021 unter deutschen Unternehmen aus der Industrie und industrienahen Dienstleistern zeigt.

Unternehmen integrieren Daten nicht in Geschäftsmodelle

Egal, ob Sensorwerte, Maschinenparameter oder GPS-Standorte – laut IW ist es für viele Firmen nicht ersichtlich, wie sich Daten in Geschäftsmodelle integrieren lassen. Die Folge: Informationen bleiben für die Mehrheit ein Mittel, um interne Prozesse zu optimieren, und kein Rohstoff, um ökonomisch zu profitieren. Was die Unternehmen bremst: „Rechtliche Fragen sind für 68 Prozent der Befragten das größte Hemmnis“, sagt Jan Büchel, Economist beim IW auf eurocloud.de. Aber nur scheinbar. Büchel: „Wie der rechtliche Rahmen aussieht, in dem sich Daten sehr wohl teilen und bewirtschaften lassen, ist zumeist gar nicht bekannt.“

Heterogen und analog: Keine effiziente Auswertung möglich

Wo sich juristische Bedenken auflösen lassen, bleiben Probleme an anderer Stelle bestehen: „Viele pflegen weiterhin analoge Ablagen oder erfassen ihre Daten gar nicht“, sagt Büchel. „Lediglich die Hälfte der Unternehmen speichert beispielsweise Produktions- und Prozessdaten digital. Am ehesten liegen noch Finanz-, Produkt- und Stammdaten von Kund:innen derart vor.“ Heterogene Silos und analoge Systeme – wer auf sie setzt, kann sicher sein, dass sich Daten erst gar nicht effizient verarbeiten lassen. Die Folge: „Mögliche Datenschätze bleiben ungenutzt und unentdeckt“, sagt Büchel.

Beispiel PDF: Dokumente mit Python-Bibliotheken auswerten

Nicht anders im KI-Projekt Service-Meister: Auch im Industrie-Service liegen Daten zu oft nicht so vor, wie es notwendig wäre, um sie zu teilen oder über smarte Algorithmen auszuwerten. Beispiel PDF-Dokumente: Sind etwa Handbücher, Bedienungs- und Reparaturanleitungen oder Wartungsberichte derart abgespeichert, dann lassen sich Texte, Tabellen und Bilder daraus nur auf Umwegen extrahieren. Das Problem: PDFs sind gewissermaßen nur für das menschliche Auge und damit für die Darstellung auf Displays gedacht. Die Lösung: Python-Bibliotheken sind in der Lage, PDFs maschinell auszuwerten und zu verarbeiten. In einem Whitepaper fassen Krohne und Inovex die Ergebnisse dazu aus ihrem Service-Meister-Schnellboot zusammen.

Logische Struktur erkennen und Informationen maschinenlesbar ablegen

Die Bibliotheken stellen typische Analyseanwendungen in der Programmiersprache Python bereit. Krohne und Inovex haben die unterschiedlichen Sammlungen verglichen und ermittelt, wie geeignet die Algorithmen sind, um PDF-Dateien zu analysieren. Denn: „Bei der Extraktion von Inhalten aus Dokumenten kommt es daher oft zu Problemen. Das Erkennen von Wörtern und Paragraphen muss über Heuristiken durchgeführt werden und erfolgt meist basierend auf Abständen zwischen den Zeichen, was jedoch Fehler mit sich bringt“, halten die Autor:innen fest. „Häufig gibt es Zeichen, die zwar nicht sichtbar sind, aber extrahiert werden, z.B. weil der Text in letzter Minute noch angepasst wurde. Außerdem treten, beispielsweise in Überschriften, zusätzliche Leerzeichen zwischen Zeichen auf.“ Das Whitepaper zeigt, welche Ansätze sich anbieten, um Inhalte aus den PDF-Dokumenten zu ziehen, ihre logische Struktur zu erkennen und Informationen maschinenlesbar etwa in XML- und JSON-Formaten abzulegen.

Experimentieren und prüfen: Unternehmen brauchen Spielraum

Informationen extrahieren und homogenisieren, um sie für KI-Analysen nutzen zu können – was Schnellbooten bei Service-Meister hilft, soll Unternehmen auch an anderer Stelle unterstützen: So stellt das KI-Projekt seit kurzem Blaupausen für datenbasierte und smarte Lösungen im Industrie-Service für Dritte online bereit. Und egal, ob Excel-Listen, Notizzettel oder Papierakten – auch Engels vom IW ist sicher: „Es ist weder sinnvoll noch möglich, dass alle Unternehmen ausschließlich datenbasiert arbeiten“, schreibt die Wirtschaftswissenschaftlerin in ihrem Kommentar im Fachportal Bigdata-Insider. Aber es sei für die Zukunftsfähigkeit der Unternehmen entscheidend zu wissen, welche Daten sie erheben und wie sie diese sicher und in geprüfter Qualität digital speichern und verarbeiten. Denn: „Unternehmen müssen den Spielraum haben, zu experimentieren und zu prüfen, wo sie datenbasiert und digital vorgehen können und wo es sinnvoll ist, analog zu bleiben und wo das Analoge mit dem Digitalen kombiniert werden kann.“

Bildnachweis: iStock-1073831676

Dieser Artikel hat Ihnen gefallen? Dann abonnieren Sie unseren Newsletter und erhalten Sie regelmäßige Updates zu ähnlichen Themen und zum Projekt Service-Meister und diskutieren Sie mit uns zu diesem und ähnlichen spannenden Themen in unserer LinkedIn Gruppe.

Über Nils Klute

Nils Klute ist IT-Fachredakteur. Egal, ob für IT-Medien wie heise.de, zdnet.de und silicon.de, für IT-Unternehmen wie SAP, T-Systems und Sony oder für B2B-Agenturen wie Palmer Hargreaves, Pleon Kohtes Klewes (heute Ketchum) und rheinfaktor – Nils Klute schreibt und spricht seit mehr als 15 Jahren über die Themen, die die IT- und Digitalwirtschaft bewegen. Von der Datenwirtschaft mit Gaia-X über Künstliche Intelligenz im Mittelstand bis hin zu Cloud-Native-Technologien - als Projektmanager Kommunikation Cloud Services ist er bei EuroCloud Deutschland_eco e.V. für das Content Marketing rund um die Themen des Verbands verantwortlich. Zudem unterstützt er KI-Projekte wie Service-Meister und Initiativen wie EuroCloud Native, Channel2Cloud oder EuroCloud Next Leaders mit Blogbeiträgen, Namensartikeln, Interviews, Pressemitteilungen, Konzepten und Strategien. Beruflich wie privat ist er auf LinkedIn und Twitter unterwegs.