KI-Modelle "lernen" nicht automatisch richtig. Sie sind vollständig abhängig von den Informationen, die ihnen bereitgestellt werden.
Der bekannte Grundsatz "Garbage In, Garbage Out" (kurz: GIGO) beschreibt dieses Prinzip perfekt:
Werden Modelle mit fehlerhaften, veralteten oder unzureichenden Daten trainiert, führen selbst modernste Algorithmen zu ungenauen, unfairen oder unbrauchbaren Ergebnissen.
Ein Unternehmen implementiert einen HR-Agenten zur automatischen Bearbeitung von Urlaubsanträgen. Der Agent wird jedoch mit inkonsistenten Mitarbeiterdaten trainiert:
Das Resultat: Der Agent genehmigt Anfragen falsch, lehnt berechtigte Anträge ab und verwirrt das gesamte HR-Team. Statt Effizienz entsteht Mehrarbeit und Vertrauensverlust.
Dieses Beispiel ist nicht die Ausnahme – es ist die Regel.
Datenqualität ist nicht eindimensional. Sie besteht aus 6 Dimensionen, die zusammenwirken müssen:
Daten müssen factually correct und realitätsnah sein. Schon kleine Ungenauigkeiten können zu systematischen Verzerrungen in KI-Modellen führen.
Beispiel: Ein Sales-Agent wird trainiert auf Kundendaten, bei denen 5% der Telefonnummern falsch sind. Das Modell "lernt" fehlerhafte Nummern, und bei jedem Anruf scheitert der Kontakt.
Fehlende Werte verhindern, dass Modelle Zusammenhänge richtig erkennen können. Das Weltbild der KI bleibt lückenhaft.
Beispiel: Ein Medizin-AI-System wird trainiert auf Patientendaten, bei denen Blutdruck-Messungen zu 30% fehlen. Die Vorhersagegenauigkeit sinkt dramatisch, weil kritische Informationen fehlen.
Inkonsistenzen führen zu Verwirrung. Das Modell kann Muster nicht korrekt klassifizieren.
Beispiel: Geschlechterdaten sind teilweise als "M/W", teilweise als "männlich/weiblich", teilweise als "0/1" kodiert. Der Agent interpretiert diese unterschiedlich.
Veraltete Daten erzeugen Ergebnisse, die nicht mehr zur aktuellen Situation passen.
Beispiel: Ein Pricing-Agent nutzt Kostendaten von 2022. Durch Inflation und Lieferkettenprobleme sind diese Preise inzwischen 20-30% zu niedrig. Der Agent unterpreist Produkte massiv.
Überflüssige Daten bringen keinen Mehrwert und verschleiern wichtige Signale.
Beispiel: Ein Recruiting-Agent wird trainiert auf 500 Kundendaten-Features, von denen nur 5 für die Job-Matching-Qualität relevant sind. Das Rauschen im Modell ist enorm.
Je besser Daten aufbereitet sind, desto einfacher können Modelle sie verarbeiten.
Beispiel: Rechnungsdaten sind teilweise in PDFs, teilweise in Tabellen, teilweise in E-Mail-Anhängen unstrukturiert. Ein Finance-Agent kann sie nicht konsistent verarbeiten.
Uneinheitliche Kategorien (z.B. "Beschwerde", "Complaint", "Problem", "Issue") führen zu falschen Zuordnungen. Dringende Support-Tickets landen in der falschen Queue.
Impact: 40% längere Response Times, 25% höhere Kundenunzufriedenheit
Fehlende Telefonnummern, inkonsistente Zeitformate → Termine werden doppelt gebucht oder ganz vergessen.
Impact: Chaos im Scheduling, Terminausfälle
Unvollständige Kaufhistorie, veraltete Kundensegmentierung → unprofessionelle, unpassende Angebote
Impact: Sinkende Quote, Reputationsdamage
Unterschiedliche Preislisten in verschiedenen Systemen → Agent nutzt alte Preise
Impact: Finanzielle Verluste, Compliance-Risiken
Lückenhafte Daten → Management trifft Entscheidungen auf Basis fehlerhafter Informationen
Impact: Strategische Fehlentscheidungen, Verluste
Falsch getaggte Skills, veraltete Jobbeschreibungen → Agent favorisiert ungeeignete Kandidaten
Impact: Falsche Hiring-Entscheidungen, Fluktuation
Inkonsistente Statuswerte (z.B. "pending", "waiting", "in_progress") → Agent triggert ungewollte Automatisierungen
Impact: Chaos in Prozessen, erhöhte Fehlerquoten
Fehlerhafte Kundensegmente → Agent sendet irrelevante Angebote an falsche Zielgruppen
Impact: Unsubscribes, Spam-Beschwerden, DSGVO-Bussgelder
KI-Agenten unterscheiden sich fundamental von klassischen KI-Systemen. Sie handeln nicht nur – sie handeln autonom und ständig.
Das macht Datenqualität für Agenten noch kritischer:
| Aspekt | Klassische KI | KI-Agenten |
| Output | Empfehlung (kann ignoriert werden) | Aktion (wird automatisch ausgeführt) |
| Folgen von Fehlern | Verkehrte Empfehlung | Falsche automatische Aktion |
| Fehlerausbreitung | Linear | Exponentiell (eine falsche Aktion triggert weitere) |
| Recovery | Manuell | Schwierig (Agent muss selbst korrigieren) |
| Compliance-Risiken | Gering | Hoch (autonome Aktionen hinterlassen Spuren) |
Neben der Qualität der Daten spielt auch die Art der Datenhaltung eine entscheidende Rolle:
| Datenhaltungs-Typ | Eignung für KI | Beispiele | Ideal für |
| Relationale Datenbanken (SQL) |
⭐⭐⭐⭐ | PostgreSQL, MySQL | Strukturierte Business-Daten |
| NoSQL Datenbanken | ⭐⭐⭐ | MongoDB, Cassandra | Dynamische, flexible Daten |
| Data Warehouses | ⭐⭐⭐⭐⭐ | Snowflake, BigQuery | Analytik & KI-Training |
| Data Lakes | ⭐⭐⭐ | AWS S3, Azure Data Lake | Big Data, unstrukturierte Daten |
| Cloud-Speicher | ⭐⭐ | Google Drive, OneDrive | Einfache Ablage, nicht für KI |
| Local Filesystems | ⭐ | Excel, Ordner, Server | Fehleranfällig, schlecht skalierbar |
Für KI-Agenten ideal: Ein zentrales Data Warehouse oder datengetriebenes Enterprise System (z.B. NORTH Data Hub) kombiniert mit gut strukturiertem API-Zugriff auf operative Systeme (CRM, ERP, HR).
Definiere konsistente Begriffe, Formate und Felder im gesamten Unternehmen.
Essenzielle Informationen müssen zwingend und vollständig vorliegen.
Führe systematische Data Cleaning Prozesse durch.
Klare Verantwortlichkeiten für Datenpflege und -qualität.
Eliminiere Datenfragmentierung – NICHT mehrere Excel-Listen!
Nutze Monitoring und Alerts statt manueller Checks.
Was Sie nicht messen, können Sie nicht verbessern.
| Metrik | Beschreibung | Target |
| Completeness % | Anteil nicht-leerer Felder | > 99% |
| Accuracy % | Korrektheit der Werte | > 95% |
| Consistency % | Konsistenz über Systeme hinweg | > 99% |
| Timeliness | Wie aktuell sind die Daten? | < 24h alt |
| Duplicate Rate % | Duplikate pro 1000 Datensätze | < 0,5% |
Ohne hochwertige Daten kann weder klassische KI noch ein autonom handelnder KI-Agent zuverlässig funktionieren.
Die zentrale Erkenntnis für KI-Agenten:
Schlechte Daten führen nicht nur zu schlechten Antworten, sondern zu schlechten Aktionen.
Unternehmen, die KI-Agenten erfolgreich einführen, haben eines gemeinsam: Sie investieren zuerst in Datenqualität – nicht in KI-Modelle.
Deine nächsten Schritte:
Datenqualität entscheidet über den Erfolg oder Misserfolg jeder KI-Initiative.
Bei NORTHBOT wissen wir: KI ist nur so gut wie die Daten, die sie trainieren.
Deshalb bieten wir: