Ist Ihr AI-System fair? Können Sie AI Entscheidungen erklären?
Wir testen Fairness, Explainability und Data Quality mit wissenschaftlich validierten Methoden – und zeigen konkrete Wege zur Verbesserung.
Bias in AI-Systemen ist real und messbar: Geschlechter-Diskriminierung beim Recruiting, ethnischer Bias beim Credit-Scoring, Alters-Benachteiligung in der Versicherung. Der EU AI Act fordert Fairness-Testing und Transparenz – wir machen beides.
In 4-6 Wochen erhalten Sie detaillierte Analysen, konkrete Bias-Metriken und praktische Mitigation-Strategien. Von „Haben wir ein Problem?“ zu „So lösen wir es.“
⏱️ 4-6 Wochen | 📊 80-120 Stunden/1-3 AI-Systeme | 💰 €8.000 – €20.000 | ⚖️ Compliance: EU AI Act Art. 10, 13, 15
✓ 70+ Fairness-Metriken (IBM AIF360, Fairlearn)
✓ Gold-Standard Explainability (SHAP)
✓ Production-ready Mitigation-Strategien
✓ Wissenschaftlich validierte Methodik
Warum AI Bias & Transparency Testing?
Regulatorisch: Der EU AI Act fordert es
📜 Zentrale Artikel:
Art. 10 (Data Governance):
Training-Data muss „representative“ sein → Fairness-Testing nötig
Art. 13 (Transparenz):
Hochrisiko-Systeme müssen „interpretable“ sein → Explainability-Testing
Art. 15 (Accuracy & Robustness):
Performance muss über Subgroups konsistent sein → Subgroup-Analysen
Konsequenz bei Non-Compliance:
Bis zu €15 Mio. oder 3% des weltweiten Jahresumsatzes
Ab wann Pflicht:
Hochrisiko-Systeme ab August 2026
Business: Bias kostet Geld & Reputation
💼 Reale Konsequenzen:
Finanzielle Risiken:
- Apple Card (2019): Gender Bias → Regulatorische Untersuchung
- Amazon HR Tool (2018): Gender Bias → Tool eingestellt, Millionen-Verlust
Reputationsschaden:
- Öffentliche Skandale = Vertrauensverlust
- Shitstorm auf Social Media
- Kunden wandern ab
Rechtliche Risiken:
- AGG-Klagen (Allgemeines Gleichbehandlungsgesetz)
- Class-Action-Lawsuits (USA)
- EU AI Act Bußgelder
Operational Issues:
- Falsche Entscheidungen = schlechte Business-Outcomes
- Diverse Talente ablehnen = Talent-Shortage
- Gute Kreditnehmer ablehnen = Revenue-Verlust
💡 AI Bias- & Transparancy-Testing ist Risiko-Management: Probleme lieber früh erkennen, bevor es teuer wird.
Die 3 Test-Dimensionen
Wir testen Ihr System aus drei komplementären Perspektiven:
⚖️
Fairness & Bias Detection
Was wir testen:
- Demographic Parity (gleiche Approval-Rates über Gruppen?)
- Equal Opportunity (gleiche True-Positive-Rates?)
- Equalized Odds (gleiche Fehlerraten?)
- Individual Fairness (ähnliche Personen = ähnliche Outcomes?)
- Intersektionale Fairness (Gender × Age × Ethnicity)
Metriken (70+ verfügbar):
- Disparate Impact Ratio (Benchmark: ≥0.80)
- Statistical Parity Difference
- Average Odds Difference
- Calibration über Gruppen
Output:
- Bias-Heatmap (welche Gruppen, wie stark?)
- Root-Cause-Analyse (welche Features treiben Bias?)
- Schweregrad-Rating (Critical/High/Medium/Low)
Beispiel-Finding:
„Gender Disparate Impact: 0.65 (kritisch)
→ Frauen 35% seltener approved als Männer
→ Root Cause: Feature ‚Years_Experience‘ korreliert mit Career Breaks“
💡
Explainability & Transparency
Was wir testen:
- Global Explainability (was ist wichtig für Modell insgesamt?)
- Local Explainability (warum diese spezifische Entscheidung?)
- Feature Interactions (welche Features interagieren wie?)
- Counterfactual Analysis („Was müsste sich ändern für anderen Outcome?“)
Methoden:
- SHAP (SHapley Additive exPlanations) – Gold-Standard
- LIME (Local Interpretable Model-agnostic Explanations)
- Feature Importance Rankings
- Partial Dependence Plots
Output:
- SHAP Summary Plots (Global: welche Features wichtigsten)
- SHAP Force Plots (Lokal: wie kam diese Entscheidung zustande)
- Model Card (EU AI Act Art. 13-konform)
Beispiel-Explanation:
„Loan Denied for Applicant #12345:
→ Income too low: −15 points
→ Age <30: −8 points
→ No home ownership: −5 points
→ Total Score: 62 (Threshold: 70)“
📊
Data Quality & Representativeness
Was wir testen:
- Representativeness (repräsentiert Training-Data die Ziel-Population?)
- Completeness (systematische Missing Values?)
- Consistency (Widersprüche in Daten?)
- Bias in Training-Data (Label Bias, Selection Bias)
Analysen:
- Distribution-Matching (Training vs. Production)
- Subgroup Coverage (sind alle Gruppen ausreichend vertreten?)
- Label Quality (sind Labels selbst biased?)
- Feature Correlation Analysis
Output:
- Data Quality Scorecard (0-100)
- Coverage-Matrix (welche Subgroups fehlen?)
- Label-Bias-Report
- Recommendations für Data-Collection
Beispiel-Finding:
„Training-Data hat nur 12% Frauen, aber Target-Population ist 48% Frauen
→ Modell lernt hauptsächlich von männlichen Examples
→ Recommendation: Re-Sampling oder collect more female data“
Unsere Methodik & Tools
Wir kombinieren Best-in-Class Open-Source-Tools mit eigener Expertise. Alle Methoden sind wissenschaftlich validiert und in hunderten Projekten erprobt.
🔧 Kern-Tools:
IBM AI Fairness 360 (AIF360)
- 70+ Fairness-Metriken
- 10+ Mitigation-Algorithmen (Pre/In/Post-Processing)
- Intersektionale Analysen
Microsoft Fairlearn
- Constraint-basierte Fairness-Optimierung
- Trade-off-Analysen (Fairness vs. Accuracy)
- Bessere Visualisierungen als AIF360
SHAP (SHapley Additive exPlanations)
- Model-agnostic Explainability
- Global + Local Explanations
- Feature Interactions
Great Expectations
- Data Quality Framework
- Automated Testing-Pipelines
- Audit-Trail für Data Governance
Custom German NLP Probes (für Chatbots/Text-Systeme)
- Bias-Detection in deutschen Sprachmodellen
- Gendered Language Detection
- Name-based Bias Testing
Was Sie konkret erhalten
📄 Executive Summary (5-10 Seiten)
- High-Level Findings
- Critical Issues (priorisiert nach Severity)
- Empfohlene Actions (Quick-Wins + langfristig)
- Business Impact Assessment
📊 Technical Deep-Dive Report (30-50 Seiten)
- Alle Fairness-Metriken (detailliert)
- Explainability-Analysen (SHAP-Plots, Feature Importance)
- Data Quality Assessment
- Subgroup-Performance-Matrizen
- Root-Cause-Analysen
🔧 Mitigation-Strategien (Actionable)
- Pre-Processing-Optionen (Data-Level)
- In-Processing-Optionen (Model-Level)
- Post-Processing-Optionen (Prediction-Level)
- Trade-off-Analysen (Fairness vs. Accuracy, Business Impact)
- Implementation-Guidance (konkrete Schritte)
📋 Model Card (EU AI Act Art. 13-konform)
- Intended Use
- Training Data Documentation
- Performance Metrics (overall + per subgroup)
- Fairness Metrics
- Limitations & Risks
💻 Code & Notebooks (Optional)
- Jupyter Notebooks mit allen Analysen
- Reproduzierbare Ergebnisse
- Für Ihre Data Scientists (Wissenstransfer)
🎤 Presentation & Workshop (4h)
- Findings präsentieren (für Management + Tech-Teams)
- Q&A Session
- Mitigation-Strategien diskutieren
- Nächste Schritte definieren
Zusätzlich (Optional):
☑ Implementation-Support (nach Testing) Wir helfen bei Umsetzung der Mitigation-Strategien
☑ Monitoring-Setup Continuous Fairness-Monitoring nach Go-Live
☑ Follow-up Assessment (nach 6-12 Monaten) Verify Improvements, Retest nach Changes
Wer braucht AI Bias & Transparency Testing?
| Use Case | Typisches Problem | EU AI Act |
|---|---|---|
| Credit Scoring (Finance) | Gender/Age/Zip Bias Discrimination Risk | Annex III.5b – Hochrisiko |
| HR Recruiting (All Industries) | Gender/Name Bias Diversity Issues | Annex III.4 – Hochrisiko |
| Insurance / Underwriting | Age/Gender Bias Discriminatory | Annex III.5a – Hochrisiko |
| Fraud Detection (Finance/E-Comm) | False Positive Bias Subgroup Impact | Art. 15 – Accuracy Requirements |
| Chatbots (Customer Svc) | Language Bias Response Fairness | Art. 13 – Transparency |
| Medical AI (Healthcare) | Racial/Gender Bias Life-critical | Annex III.1 – Hochrisiko |
Checkliste: Brauchen Sie Testing?
✅ Sie MÜSSEN testen wenn:
- Hochrisiko-System (EU AI Act Annex III)
- Entscheidungen über Menschen (HR, Credit, Insurance)
- Protected Attributes involviert (Gender, Age, Ethnicity)
✅ Sie SOLLTEN testen wenn:
- Fairness-Bedenken im Team
- System läuft seit >6 Monaten (Drift-Risiko)
- Neue Regulierung ansteht (EU AI Act)
- „Black Box“-Modelle (Deep Learning, Ensembles)
❓ Testing eventuell optional:
- Nicht-kritische Systeme (Empfehlungen, Content-Ranking)
- Keine Menschen betroffen (Pure Technical Systems)
- Sehr simple Modelle (Logistic Regression, Decision Trees)
Ablauf: 4-6 Wochen von Kickoff zu Report
📅 Woche 1: Discovery & Data Access
- Kickoff-Call (2h): System verstehen, Use Case, Goals
- Data Access Setup: Zugang zu Training-Data, Predictions, Metadata
- Scope Finalization: Welche Fairness-Metriken, welche Subgroups
- NDA & Data Protection Agreement
📅 Woche 2-3: Testing & Analysis
- Fairness Testing: 70+ Metriken berechnen, Subgroup-Analysen
- Explainability Testing: SHAP-Analysen, Feature Importance
- Data Quality Testing: Representativeness, Completeness
- Root-Cause-Analysen: Warum Bias? Welche Features?
📅 Woche 4: Mitigation & Reporting
- Mitigation-Strategien entwickeln (3-5 Optionen)
- Trade-off-Analysen (Fairness vs. Accuracy)
- Report erstellen (Executive + Technical)
- Model Card erstellen (EU AI Act-konform)
📅 Woche 5-6: Presentation & Follow-up
- Draft Report Review (Ihr Feedback)
- Final Report Delivery
- Presentation Workshop (4-8h mit Ihren Teams)
- Q&A, Nächste Schritte definieren
- Handoff (Code, Notebooks, Documentation)
Ihr Aufwand
- Woche 1: 4-6h (Kickoff, Data Access)
- Woche 2-3: 2-4h (Check-ins, Fragen beantworten)
- Woche 4-6: 4-8h (Review, Workshop)
Total: ~12-20h über 4-6 Wochen
Häufige Fragen
Starten Sie Ihr Testing
💬 Kostenloses Erstgespräch (30 Min)
Wir analysieren Ihr System und schätzen Aufwand ein.
📊 COMING SOON: Beispiel-Report ansehen
Sehen Sie ein anonymisiertes Beispiel unserer Reports.
