Warum KI-Entwicklung 2026 anders aussieht

Bis vor zwei Jahren bedeutete KI-Entwicklung: ein eigenes Modell trainieren oder einen Chatbot in eine Website kleben. Beides taugt heute kaum noch. LLMs sind verfügbar wie Strom — die Differenzierung liegt nicht mehr im Modell, sondern in der Architektur drumherum: wie KI auf Ihre Daten zugreift, wie sie in bestehende Prozesse eingreift, wie Sie Entscheidungen revisionssicher nachvollziehen. KI-Entwicklung ist 2026 eine Architektur-Disziplin geworden — und genau da setzen wir an.

Was wir unter KI-Entwicklung verstehen. Wir bauen keine ChatGPT-Wrapper. Wir entwickeln Custom KI-Lösungen, die in Ihr Datenmodell, Ihre Auth-Schicht und Ihren Audit-Trail integriert sind:

  • AI Agents für definierte Workflows: Mehrstufige Vorgänge, in denen die KI Tools aufruft, Zwischenergebnisse prüft und Schritte protokolliert
  • RAG-Systeme auf Ihrem Wissen: Antworten kommen aus Ihren Dokumenten, Datenbanken und Policies — mit Quellenangabe, nicht aus dem Trainingskorpus eines Anbieters
  • Custom Machine Learning für Ihre Domäne: Klassifikation, Forecasting, Anomalie-Erkennung — dort, wo ein generisches LLM zu vage bleibt
  • Auf DSGVO und nDSG ausgerichtet: EU- und Schweiz-Hosting, Open-Source-LLMs auf Wunsch, Data Minimization in jeder Schicht
  • Messbare Wirkung statt KI-Theater: Wir definieren vor Projektstart, welche Metrik sich verändern muss — Bearbeitungszeit, Klassifikationsgenauigkeit, Quote bearbeiteter Tickets
  • Integration in Ihren Bestand: ERP, CRM, Datenbanken und interne APIs werden über Auth- und Audit-Schicht angebunden — nicht via Copy-Paste

Was das in der Praxis heißt: Ein RAG-System auf 12.000 internen PDFs ersetzt die Suche im Confluence. Ein Klassifikations-Modell sortiert eingehende Service-Tickets, bevor ein Mensch sie anfasst. Ein AI Agent bereitet Angebote vor — final geprüft wird weiterhin von Ihrem Team. KI-Entwicklung als Werkzeug, nicht als Selbstzweck.

Wo KI-Entwicklung tatsächlich Wirkung zeigt

Nicht jede Aufgabe braucht KI. Diese fünf Anwendungsfelder haben sich aus unserer Praxis als die produktionsreifen Muster herauskristallisiert — Architekturen, die wir mehrfach gebaut, betrieben und weiterentwickelt haben.

AI Agents für Service- und Backoffice-Workflows

Was AI Agents 2026 leisten — und was nicht. AI Agents übernehmen mehrstufige Vorgänge in eng definierten Domänen: Anfrage einlesen, gegen Wissensbasis prüfen, Tool aufrufen, Ergebnis protokollieren, Mensch eskalieren wenn nötig. Sie ersetzen keinen kompletten Berufsstand — sie nehmen die wiederkehrenden 70 Prozent ab, damit Ihr Team die anspruchsvollen 30 Prozent gründlicher bearbeiten kann.

  • Service-Agent für Erstantworten: Anfragen kategorisieren, Standardfälle direkt beantworten, komplexe Fälle inklusive Vorprüfung an Ihr Team weiterleiten
  • Dokumenten-Agent: Rechnungen, Lieferscheine, Verträge auslesen, in ERP übergeben, Abweichungen markieren
  • Synchronisations-Agent: Datensätze zwischen CRM, ERP und Custom-Backend abgleichen — mit Audit-Trail revisionssicher
  • Recherche-Agent: Marktdaten, Wettbewerbs-Updates, Lead-Anreicherung — als geplante Läufe, nicht als Live-Chatbot
  • Prüf-Agent: eingehende Dokumente gegen Ihre Policies abgleichen, Befunde mit Quellenzitat dokumentieren — finaler Freigabeschritt bleibt beim Menschen

Dokumenten-Verarbeitung mit RAG

RAG ist 2026 das ausgereifteste Architekturmuster der KI-Entwicklung. Statt das LLM „raten“ zu lassen, indexieren wir Ihre Dokumente in einer Vektordatenbank, holen vor jeder Antwort die passenden Passagen und liefern Quellenangaben mit. Halluzinationen sinken deutlich, weil das Modell nur noch formulieren muss, was in Ihren Quellen steht.

  • Internes Wissen suchbar machen: Mitarbeiter fragen die KI, statt SharePoint, Confluence und alte E-Mail-Threads zu durchforsten
  • Service-Antworten aus Produktdoku: KI bezieht sich auf Ihre Handbücher und Release-Notes, nicht auf einen Anbieter-Trainingsdatensatz
  • Vertrags- und Policy-Recherche: Klauseln, Vorgaben und interne Richtlinien semantisch durchsuchbar — mit direktem Verweis auf die Stelle im Originaldokument
  • Sales-Enablement: Produktdetails, Referenz-Cases und Preisstruktur aus einer Quelle, nicht aus zehn parallelen Folien-Versionen

Was sich dadurch ändert: Antwortzeit auf interne Fragen sinkt von Minuten auf Sekunden. Onboarding neuer Mitarbeiter wird greifbar einfacher, weil sie Fragen stellen können, ohne jemanden zu unterbrechen. Inhalte bleiben aktuell, weil das System direkt auf Ihre Originaldokumente zugreift, nicht auf einen veralteten Export.

Custom Machine Learning für domänenspezifische Aufgaben

Wenn ein generisches LLM zu vage wird, lohnt sich Custom-ML-Entwicklung: ein eigenes Modell, trainiert auf Ihren historischen Daten, mit messbarer Genauigkeit auf Ihre Klassen. Typischerweise leichter, schneller und günstiger im Betrieb als ein LLM-Aufruf pro Anfrage.

  • Forecasting: Absatz-, Auslastungs-, oder Bedarfsprognosen anhand Ihrer historischen Daten
  • Klassifikation: Tickets, E-Mails, Dokumente automatisch der richtigen Kategorie zuordnen
  • Anomalie-Erkennung: Auffälligkeiten in Transaktionen, Sensordaten oder Logs vor dem Eskalations-Punkt sehen
  • Computer Vision: Bild- und Video-Analyse für Qualitätsprüfung, Inventarisierung, visuelle Inspektion
  • Spezialisiertes NLP: Entity-Extraktion, Intent-Erkennung, Sentiment in Domänen, in denen ein LLM zu allgemein bleibt

LLM-Integration in bestehende Plattformen

Wenn KI in Ihre App soll, statt daneben zu stehen. Wir binden LLMs an Ihre bestehende Auth-Schicht an, leiten jeden Aufruf durch Ihren Audit-Trail und machen das Verhalten über Prompts und Konfiguration steuerbar — ohne dass Ihr Frontend-Team plötzlich KI-Engineering lernen muss.

  • Auth- und Rollen-Modell respektiert: Was ein Nutzer sehen darf, sieht auch das LLM für ihn — RAG-Treffer aus fremden Bereichen werden gefiltert, nicht nachträglich zensiert
  • Audit-Trail revisionssicher: Prompt, Modell-Version, Quellen, Antwort und Timestamp landen in Ihrem Logging — nachvollziehbar auf Anfrage
  • Feature-Flags für KI-Funktionen: einzelne Funktionen pro Mandant, pro Nutzergruppe oder pro Region freischalten — kontrollierter Rollout statt Big-Bang

Semantische Suche und Knowledge Base

Volltextsuche reicht oft nicht. Eine semantische Suche findet auch dann das richtige Dokument, wenn der Suchende andere Wörter benutzt als der Autor. Wir kombinieren klassische Volltextsuche, Vektor-Embeddings und gegebenenfalls ein Re-Ranking-Modell — je nach Datenmenge und Genauigkeitsanforderung.

  • Ähnlichkeits-Suche: „Hatten wir so einen Fall schon einmal?“ — die Plattform findet vergleichbare Tickets, Bauteile oder Verträge
  • Suche über Datensilos hinweg: ein Suchfeld, dahinter SharePoint, ERP, Wiki und Mail-Archiv — Ergebnisse mit Quelle und Berechtigungs-Filter
  • Strukturierte Auszüge: Suchergebnisse als JSON oder Tabelle für Folgeprozesse — eine der unterschätzten Stärken aktueller KI-Lösungen

So läuft KI-Entwicklung mit uns ab

Ein KI-Projekt scheitert selten am Modell — es scheitert an unklarem Use Case, dünner Datengrundlage oder fehlender Integration. Unser Vorgehen ist in fünf Phasen geschnitten, jede mit definiertem Liefer-Ergebnis. Sie können nach jeder Phase aussteigen.

1. Use-Case-Discovery & Daten-Audit (1–2 Wochen)

  • Workshop: welche Vorgänge binden heute am meisten Zeit, und wo wäre eine KI-Lösung wirklich der richtige Hebel — und nicht nur ein besseres Skript?
  • Daten-Audit: gibt es genügend Material in ausreichender Qualität, in welchem Format liegt es vor, und was muss vor jeder Modell-Diskussion bereinigt werden?
  • Wirkungs-Hypothese: welche Metrik soll sich um wie viel verändern, wie messen wir das vor Projektstart, und wann gilt das Projekt als gescheitert?
  • Machbarkeits-Skizze: passt RAG, ein Custom-ML-Modell, ein AI Agent — oder ein deutlich einfacheres Stück Software ohne KI?
  • MVP-Definition: kleinster Schnitt, der echte Wirkung zeigt, statt einer Demo, die nur im Pitch funktioniert

2. Architektur und Modell-Auswahl (1–2 Wochen)

Vor der ersten Code-Zeile entscheiden wir gemeinsam die Tradeoffs: Open-Source-LLM in eigener Hand versus API-Anbieter, EU- oder Schweiz-Hosting, Vektor-Datenbank-Wahl, Auth- und Audit-Schicht. Diese Entscheidungen tragen das Projekt über Jahre — also keine Bauchgefühl-Wahl.

  • Modell-Wahl: Open-Source (Llama, Mistral) für Datenhoheit und Kostenkontrolle, kommerzielle APIs (Anthropic, OpenAI) für maximale Sprachqualität — oft hybrid, je Use Case
  • Hosting-Pfad: EU-Region (Frankfurt), Schweiz (Zürich) oder On-Prem — abhängig von Branche, Datenklassifikation und nDSG-Anforderungen
  • Vektor-Datenbank: PostgreSQL pgvector für Bestandssysteme, Qdrant oder Weaviate bei höheren Volumina
  • Integrations-Layer: wie greift die KI auf Ihre Daten zu, wo läuft Auth, wo wird geloggt — bevor wir Code schreiben

3. MVP-Entwicklung (typisch 4–6 Wochen)

Innerhalb von vier bis sechs Wochen steht eine produktionsnahe Version, die echte Vorgänge bearbeitet — nicht eine reine Pitch-Demo. Sie testen mit eigenen Daten, wir messen gegen die Wirkungs-Hypothese aus Phase 1.

  • Agenten- oder RAG-Pipeline: vom ersten Aufruf bis zur protokollierten Antwort
  • Indexierung Ihrer Dokumente, Embedding-Strategie, Such- und Re-Ranking-Logik
  • Bei Custom ML: Daten-Vorbereitung, Modell-Auswahl, Validierung gegen Hold-out-Set
  • Anbindung an mindestens ein Zielsystem (ERP, CRM, internes Backend) inklusive Auth
  • Eval-Suite: definierte Test-Fälle, an denen wir Genauigkeit, Latenz und Kosten messen

4. Integration in Ihren Bestand

Hier wird aus dem MVP ein Bestandteil Ihrer Plattform — und genau hier scheitert ein Großteil aller KI-Projekte am Markt. Wir hängen die Lösung an Ihre Auth, Ihren Audit-Trail, Ihr Secrets-Management und Ihr Monitoring an. Keine Schatten-IT.

  • Anbindung an Ihre bestehende Auth (SSO, OIDC, interner Identity-Provider)
  • Audit-Trail revisionssicher: jede KI-Entscheidung mit Prompt, Quellen und Modell-Version dokumentiert
  • Secrets-Management: API-Keys und Modell-Zugänge zentral verwaltet, nicht in Code-Repos
  • Monitoring: Antwortzeiten, Fehlerquoten, Kosten pro Anfrage in Ihrem bestehenden Dashboard (Grafana, Sentry, LangFuse)

5. Betrieb und Weiterentwicklung

  • Betriebs-Infrastruktur: Cloud (EU/CH) oder On-Prem, je nach Anforderung — wir betreuen beides
  • Drift-Monitoring: erkennen, wenn sich Eingangsdaten oder Antwortverhalten verschieben — bevor Nutzer sich beschweren
  • Human-in-the-Loop: kritische Entscheidungen kommen weiterhin auf einen Freigabe-Schritt, dokumentiert und nachvollziehbar
  • Iteration mit Nutzer-Feedback: Prompts, Modell-Versionen, Retrieval-Strategien werden auf Basis echter Nutzung weiterentwickelt — nicht im Vakuum
  • Übergabe an Ihr Team: Dokumentation, Schulung, klare Linie zwischen „Sie pflegen“ und „wir warten“ — End-to-End-Verantwortung, falls Sie es so wollen

Was kostet KI-Entwicklung?

Ein KI-Projekt ist kein SaaS-Abo, sondern ein klar abgegrenztes Bauprojekt. Drei Größenordnungen, die wir in der Praxis sehen — Festpreis-Rahmen oder Time & Materials, abhängig davon, wie scharf der Use Case zu Beginn formuliert ist.

AI Agent — Einstieg

ab 20.000 €

  • Ein klar abgegrenzter Workflow (z. B. Service-Triage, Dokumenten-Auslesen)
  • LLM via API (Anthropic Claude, OpenAI, Google Gemini) oder Open Source
  • Anbindung an 2–3 Ihrer bestehenden Tools
  • Tool-Aufrufe, Logging, Eskalations-Pfad an einen Menschen
  • Monitoring auf Antwortzeit, Kosten pro Anfrage, Fehlerquote
  • Dokumentation und Übergabe an Ihr Team
  • Zeitrahmen: 4–6 Wochen

Custom KI-Entwicklung

ab 50.000 €

  • Eigenes ML-Modell auf Ihren Daten oder spezialisiertes RAG-System
  • Daten-Pipeline mit Bereinigung, Anreicherung, Versionierung
  • Eval-Suite und Modell-Bewertung gegen definierte Genauigkeits-Schwellen
  • API in eigener Hand: produktionsreif, dokumentiert, versioniert
  • RAG-Systeme über Ihre Dokumente — mit Quellen-Zitat im Output
  • AI Agent mit mehreren Werkzeugen und mehrstufigen Aufgaben
  • Zeitrahmen: 8–12 Wochen

Enterprise-KI-Plattform

ab 90.000 €

  • Mehrere Agenten oder Modelle, koordiniert über Ihren Backend-Layer
  • Custom-ML-Komponenten plus RAG plus LLM-Integration aus einer Architektur
  • Anbindung an ERP, CRM und interne Datenbanken — mit Auth- und Audit-Schicht
  • Mehrstufige Freigabe-Workflows, Mandanten-Trennung, Rollen-Modell
  • Drift-Monitoring, Latenz- und Kostentracking, Alerting in Ihr bestehendes Stack
  • Iteration über echte Nutzung: Prompt-Versionierung, Modell-Wechsel, Retrieval-Tuning
  • Zeitrahmen: 12–20 Wochen

Wie wir Wirkung messen. Wir definieren vor Projektstart eine konkrete Metrik — beispielsweise Bearbeitungszeit pro Service-Ticket, Quote der Tickets ohne menschliches Zutun, Klassifikations-Genauigkeit gegen ein Hold-out-Set. Bei einem 20.000 €-AI-Agent-Projekt rechnen wir gemeinsam vor: wie viele Stunden pro Monat werden adressiert, was kosten Hosting und Modell-Aufrufe — und ab wann trägt sich das. Wenn die Rechnung nicht aufgeht, machen wir das Projekt nicht.

Technologie-Stack für moderne KI-Entwicklung

Wir nutzen ausgereifte, produktionsbewährte Werkzeuge — keine Experimente, die nächstes Quartal niemand mehr pflegt. Welche konkreten Bausteine wir wählen, hängt davon ab, wo Ihre Daten leben dürfen, welche Genauigkeits-Anforderungen gelten und wie viel Sie selbst betreiben wollen.

LLMs, RAG-Frameworks und Vektor-Datenbanken

Open-Source-LLMs und API-Anbieter Open-Source-Modelle (Llama, Mistral) liegen in eigener Hand und sind die erste Wahl, wenn Daten das Haus nicht verlassen sollen. Anthropic Claude, OpenAI ChatGPT und Google Gemini setzen wir gezielt dort ein, wo Sprachqualität oder Tool-Use entscheidend sind. Hybride Setups — Open Source für sensible Vorgänge, API für komplexe Sprachaufgaben — sind 2026 oft der pragmatische Mittelweg.
LangChain und LlamaIndex Produktionserprobte Frameworks für RAG-Systeme und AI Agents — Tool-Aufrufe, Memory, mehrstufige Pipelines. Wir bauen nicht jedes Lego-Stück selbst nach, sondern setzen auf das, was sich in der Community ausgehärtet hat — und ergänzen mit eigenem Code, wo es spezifisch werden muss.
PostgreSQL pgvector, Qdrant und Weaviate Vektor-Datenbanken halten Embeddings Ihrer Dokumente, damit ein RAG-System in Millisekunden die richtigen Quellen findet. PostgreSQL pgvector reicht in vielen Mittelstands-Setups und nutzt Ihre vorhandene DB-Kompetenz. Bei höheren Volumina oder strikter Trennung wechseln wir auf Qdrant oder Weaviate — beides EU-hostbar.

Custom Machine Learning und Betrieb

Python-ML-Stack scikit-learn für klassische ML-Verfahren, PyTorch für Deep Learning, Pandas und NumPy für Daten-Aufbereitung. Bewährt, breit dokumentiert, große Community — und wartbar, wenn das Team in zwei Jahren wechselt.
MLOps und Modell-Betrieb MLflow für Experiment-Versionierung, Docker für reproduzierbares Deployment, FastAPI für die Modell-API. LangFuse als Observability-Layer für LLM-basierte Anwendungen — Prompt-Versionen, Trace-Inspektion, Kosten pro Aufruf. Sentry für klassische Fehler, Grafana für Dashboards.
Hosting in der EU und in der Schweiz AWS Frankfurt, Azure Germany/Switzerland, Google Zürich, Hetzner, IONOS, Exoscale und reine On-Prem-Szenarien — alles Wege, die wir bereits gegangen sind. Welche Variante passt, entscheidet sich an Datenklassifikation und nDSG-Anforderung, nicht am Bauchgefühl.

Wie wir auswählen — und worauf wir verzichten

Open Source versus API. Bei sensiblen Daten, hohen Volumina oder echter Datenhoheits-Anforderung gewinnt fast immer ein selbst gehostetes Open-Source-LLM. Bei seltenen, sprachlich anspruchsvollen Anfragen liefert ein kommerzieller Anbieter besseres Ergebnis pro Euro. Wir empfehlen den Pfad pro Use Case, nicht pro Glaubensrichtung.

Frameworks versus eigenes Stück Code. LangChain und LlamaIndex sparen Wochen — solange sich Ihr Use Case in den vorgesehenen Mustern bewegt. Sobald wir individuelle Logik brauchen (eigene Eskalations-Pfade, untypische Tool-Aufrufe, mehrere Mandanten), lösen wir Teile heraus und schreiben sie selbst. Mischung statt Religion.

Managed-Service versus eigene Infrastruktur. Managed Services (z. B. AWS Bedrock, Vertex AI) sind schnell aufgesetzt, kosten aber Datenhoheit und enthalten Vendor-Risiko. Eigener Betrieb ist initial teurer und langfristig oft billiger und unabhängiger. Wir setzen das, was zu Ihrer Risiko- und Betriebsentscheidung passt — und sagen es offen, wenn beides denkbar ist.

Spezial-Stacks für besondere Anforderungen

Unser Standard-Stack deckt etwa 80 Prozent aller Mittelstands-KI-Projekte ab. Für die übrigen 20 Prozent ziehen wir die folgenden Optionen heran:

R und statistische Modellierung Wenn Ihr Team bereits in R rechnet — etwa in regulierten Bereichen oder bei klassischer Statistik — bauen wir Modell-Logik dort und stellen sie über eine produktionsreife Schnittstelle bereit.
On-Device- und Edge-KI Für mobile Apps, IoT-Geräte oder Anwendungen ohne stabile Cloud-Verbindung deployen wir kompakte Modelle direkt auf das Endgerät — niedrige Latenz, keine laufenden API-Kosten, klare Datenhoheit.
Fine-Tuning und Custom-Transformer Wenn ein Standard-LLM in Ihrer Domäne zu vage bleibt: gezieltes Fine-Tuning oder eigene Transformer-Varianten — angemessen, wenn Daten und Volumen den Aufwand rechtfertigen.

KI-Entwicklung DSGVO- und nDSG-konform

Ein KI-System verändert die Compliance-Lage in zwei Punkten: Erstens fließen Daten durch ein zusätzliches Modell, das interpretiert. Zweitens trifft seit August 2024 das <a href="/blog/ai-act-ki-verordnung-software-architektur"><strong>EU-AI-Gesetz</strong></a> schrittweise Wirkung — Pflichten für GPAI-Modelle ab August 2025, voller Anwendungsbereich ab August 2026. Wir berücksichtigen beide Ebenen von Anfang an.

Datenminimierung und Schutz personenbezogener Daten

  • Nur die wirklich nötigen Daten: AI Agents und RAG-Systeme greifen ausschließlich auf explizit freigegebene Quellen zu — geprüft im Auth-Layer, nicht im Prompt
  • Pseudonymisierung vor dem Modell: personenbezogene Daten werden vor Training oder Inferenz entfernt oder pseudonymisiert, sofern der Use Case es erlaubt
  • Aufbewahrungs-Regeln: Prompts, Antworten und Embeddings werden nach definierten Fristen gelöscht — automatisiert, dokumentiert, prüfbar
  • Verschlüsselung: Daten ruhend (AES-256) und im Transit (TLS 1.3) verschlüsselt — Standard, keine Diskussion

Hosting in der EU und in der Schweiz

  • EU-Region und Schweiz: AWS Frankfurt, Azure Germany und Switzerland, Google Zürich, alternativ Hetzner, IONOS oder Exoscale — Daten und Modelle bleiben in eigener Hand
  • On-Prem-Deployment: Open-Source-LLMs und Custom-ML-Modelle laufen in Ihrem Rechenzentrum, falls Datenklasse oder Branchen-Pflichten das verlangen
  • Open-Source-LLMs: Llama oder Mistral — Sie kontrollieren Gewichte, Updates und Inferenz-Pfad vollständig
  • Ohne Hyperscaler-Abhängigkeit: Auf Wunsch komplett ohne US-Hyperscaler — bei sensibler Datenlage oft die saubere Wahl

AI Act, Audit-Trail und Erklärbarkeit

  • Audit-Trail revisionssicher: Prompt, Modell-Version, Quellen-Treffer, Antwort und Zeitstempel für jeden KI-Aufruf — eine der wichtigsten Architekturentscheidungen in einem produktionsreifen KI-System
  • Menschliche Aufsicht bei Hochrisiko-Anwendungen: wo der AI Act es vorsieht, läuft jede automatisierte Entscheidung über einen dokumentierten Freigabe-Schritt — keine Black-Box-Automatik
  • Erklärbarkeit der Entscheidung: bei jeder Antwort erkennbar, welche Quellen und Regeln zum Ergebnis geführt haben
  • DSGVO Art. 22 — Recht auf Erklärung: bei automatisierten Entscheidungen mit rechtlicher Wirkung erhalten Betroffene eine nachvollziehbare Begründung — die Architektur sieht das vor, statt nachträglich rekonstruiert zu werden

Wirkung messen, Latenz und Kosten kontrollieren

Drei Dimensionen entscheiden, ob ein KI-System in Produktion trägt: Antwortzeit, Genauigkeit und Kosten pro Anfrage. Wir behandeln alle drei explizit — mit Zahlen, an denen Sie das Projekt nach drei Monaten messen können.

Antwortzeit

  • Quantisierte Modelle: kleinere Bit-Breite (4-Bit, 8-Bit) reduziert Inferenz-Zeit deutlich, mit moderatem Genauigkeitsverlust — Größenordnung und Eignung evaluieren wir je Use Case
  • Antwort-Caching: wiederkehrende Fragen mit identischem Kontext beantworten wir aus dem Cache, statt das Modell erneut zu bemühen
  • Streaming-Antworten: Tokens fließen, sobald sie erzeugt sind — der Nutzer sieht sofort, dass das System arbeitet
  • Edge-Deployment, falls sinnvoll: kompakte Modelle direkt am Standort oder auf dem Gerät — gering Latenz, klare Datenhoheit, keine API-Kosten pro Aufruf

Kosten pro Anfrage

  • Routing pro Anfrage-Typ: einfache Anfragen an ein kleineres Open-Source-Modell, anspruchsvolle an Claude oder Gemini — der Mix ist deutlich günstiger als „alles über die teuerste API“
  • Prompt-Disziplin: kürzere, strukturierte Prompts ohne Ballast senken Token-Kosten und verbessern Genauigkeit gleichzeitig
  • Selbst gehostete LLMs: ab moderatem Volumen ist der eigene Betrieb in der Regel günstiger und unabhängiger als API-Aufrufe
  • Batch-Verarbeitung: nicht zeitkritische Aufgaben sammeln und in Batches verarbeiten statt in Echtzeit — geringere Spitzenlast, niedrigere Kosten

Skalierung und Drift

  • Horizontale Skalierung: mehrere Inferenz-Instanzen hinter Load-Balancer — wichtig, wenn das KI-System Teil eines Echtzeit-Produkts wird
  • Auto-Skalierung: Instanzen werden bei Spitzen automatisch hinzugeschaltet und in ruhigen Phasen wieder entfernt
  • Queue-basierte Architektur: Anfragen werden über eine Queue (z. B. RabbitMQ, NATS) entkoppelt — schützt vor Lastspitzen und vereinfacht Wiederholungs-Logik
  • Drift-Monitoring: Eingangsdaten und Antwortverhalten verschieben sich mit der Zeit — wir messen aktiv (z. B. mit LangFuse, Sentry) und reagieren, bevor Nutzer es bemerken. Mehr Hosting-Pfade siehe Cloud Services.

Integration in Ihre bestehende IT-Landschaft

Eine KI-Lösung erzeugt nur dann Wirkung, wenn sie in den Datenflüssen lebt, in denen heute schon gearbeitet wird. Wir binden KI an Ihre Bestandssysteme an — über Auth, Audit-Trail und Secrets-Management, nicht über Copy-Paste oder einen Browser-Plugin.

  • ERP-Systeme: SAP, Microsoft Dynamics, Odoo, proAlpha — Lese- und Schreib-Operationen über offizielle APIs, mit Berechtigungs-Modell
  • CRM-Integration: Salesforce, HubSpot, Pipedrive — Kundendaten anreichern, Lead-Bewertung, Recherche-Agent
  • Kommunikations-Werkzeuge: Slack, Microsoft Teams, E-Mail — KI-Funktionen dort, wo Ihr Team ohnehin arbeitet, statt in einem zusätzlichen Tool
  • Datenbanken: PostgreSQL, MongoDB, MS SQL, Snowflake — direkter Lesepfad für RAG, mit zeilen- und feld-genauer Berechtigung
  • Dokumenten-Ablagen: SharePoint, Google Drive, S3, Nextcloud — Indexierung mit Berechtigungs-Filter, damit RAG nur findet, was der Nutzer auch sehen darf
  • Eigene APIs: Ihre internen Services per REST oder GraphQL — versioniert, dokumentiert, mit Auth-Kette von der KI bis ins Ziel-System

Wartung und Weiterentwicklung

Ein KI-System endet nicht mit dem Go-Live. Modelle, Prompts und Datengrundlage altern. Unser Wartungs-Modell hält die Lösung über Jahre belastbar — mit klaren Verantwortlichkeiten zwischen Ihnen und uns.

  • Drift- und Genauigkeits-Monitoring: wir messen kontinuierlich, ob Eingangsdaten und Antwortverhalten sich verschieben — und alarmieren, bevor Nutzer sich beschweren
  • Modell-Aktualisierung: bei Custom-ML-Modellen periodisches Re-Training auf aktualisiertem Datenstand; bei LLMs strukturierter Wechsel auf neue Modell-Versionen mit Eval-Vergleich
  • Prompt-Versionierung: Prompts werden wie Code versioniert, getestet und bei Bedarf zurückgerollt — keine stillen Änderungen in Produktion
  • Kosten- und Latenz-Monitoring: Aufrufe pro Tag, durchschnittliche Antwortzeit, Kosten pro Anfrage — sichtbar in Ihrem Dashboard, nicht in einer Excel-Liste
  • RLHF und Iteration aus Nutzung: Daumen-Hoch-/-Runter-Feedback und Korrekturen fließen strukturiert zurück und verbessern Antwortqualität über die Zeit

Mehr zum Betriebs- und Wartungs-Modell: Wartung & Support.

Warum IntegrIT für KI-Entwicklung im Mittelstand?

  • Senior-Engineering, kein Junior-Pool: Sie sprechen mit Entwicklern, die seit Jahren Software in Produktion bringen — nicht mit einem Account-Layer, der erst Tickets weiterreicht
  • KI-Lösungen als Architektur-Disziplin: wir verstehen LLMs, Vektor-Datenbanken und Agenten-Pipelines — und genauso die Auth-, Audit- und Datenmodell-Schicht, in die das alles eingebettet werden muss
  • Erste produktionsnahe Version in 4–6 Wochen: wir bauen für echte Wirkung, nicht für die Demo am übernächsten Steering-Komitee
  • Auf DSGVO, nDSG und EU-AI-Act ausgerichtet: Hosting in der EU oder in der Schweiz, Audit-Trail revisionssicher, Risikoklasse pro Use Case eingeordnet
  • Wirkung vor dem Aufschlag: wir definieren mit Ihnen die Erfolgsmetrik vor Projektbeginn — und sagen ehrlich „nein“, wenn ein Use Case sich nicht trägt
  • Code, Modelle und Daten in eigener Hand: nichts davon liegt bei uns oder bei einem Sub-Anbieter — Sie können den Vertrag jederzeit beenden, ohne Daten zu verlieren
  • End-to-End-Verantwortung über die ganze Plattform: wir bauen auch Ihr Backend und Ihre Apps — KI als integraler Teil Ihrer Architektur, statt drei Dienstleister mit Schnittstellen-Diskussionen

Nächster Schritt: KI-Entwicklung gemeinsam einordnen

Schreiben Sie uns kurz, was Sie vorhaben — gerne formlos per E-Mail an development@integritsol.de oder über den Calendly-Link unten. Wir antworten innerhalb eines Werktags und vereinbaren ein Erstgespräch. Sie bekommen eine ehrliche Einschätzung, keine Sales-Tour.

Erstgespräch zu Ihrer KI-Entwicklung

30 bis 60 Minuten, ohne Verpflichtung. Wir gehen einen oder zwei Use Cases durch, schauen auf Datenlage und Architektur und sagen Ihnen direkt, ob eine KI-Lösung der richtige Weg ist — oder ob ein einfacheres Stück Software reicht.

Oder direkt anrufen: +49 1522 3635395