LLMs in bestehende Produkte integrieren: Ein praktischer Leitfaden

Die meisten KI-Projekte, an denen wir arbeiten, sind keine Greenfield-Projekte. Es sind Integrationen in bestehende Systeme — einen Chatbot zu einem Kundenportal hinzufügen, intelligente Suche für eine Wissensbasis bauen oder Dokumentenklassifizierung in einem Workflow automatisieren, der seit Jahren läuft.

LLMs in ein bestehendes Produkt zu integrieren unterscheidet sich vom Bau eines KI-first-Produkts. Du hast Einschränkungen: bestehende Datenbanken, etablierte APIs, Nutzer, die erwarten, dass alles weiter funktioniert. Hier ist der praktische Guide, den wir uns gewünscht hätten.

Schritt 1: Das richtige Integrationsmuster wählen

Bevor du ein Modell auswählst, entscheide, was die KI eigentlich tun soll.

Muster 1: Konversation (Chatbot)

Nutzer sendet Nachricht, KI antwortet. Optional mit deinen Daten untermauert (RAG).

Am besten für: Kundensupport, internes Q&A, Dokumentationsassistenten.

// Einfachste Chatbot-Integration
async function chat(userMessage: string, conversationHistory: Message[]) {
  const response = await openai.chat.completions.create({
    model: "gpt-4o",
    messages: [
      { role: "system", content: SYSTEM_PROMPT },
      ...conversationHistory,
      { role: "user", content: userMessage },
    ],
    stream: true,
  });
  return response;
}

Muster 2: Klassifizierung

KI kategorisiert Input in vordefinierte Kategorien. Keine freie Textgenerierung.

Am besten für: Support-Ticket-Routing, Content-Moderation, Lead-Scoring, Sentiment-Analyse.

Muster 3: Content-Generierung

KI erstellt Inhalte basierend auf strukturiertem Input. E-Mails, Berichte, Zusammenfassungen.

Muster 4: Semantische Suche

Ersetze Keyword-Suche durch bedeutungsbasierte Suche mit Embeddings.

Schritt 2: Das richtige Modell wählen

Modell	Am besten für	Kosten (pro 1M Tokens)	EU-hostbar
GPT-4o	Komplexes Reasoning	~$5 / $15	Via Azure EU
GPT-4o-mini	Klassifizierung, einfache Generation	~$0.15 / $0.60	Via Azure EU
Claude Sonnet 4	Lange Dokumente, nuanciertes Schreiben	~$3 / $15	Via AWS EU
Mistral Large	EU-nativ, starkes Multilingual	~$2 / $6	Ja (Frankreich)
Llama 3.1 70B	Self-hosted, volle Datenkontrolle	Self-hosted	Ja

Günstig starten, hochskalieren

Immer mit dem günstigsten Modell prototypen (GPT-4o-mini). Nur upgraden, wenn das günstige Modell die Aufgabe nicht bewältigt. Wir haben Teams gesehen, die 10x mehr als nötig ausgeben, weil sie für alles GPT-4 genutzt haben.

Schritt 3: Architekturentscheidungen

Sync vs. Async

Synchron (Streaming): Nutzer sendet Nachricht, sieht Antwort in Echtzeit streamen. Gut für Chatbots.

Asynchron (Background): Nutzer löst Task aus, wird benachrichtigt wenn fertig. Gut für Dokumentenverarbeitung, Batch-Klassifizierung.

Wo die KI-Schicht hinkommt

Schraub das LLM nicht direkt in deine bestehenden API-Routes. Erstelle eine separate AI-Service-Schicht:

Bestehende App → AI Service Layer → LLM Provider
                      ↓
                Cache / Vector DB

Das gibt dir:

Einfacher Modellwechsel (von OpenAI zu Mistral ohne App-Änderungen)
Zentralisiertes Prompt-Management
Kosten-Tracking pro Feature
Circuit Breaker für LLM-Ausfälle

Schritt 4: Kostenmanagement

LLM-Kosten können schnell eskalieren:

Günstigstes Modell nutzen, das funktioniert. GPT-4o-mini bewältigt 80% der Use Cases.
Aggressiv cachen. Gleiche Frage = gleiche Antwort.
Per-User-Rate-Limits setzen. 50 Nachrichten/Tag ist großzügig für die meisten Features.
Kontext kürzen. Nicht 100 Nachrichten History senden. Die letzten 10 reichen.

Reales Kostenbeispiel: Ein Kundensupport-Chatbot mit 1.000 Konversationen/Tag mit GPT-4o-mini kostet ca. 150-300 €/Monat. Das gleiche Volumen mit GPT-4o kostet 1.500-3.000 €/Monat.

Schritt 5: Die RAG-Entscheidung

Wenn deine KI Fragen über deine Daten beantworten soll, brauchst du RAG. Wenn sie nur Anweisungen befolgen und Content generieren soll, nicht.

Wir haben einen detaillierten Vergleich in unserem RAG vs. Fine-Tuning Post geschrieben.

Die Integrations-Timeline

Woche	Aktivität
1	Modelle evaluieren, Integrationsmuster definieren, AI Service Layer aufsetzen
2	Core-Feature bauen, Basis-Prompt-Engineering
3	RAG-Pipeline hinzufügen (wenn nötig), Caching, Rate Limiting
4	Testing, Evaluation, Prompt-Optimierung, Staging-Deploy
5	Produktion, Monitoring, Kosten-Tracking

Die meisten Integrationen shippen in 3-5 Wochen, wenn das bestehende Produkt eine saubere API hat.

Du brauchst Hilfe bei der KI-Integration in dein Produkt? Erfahre mehr über unsere KI- & LLM-Integration.