
LLMs in bestehende Produkte integrieren: Ein praktischer Leitfaden
Die meisten KI-Projekte, an denen wir arbeiten, sind keine Greenfield-Projekte. Es sind Integrationen in bestehende Systeme — einen Chatbot zu einem Kundenportal hinzufügen, intelligente Suche für eine Wissensbasis bauen oder Dokumentenklassifizierung in einem Workflow automatisieren, der seit Jahren läuft.
LLMs in ein bestehendes Produkt zu integrieren unterscheidet sich vom Bau eines KI-first-Produkts. Du hast Einschränkungen: bestehende Datenbanken, etablierte APIs, Nutzer, die erwarten, dass alles weiter funktioniert. Hier ist der praktische Guide, den wir uns gewünscht hätten.
Schritt 1: Das richtige Integrationsmuster wählen
Bevor du ein Modell auswählst, entscheide, was die KI eigentlich tun soll.
Muster 1: Konversation (Chatbot)
Nutzer sendet Nachricht, KI antwortet. Optional mit deinen Daten untermauert (RAG).
Am besten für: Kundensupport, internes Q&A, Dokumentationsassistenten.
// Einfachste Chatbot-Integration
async function chat(userMessage: string, conversationHistory: Message[]) {
const response = await openai.chat.completions.create({
model: "gpt-4o",
messages: [
{ role: "system", content: SYSTEM_PROMPT },
...conversationHistory,
{ role: "user", content: userMessage },
],
stream: true,
});
return response;
}
Muster 2: Klassifizierung
KI kategorisiert Input in vordefinierte Kategorien. Keine freie Textgenerierung.
Am besten für: Support-Ticket-Routing, Content-Moderation, Lead-Scoring, Sentiment-Analyse.
Muster 3: Content-Generierung
KI erstellt Inhalte basierend auf strukturiertem Input. E-Mails, Berichte, Zusammenfassungen.
Muster 4: Semantische Suche
Ersetze Keyword-Suche durch bedeutungsbasierte Suche mit Embeddings.
Schritt 2: Das richtige Modell wählen
| Modell | Am besten für | Kosten (pro 1M Tokens) | EU-hostbar |
|---|---|---|---|
| GPT-4o | Komplexes Reasoning | ~$5 / $15 | Via Azure EU |
| GPT-4o-mini | Klassifizierung, einfache Generation | ~$0.15 / $0.60 | Via Azure EU |
| Claude Sonnet 4 | Lange Dokumente, nuanciertes Schreiben | ~$3 / $15 | Via AWS EU |
| Mistral Large | EU-nativ, starkes Multilingual | ~$2 / $6 | Ja (Frankreich) |
| Llama 3.1 70B | Self-hosted, volle Datenkontrolle | Self-hosted | Ja |
Immer mit dem günstigsten Modell prototypen (GPT-4o-mini). Nur upgraden, wenn das günstige Modell die Aufgabe nicht bewältigt. Wir haben Teams gesehen, die 10x mehr als nötig ausgeben, weil sie für alles GPT-4 genutzt haben.
Schritt 3: Architekturentscheidungen
Sync vs. Async
Synchron (Streaming): Nutzer sendet Nachricht, sieht Antwort in Echtzeit streamen. Gut für Chatbots.
Asynchron (Background): Nutzer löst Task aus, wird benachrichtigt wenn fertig. Gut für Dokumentenverarbeitung, Batch-Klassifizierung.
Wo die KI-Schicht hinkommt
Schraub das LLM nicht direkt in deine bestehenden API-Routes. Erstelle eine separate AI-Service-Schicht:
Bestehende App → AI Service Layer → LLM Provider
↓
Cache / Vector DB
Das gibt dir:
- Einfacher Modellwechsel (von OpenAI zu Mistral ohne App-Änderungen)
- Zentralisiertes Prompt-Management
- Kosten-Tracking pro Feature
- Circuit Breaker für LLM-Ausfälle
Schritt 4: Kostenmanagement
LLM-Kosten können schnell eskalieren:
- Günstigstes Modell nutzen, das funktioniert. GPT-4o-mini bewältigt 80% der Use Cases.
- Aggressiv cachen. Gleiche Frage = gleiche Antwort.
- Per-User-Rate-Limits setzen. 50 Nachrichten/Tag ist großzügig für die meisten Features.
- Kontext kürzen. Nicht 100 Nachrichten History senden. Die letzten 10 reichen.
Reales Kostenbeispiel: Ein Kundensupport-Chatbot mit 1.000 Konversationen/Tag mit GPT-4o-mini kostet ca. 150-300 €/Monat. Das gleiche Volumen mit GPT-4o kostet 1.500-3.000 €/Monat.
Schritt 5: Die RAG-Entscheidung
Wenn deine KI Fragen über deine Daten beantworten soll, brauchst du RAG. Wenn sie nur Anweisungen befolgen und Content generieren soll, nicht.
Wir haben einen detaillierten Vergleich in unserem RAG vs. Fine-Tuning Post geschrieben.
Die Integrations-Timeline
| Woche | Aktivität |
|---|---|
| 1 | Modelle evaluieren, Integrationsmuster definieren, AI Service Layer aufsetzen |
| 2 | Core-Feature bauen, Basis-Prompt-Engineering |
| 3 | RAG-Pipeline hinzufügen (wenn nötig), Caching, Rate Limiting |
| 4 | Testing, Evaluation, Prompt-Optimierung, Staging-Deploy |
| 5 | Produktion, Monitoring, Kosten-Tracking |
Die meisten Integrationen shippen in 3-5 Wochen, wenn das bestehende Produkt eine saubere API hat.
Du brauchst Hilfe bei der KI-Integration in dein Produkt? Erfahre mehr über unsere KI- & LLM-Integration.


