Über 11.000 Modelle – welches nehme ich jetzt bloß?
Warum ich darüber schreibe
Es war gegen Ende meiner letzten Session bei Microsoft. Die Slides waren durch, der Kaffee kalt – und dann kamen die Fragen. Nicht eine, nicht zwei. Immer wieder dasselbe Thema, aus dem Publikum, im Nachgang, auf LinkedIn:
Über 11.000 Modelle im Katalog – aber welches ist denn jetzt das richtige für mich?
Ich hab ehrlich gesagt kurz geschluckt. Weil die Frage so simpel klingt und gleichzeitig so verdammt berechtigt ist. 11.000 Modelle. Das ist keine Auswahl mehr, das ist ein Regal ohne Beschilderung in einem Supermarkt, den jemand über Nacht auf die dreifache Größe erweitert hat.
Und das Zweite, was mich beschäftigt hat: Die Leute, die fragten, waren keine Einsteiger. Das waren Admins, Architekten, Power User – Leute, die wissen, was sie tun. Trotzdem stand die Frage im Raum. Das sagt mir: Es ist kein Wissensproblem. Es ist ein Orientierungsproblem.
Genau dafür ist dieser Artikel da.
Was ist der Model Catalog in Azure AI Foundry überhaupt?
Azure AI Foundry (früher Azure AI Studio) ist Microsofts zentrale Plattform, um KI-Anwendungen zu bauen, zu testen und zu deployen. Der Model Catalog darin ist die Schaltzentrale für Modellauswahl – und er wächst rasant.
Du findest dort Modelle von Microsoft selbst (Phi-Familie), OpenAI (GPT-4o, o1, o3…), Meta (Llama), Mistral, Cohere, Stability AI, xAI, Google (Gemma), Anthropic (Claude) – und viele mehr. Kuratiert, kategorisiert, mit Benchmarks und Beschreibungen versehen.
Der entscheidende Vorteil gegenüber dem direkten API-Zugriff: Die meisten Modelle im Katalog laufen innerhalb der Azure-Infrastruktur. Das bedeutet: Deine Daten verlassen nicht die Azure-Region, in der dein Tenant konfiguriert ist. Für Enterprise-Umgebungen mit Datenschutz- und Compliance-Anforderungen ist das kein Nice-to-have – das ist Voraussetzung.
Das Eingemachte: Wie wähle ich das richtige Modell?
Versteh, was du eigentlich willst
Klingt banal. Ist es nicht. Bevor du den Katalog öffnest, beantworte dir drei Fragen:
- Was ist der Use Case? Text generieren, Code schreiben, Bilder analysieren, Dokumente zusammenfassen, Sprache verstehen?
- Wie viel Kontext brauche ich? Kurze Prompts oder lange Dokumente mit viel Kontext?
- Was sind meine Compliance-Anforderungen? EU-Datenhaltung, Branchenvorschriften, interne Policies?
Erst danach macht der Katalog Sinn.
Klein starten – ernsthaft
Das ist meine klare Empfehlung und ich stehe dazu: Fang mit den Mini-Modellen an.
GPT-4o mini, Phi-3.5-mini, Llama 3.2 (kleinere Varianten) – die sind schneller, günstiger in der Token-Abrechnung und für die meisten Testszenarien völlig ausreichend. Wenn du merkst, dass das Modell an seine Grenzen kommt – Qualität schwankt, Kontext geht verloren, Antworten werden flach – dann steigst du auf die großen Varianten.
Warum das wichtig ist: Größere Modelle kosten nicht nur mehr pro Token. Sie sind auch langsamer in der Inferenz, was in produktiven Szenarien relevant wird. Und: Wenn du ein Konzept mit einem Mini-Modell nicht zum Laufen bringst, liegt es meistens nicht am Modell – sondern am Prompt oder am Design deiner Lösung.
Modelle haben Spezialitäten – nutz sie
Hier ein paar konkrete Beispiele, die den Unterschied machen:
| Modell | Stärke | Typischer Use Case |
|---|---|---|
| GPT-4o OpenAI | Multimodal, Reasoning, langer Kontext | Dokumentenanalyse, komplexe Agents |
| Phi-3.5 / Phi-4 Microsoft | Effizient, stark bei Reasoning für die Größe | Edge-Szenarien, kostensensitive Workloads |
| Llama 3.x Meta | Open-Weight, flexibel anpassbar | Fine-Tuning-Projekte, On-Prem-Szenarien |
| Mistral Large Mistral | Stark in europäischen Sprachen, Code | Mehrsprachige Anwendungen, Code-Assistenz |
| Sora ⚠ Kein Text-LLM | Videogenerierung, visuelles Verständnis | Bild- und Videoworkflows – nicht für Text! |
| Deepseek Deepseek | Stark in Mathematik, Coding, Analytik | Technische Analysen, STEM-Domänen |
Lies die Modellbeschreibungen. Wirklich.
Ich weiß, es klingt nach „lies die Anleitung“ – aber es lohnt sich. Im Foundry Model Catalog stehen bei jedem Modell:
- Benchmarks und Vergleichswerte
- Empfohlene Use Cases
- Kontextfenstergröße (Context Window)
- Lizenzmodell und Nutzungsbedingungen
- Preismodell pro Token
Gerade der letzte Punkt wird unterschätzt. Die Token-Kosten zwischen einem Mini-Modell und dem Vollmodell derselben Familie können Faktor 10–20 auseinander liegen. Bei produktiven Workloads mit hohem Durchsatz ist das kein akademisches Detail mehr – das ist Budget-Planung.
Enterprise Data Protection im Blick behalten
Für Foundry-Projekte in Enterprise-Umgebungen gilt: Nutze Modelle, die nachweislich über Azure-Infrastruktur verarbeiten. Das gibt dir:
- Datenhaltung in deiner konfigurierten Azure-Region
- Integration in bestehende Azure-Sicherheitsarchitektur (Private Endpoints, VNET, Managed Identity)
- Compliance-Nachweisbarkeit
Modelle, bei denen du dir nicht sicher bist, kannst du im Foundry-Projekt deployen, testen – und wenn sie nicht passen, wieder deinstallieren. Die Plattform ist dafür gebaut. Nutze das als Sandbox, nicht als Produktivumgebung.
Praxis-Check
So merkst du, dass es läuft
- Das Modell antwortet konsistent und im erwarteten Format
- Die Latenz passt zu deinem Anwendungsfall
- Die Token-Kosten bleiben im geplanten Rahmen
- Deine Compliance-Anforderungen sind dokumentiert und erfüllt
Wenn’s nicht klappt – diese 3 Dinge prüfen
- Falsches Modell für den Use Case? Hast du ein Sprachmodell für einen Bildworkflow genutzt oder umgekehrt?
- Kontextfenster zu klein? Lange Dokumente brauchen Modelle mit großem Context Window – das ist nicht bei allen gleich.
- Datenverarbeitung unklar? Vor dem produktiven Einsatz: Prüf im Foundry-Katalog explizit, wo das Modell verarbeitet wird. Im Zweifel: Nachfragen, nicht annehmen.
Fazit
Die 11.000 Modelle sind keine Bedrohung – die sind eine Chance. Aber wie bei jedem großen Werkzeugkasten gilt: Wer planlos reingreift, verliert Zeit und Geld.
Meine Empfehlung ist simpel: Recherchiere, lies die Beschreibungen, starte mit Mini-Modellen, und steig erst dann hoch, wenn du weißt, was du brauchst. Foundry gibt dir die Möglichkeit, Modelle sicher zu testen und wieder zu entfernen – das ist ein Feature, kein Notausgang.
Und bei allem Enthusiasmus für neue Modelle: Compliance zuerst. Ein Modell, das deine Daten in die falsche Region schickt, ist kein Modell für dein Unternehmen – egal wie gut die Benchmark-Zahlen sind.
Das richtige Modell ist nicht das stärkste – es ist das, das deinen Use Case löst, dein Budget respektiert und deine Daten dort lässt, wo sie hingehören.
☕Kurz-Checkliste: Modellauswahl in Azure AI Foundry
- Use Case klar definiert, bevor der Katalog geöffnet wird
- Mit Mini-Modellen starten (z.B. GPT-4o mini, Phi-3.5-mini)
- Modellbeschreibung und Benchmarks im Katalog gelesen
- Spezialisierungen beachtet (Sora ≠ Textmodell, Deepseek = analytisch/technisch)
- Token-Kosten vor dem Deployment verglichen
- Datenverarbeitungsstandort geprüft (Azure-Region vs. Drittland)
- Anthropic-Modelle: aktuell US-Verarbeitung – Compliance-Check Pflicht
- Modell im Foundry-Projekt als Test deployen, evaluieren, ggf. deinstallieren
Hattest du beim letzten Projekt auch das Modell-Auswahl-Problem? Erzähl mir davon – ich bin gespannt, welche Use Cases euch gerade beschäftigen. 💬

