Ollama ist der schnellste Weg, ein LLM lokal laufen zu lassen. Ein einziger Befehl, und Llama 3, Mistral oder Qwen antworten auf Ihrem eigenen Rechner — ideal für sensible Daten, Offline-Setups oder kompromisslosen Datenschutz.
01Installation
Ollama läuft auf macOS, Linux und Windows. Auf macOS/Linux:
bashcurl -fsSL https://ollama.com/install.sh | sh ollama --version
02Erstes Modell laden
Mit `ollama pull` laden Sie ein Modell, mit `ollama run` starten Sie eine interaktive Session. Für die meisten Notebooks ist ein 7B-Modell in Q4-Quantisierung ein guter Einstieg.
bashollama pull llama3.1:8b ollama run llama3.1:8b "Erkläre RAG in zwei Sätzen."
03API-Zugriff
Ollama exponiert automatisch eine OpenAI-kompatible REST-API auf Port 11434. Damit lassen sich bestehende OpenAI-SDKs ohne Codeänderung weiterverwenden — Sie tauschen nur die Base-URL aus.
tsimport OpenAI from 'openai'; const client = new OpenAI({ baseURL: 'http://localhost:11434/v1', apiKey: 'ollama', }); const res = await client.chat.completions.create({ model: 'llama3.1:8b', messages: [{ role: 'user', content: 'Hallo!' }], });
04Hardware-Realität
7B-Modelle laufen auf einem MacBook M1/M2 mit 16 GB RAM komfortabel. Für 70B-Modelle brauchen Sie eine GPU mit mindestens 48 GB VRAM oder einen Mac Studio mit 128 GB Unified Memory.
Key Takeaways
- →Ollama macht lokales LLM-Hosting trivial.
- →Die OpenAI-kompatible API erleichtert die Migration.
- →Hardware ist der echte Engpass — planen Sie sie ein, bevor Sie das Modell wählen.