Ollama lokal installieren & erstes Modell laufen lassen

Alle Tutorials

Ollama ist der schnellste Weg, ein LLM lokal laufen zu lassen. Ein einziger Befehl, und Llama 3, Mistral oder Qwen antworten auf Ihrem eigenen Rechner — ideal für sensible Daten, Offline-Setups oder kompromisslosen Datenschutz.

01Installation

Ollama läuft auf macOS, Linux und Windows. Auf macOS/Linux:

bash
curl -fsSL https://ollama.com/install.sh | sh
ollama --version

02Erstes Modell laden

Mit `ollama pull` laden Sie ein Modell, mit `ollama run` starten Sie eine interaktive Session. Für die meisten Notebooks ist ein 7B-Modell in Q4-Quantisierung ein guter Einstieg.

bash
ollama pull llama3.1:8b
ollama run llama3.1:8b "Erkläre RAG in zwei Sätzen."

03API-Zugriff

Ollama exponiert automatisch eine OpenAI-kompatible REST-API auf Port 11434. Damit lassen sich bestehende OpenAI-SDKs ohne Codeänderung weiterverwenden — Sie tauschen nur die Base-URL aus.

ts
import OpenAI from 'openai';

const client = new OpenAI({
  baseURL: 'http://localhost:11434/v1',
  apiKey: 'ollama',
});

const res = await client.chat.completions.create({
  model: 'llama3.1:8b',
  messages: [{ role: 'user', content: 'Hallo!' }],
});

04Hardware-Realität

7B-Modelle laufen auf einem MacBook M1/M2 mit 16 GB RAM komfortabel. Für 70B-Modelle brauchen Sie eine GPU mit mindestens 48 GB VRAM oder einen Mac Studio mit 128 GB Unified Memory.

Key Takeaways

→Ollama macht lokales LLM-Hosting trivial.
→Die OpenAI-kompatible API erleichtert die Migration.
→Hardware ist der echte Engpass — planen Sie sie ein, bevor Sie das Modell wählen.

Nächstes Tutorial

Eigene AI-Workflows mit n8n und OpenAI bauen

Projekt mit uns umsetzen