
¡Los modelos en la nube de Ollama ya están en versión preliminar! Esto te permite ejecutar modelos más grandes con hardware rápido de nivel de centro de datos. Puedes seguir usando tus herramientas locales mientras ejecutas modelos más grandes que de otro modo no cabrían en una computadora personal.
Ollama aclara: «La nube de Ollama no retiene tus datos para garantizar la privacidad y la seguridad.»
La misma experiencia de Ollama ahora es fluida tanto en local como en la nube, integrándose con las herramientas que ya usa. Los modelos de nube de Ollama también funcionan a través de la API compatible con OpenAI de Ollama .
Modelos disponibles |
qwen3-coder:480b-nube |
gpt-oss:120b-nube |
gpt-oss:20b-nube |
búsqueda profunda-v3.1:671b-nube |

1. Preparativos
- Tener una cuenta en Ollama Cloud.
- Generar una API Key en tu dashboard.
- Tener
curl
instalado (orequests
si prefieres Python).
Nota: no necesitas GPU ni RAM para modelos grandes, todo se ejecuta en la nube.
2. Formato básico de la petición
Ollama Cloud usa un endpoint REST para chat:
curl https://ollama.com/api/chat \
-H "Authorization: Bearer <TU_API_KEY>" \
-H "Content-Type: application/json" \
-d '{
"model": "gpt-oss:120b",
"messages": [{
"role": "user",
"content": "Why is the sky blue?"
}],
"stream": false
}'

Explicación rápida:
"model"
: modelo cloud que quieres usar."messages"
: array con objetos{role, content}
, sigue el estilo chat."stream"
:false
devuelve la respuesta completa;true
permite recibir tokens a medida que se generan.
3. Hacer un mini script REPL en Bash
Para interacción sencilla:
#!/bin/bash
API_KEY="TU_API_KEY"
while true; do
read -p "Tú: " INPUT
RESPONSE=$(curl -s https://ollama.com/api/chat \
-H "Authorization: Bearer $API_KEY" \
-H "Content-Type: application/json" \
-d "{
\"model\": \"gpt-oss:120b\",
\"messages\": [{\"role\": \"user\", \"content\": \"$INPUT\"}],
\"stream\": false
}")
echo "IA: $(echo $RESPONSE | jq -r '.reply')"
done
Necesitas jq
para parsear la respuesta JSON.
Cada línea que escribas se envía al modelo y se imprime la respuesta.
4. Alternativa Python
Si prefieres Python:
pip install requests
import requests
API_KEY = "TU_API_KEY"
url = "https://ollama.com/api/chat"
while True:
user_input = input("Tú: ")
payload = {
"model": "gpt-oss:120b",
"messages": [{"role": "user", "content": user_input}],
"stream": False
}
headers = {"Authorization": f"Bearer {API_KEY}"}
resp = requests.post(url, json=payload, headers=headers)
data = resp.json()
reply = data["message"]["content"]
print("IA:", reply)
- Funciona en cualquier VPS, incluso sin GPU.
- Puedes integrarlo en webapps, bots de Discord, Slack, etc.
5. Consejos prácticos
- Mantén tu API Key privada, no la subas a repositorios.
- Usa modelos cloud para cosas que tu servidor local no pueda manejar (20B, 120B, etc).
- Para respuestas largas, puedes activar
"stream": true
y manejar tokens parciales en tiempo real. - Este enfoque convierte cualquier VPS “modesto” en un cliente ligero que aprovecha la potencia de Ollama Cloud.