Mini Tutorial: Usando Ollama Cloud desde cualquier servidor vía API

AlbertBL septiembre 23, 2025

¡Los modelos en la nube de Ollama ya están en versión preliminar! Esto te permite ejecutar modelos más grandes con hardware rápido de nivel de centro de datos. Puedes seguir usando tus herramientas locales mientras ejecutas modelos más grandes que de otro modo no cabrían en una computadora personal.

Ollama aclara: «La nube de Ollama no retiene tus datos para garantizar la privacidad y la seguridad.»

La misma experiencia de Ollama ahora es fluida tanto en local como en la nube, integrándose con las herramientas que ya usa. Los modelos de nube de Ollama también funcionan a través de la A PI compatible con OpenAI de Ollama .

Modelos disponibles

qwen3-coder:480b-nube

gpt-oss:120b-nube

gpt-oss:20b-nube

búsqueda profunda-v3.1:671b-nube

1. Preparativos

Tener una cuenta en Ollama Cloud.
Generar una API Key en tu dashboard.
Tener curl instalado (o requests si prefieres Python).

Nota: no necesitas GPU ni RAM para modelos grandes, todo se ejecuta en la nube.

2. Formato básico de la petición

Ollama Cloud usa un endpoint REST para chat:

curl https://ollama.com/api/chat \
  -H "Authorization: Bearer <TU_API_KEY>" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "gpt-oss:120b",
    "messages": [{
      "role": "user",
      "content": "Why is the sky blue?"
    }],
    "stream": false
  }'

Explicación rápida:

"model": modelo cloud que quieres usar.
"messages": array con objetos {role, content}, sigue el estilo chat.
"stream": false devuelve la respuesta completa; true permite recibir tokens a medida que se generan.

3. Hacer un mini script REPL en Bash

Para interacción sencilla:

#!/bin/bash

API_KEY="TU_API_KEY"

while true; do
  read -p "Tú: " INPUT
  RESPONSE=$(curl -s https://ollama.com/api/chat \
    -H "Authorization: Bearer $API_KEY" \
    -H "Content-Type: application/json" \
    -d "{
      \"model\": \"gpt-oss:120b\",
      \"messages\": [{\"role\": \"user\", \"content\": \"$INPUT\"}],
      \"stream\": false
    }")
  echo "IA: $(echo $RESPONSE | jq -r '.reply')"
done

Necesitas jq para parsear la respuesta JSON.

Cada línea que escribas se envía al modelo y se imprime la respuesta.

4. Alternativa Python

Si prefieres Python:

pip install requests

import requests

API_KEY = "TU_API_KEY"
url = "https://ollama.com/api/chat"

while True:
    user_input = input("Tú: ")
    payload = {
        "model": "gpt-oss:120b",
        "messages": [{"role": "user", "content": user_input}],
        "stream": False
    }
    headers = {"Authorization": f"Bearer {API_KEY}"}
    resp = requests.post(url, json=payload, headers=headers)
    data = resp.json()
    reply = data["message"]["content"]
    print("IA:", reply)

Funciona en cualquier VPS, incluso sin GPU.
Puedes integrarlo en webapps, bots de Discord, Slack, etc.

5. Consejos prácticos

Mantén tu API Key privada, no la subas a repositorios.
Usa modelos cloud para cosas que tu servidor local no pueda manejar (20B, 120B, etc).
Para respuestas largas, puedes activar "stream": true y manejar tokens parciales en tiempo real.
Este enfoque convierte cualquier VPS “modesto” en un cliente ligero que aprovecha la potencia de Ollama Cloud.

Share on Social Media