Przejdź do głównej zawartości

VLLM

vLLM to szybka i łatwa w użyciu biblioteka do wnioskowania i serwowania LLM.

Wybierz i załaduj model

Wybierz dowolny model, który chcesz serwować. W tym przykładzie użyjemy Llama‑3.2‑3B‑Instruct (~7 GiB).

Utwórz wolumen

cgc volume create -s 15 models

Umieść model na wolumenie

Najszybszym sposobem jest zrobienie tego ręcznie za pomocą interfejsu GUI filebrowser. Możesz uruchomić:

# Utwórz jeśli nie istnieje
cgc compute filebrowser create

# Zamontuj nowy wolumen
cgc volume mount models -t filebrowser

Aby sprawdzić token aplikacji i adres URL pod którym jest dostępna:

cgc compute list -d

Podczas logowania się do interfejsu webowego filebrowsera użyj nazwy użytkownika admin i tokenu aplikacji jako hasła.

W filebrowser pobierz wszystkie pliki modelu z Hugging Face i przeciągnij folder na wolumen.

notatka

Upewnij się, że pobierasz model w oryginalnym formacie PyTorch z Hugging Face, a nie w formacie GGUF.

Jak uruchomić

cgc compute create -n <name> -c 4 -m 8 -g 1 -gt A5000 -v models vllm-openai -d model=/media/models/Llama-3.2-3B-Instruct

Parametry:

  • -n - nazwa instancji, która będzie używana w adresach URL
  • -c - rdzenie CPU, w większości przypadków nie więcej niż 4 są potrzebne
  • -m - pamięć, w większości przypadków nie więcej niż 8 GiB jest potrzebne
  • -g, -gt - liczba i typ GPU. Upewnij się, że vRAM jest wystarczający dla modelu.
  • -v - wolumen z modelami
  • -d - flaga do definiowania zmiennych środowiskowych

Zmienne środowiskowe

  • model - ścieżka do katalogu modelu (zawierającego config.json i pliki wag)

Użycie API

Twój endpoint znajduje się pod adresem:

https://<nazwa>.<NAMESPACE>.cgc-waw-01.comtegra.cloud/

Pobierz token API:

cgc compute list -d

Przykładowe wywołanie

curl -H "Authorization: Bearer $API_TOKEN" \
-H "Content-Type: application/json" \
-X POST \
-d '{
"model": "/media/models/Llama-3.2-3B-Instruct",
"messages": [
{"role":"user","content":"Hello!"}
]
}' \
https://<nazwa>.<NAMESPACE>.cgc-waw-01.comtegra.cloud/v1/chat/completions