VLLM
vLLM to szybka i łatwa w użyciu biblioteka do wnioskowania i serwowania LLM.
Wybierz i załaduj model
Wybierz dowolny model, który chcesz serwować. W tym przykładzie użyjemy Llama‑3.2‑3B‑Instruct (~7 GiB).
Utwórz wolumen
cgc volume create -s 15 models
Umieść model na wolumenie
Najszybszym sposobem jest zrobienie tego ręcznie za pomocą interfejsu GUI filebrowser. Możesz uruchomić:
# Utwórz jeśli nie istnieje
cgc compute filebrowser create
# Zamontuj nowy wolumen
cgc volume mount models -t filebrowser
Aby sprawdzić token aplikacji i adres URL pod którym jest dostępna:
cgc compute list -d
Podczas logowania się do interfejsu webowego filebrowsera użyj nazwy użytkownika admin
i tokenu aplikacji jako hasła.
W filebrowser pobierz wszystkie pliki modelu z Hugging Face i przeciągnij folder na wolumen.
notatka
Upewnij się, że pobierasz model w oryginalnym formacie PyTorch z Hugging Face, a nie w formacie GGUF.
Jak uruchomić
cgc compute create -n <name> -c 4 -m 8 -g 1 -gt A5000 -v models vllm-openai -d model=/media/models/Llama-3.2-3B-Instruct
Parametry:
-n
- nazwa instancji, która będzie używana w adresach URL-c
- rdzenie CPU, w większości przypadków nie więcej niż 4 są potrzebne-m
- pamięć, w większości przypadków nie więcej niż 8 GiB jest potrzebne-g
,-gt
- liczba i typ GPU. Upewnij się, że vRAM jest wystarczający dla modelu.-v
- wolumen z modelami-d
- flaga do definiowania zmiennych środowiskowych
Zmienne środowiskowe
model
- ścieżka do katalogu modelu (zawierającegoconfig.json
i pliki wag)
Użycie API
Twój endpoint znajduje się pod adresem:
https://<nazwa>.<NAMESPACE>.cgc-waw-01.comtegra.cloud/
Pobierz token API:
cgc compute list -d
Przykładowe wywołanie
curl -H "Authorization: Bearer $API_TOKEN" \
-H "Content-Type: application/json" \
-X POST \
-d '{
"model": "/media/models/Llama-3.2-3B-Instruct",
"messages": [
{"role":"user","content":"Hello!"}
]
}' \
https://<nazwa>.<NAMESPACE>.cgc-waw-01.comtegra.cloud/v1/chat/completions