Llama.cpp
Llama.cpp to wydajne rozwiązanie, służące do przeprowadzania wnioskowania za pomocą dużych modeli językowych. W tym artykule pokażemy jak uruchomić serwer API kompatybilny z OpenAI.
Wybór i ładowanie modelu
Pierwszym krokiem jest wybór modelu językowego, ale kryteria wyboru nie należą
do zakresu tego artykułu.
Dlatego użyjemy przykładowego modelu Meta-Llama-3.1-8B-Instruct-Q8_0
.
Zwróć uwagę na rozmiar wybranego modelu. W tym przypadku powinien wystarczyć wolumen rozmiaru 10 GiB. Utwórzmy go.
cgc volume create -s 10 llms
Załadujmy teraz wybrany model na nowy wolumen. Szybkim sposobem na to jest pobranie go bezpośrednio na wolumen. Do tego można użyć instancji File Browser i dostępu SSH.
# Utwórz jeśli nie istnieje
cgc compute filebrowser create
# Zamontuj wolumen
cgc volume mount -t filebrowser llms
Upewnij się, że poprawnie skonfigurowano dostęp SSH i połącz się do filebrowser.
ssh -t cgc@cgc-api.comtegra.cloud -p 2222 filebrowser
Przejdź do katalogu, gdzie zamontowany jest nowy wolumen i pobierz model.
cd /srv/llms
wget 'https://huggingface.co/bartowski/Meta-Llama-3.1-8B-Instruct-GGUF/resolve/main/Meta-Llama-3.1-8B-Instruct-Q8_0.gguf'
Uruchom serwer
Uruchom serwer API.
cgc compute create -c 4 -m 8 -gt A5000 -g 1 -v llms -n llm-server llama-cpp -d model=Meta-Llama-3.1-8B-Instruct-Q8_0.gguf -d n_gpu_layers=999 -d parallel=10 -d ctx_size=81920
API jest dostępne pod adresem
https://llm-server.NAMESPACE.cgc-waw-01.comtegra.cloud/
.
Jest tam też dostępny przeglądarkowy interfejs użytkownika.
Klucz API można odczytać poleceniem cgc compute list -d
.