Przejdź do głównej zawartości

Llama.cpp

Llama.cpp to wydajne rozwiązanie, służące do przeprowadzania wnioskowania za pomocą dużych modeli językowych. W tym artykule pokażemy jak uruchomić serwer API kompatybilny z OpenAI.

Wybór i ładowanie modelu

Pierwszym krokiem jest wybór modelu językowego, ale kryteria wyboru nie należą do zakresu tego artykułu. Dlatego użyjemy przykładowego modelu Meta-Llama-3.1-8B-Instruct-Q8_0.

Zwróć uwagę na rozmiar wybranego modelu. W tym przypadku powinien wystarczyć wolumen rozmiaru 10 GiB. Utwórzmy go.

cgc volume create -s 10 llms

Załadujmy teraz wybrany model na nowy wolumen. Szybkim sposobem na to jest pobranie go bezpośrednio na wolumen. Do tego można użyć instancji File Browser i dostępu SSH.

# Utwórz jeśli nie istnieje
cgc compute filebrowser create

# Zamontuj wolumen
cgc volume mount -t filebrowser llms

Upewnij się, że poprawnie skonfigurowano dostęp SSH i połącz się do filebrowser.

ssh -t cgc@cgc-api.comtegra.cloud -p 2222 filebrowser

Przejdź do katalogu, gdzie zamontowany jest nowy wolumen i pobierz model.

cd /srv/llms
wget 'https://huggingface.co/bartowski/Meta-Llama-3.1-8B-Instruct-GGUF/resolve/main/Meta-Llama-3.1-8B-Instruct-Q8_0.gguf'

Uruchom serwer

Uruchom serwer API.

cgc compute create -c 4 -m 8 -gt A5000 -g 1 -v llms -n llm-server llama-cpp -d model=Meta-Llama-3.1-8B-Instruct-Q8_0.gguf -d n_gpu_layers=999 -d parallel=10 -d ctx_size=81920

API jest dostępne pod adresem https://llm-server.NAMESPACE.cgc-waw-01.comtegra.cloud/. Jest tam też dostępny przeglądarkowy interfejs użytkownika. Klucz API można odczytać poleceniem cgc compute list -d.