Przejdź do głównej zawartości

Pytorch

Uważamy, że nie ma potrzeby przedstawiać Ci PyTorch.
Jeśli potrzebujesz jakichkolwiek informacji, proszę odwołaj się do oficjalnej strony internetowej

Uruchamianie

Nie zapomnij na początku zamontować woluminu danych z Twoimi modelami. Ilość CPU i RAMu zależy od typu i ilości wybranych GPU. Ilość RAMu powinna wynieść co najmniej RAM ⩾ sum(vRAM) + 2GB - ale pamiętaj, że to tylko zalecenia, zawsze możesz zacząć od małej ilości i rozwijać się wraz z problemem.

cgc compute create --name torch01 -c 40 -m 1024 -g 8 -gt A100 -v data_volume nvidia-pytorch

Wspólna Pamięć

Wspólna pamięć jest kluczowym parametrem podczas wykorzystywania przetwarzania wieloprocesowego, szczególnie w przy wykorzystaniu metod takich jak nn.DataParallel, które polegają na wspólnej pamięci do komunikacji międzyprocesowej.

Domyślny Przydział

Domyślnie przydzielana pamięć wspólna jest ustawiona na 64MB, co może być niewystarczające przy jednoczesnym wykorzystywaniu wielu worker'ów.

Optymalizacja dla Trenowania Modeli AI

Podczas trenowania modeli AI zaleca się zwiększenie przydzielonej pamięci wspólnej. W tym celu, dołącz flagę --shm podczas wykonywania polecenia cgc create.

Składnia do Modyfikacji Przydziału Pamięci Wspólnej

Podstawowa składnia do modyfikacji przydziału pamięci wspólnej jest następująca:

Warning

Parametr Shm wymaga wartości <size_in_GB< w gigabajtach.

cgc compute create --name torch01 -c 40 -m 1024 -g 8 -gt A100 -v data_volume nvidia-pytorch --shm 1