Tensorflow
Uważamy, że nie ma potrzeby przedstawiać Ci Tensorflow.
Jeśli potrzebujesz jakichkolwiek informacji, proszę odwołaj się do oficjalnej strony internetowej
Uruchamianie
Nie zapomnij na początku zamontować woluminu danych z Twoimi modelami.
Ilość CPU i RAMu zależy od typu i ilości wybranych GPU.
Ilość RAMu powinna wynieść co najmniej RAM ⩾ sum(vRAM) + 2GB
- ale pamiętaj, że to tylko zalecenia, zawsze możesz zacząć od małej ilości i rozwijać się wraz z problemem.
cgc compute create --name tf01 -c 40 -m 1024 -g 8 -gt A100 -v data_volume nvidia-tensorflow
Wspólna Pamięć
Wspólna pamięć jest kluczowym parametrem podczas wykorzystywania przetwarzania wieloprocesowego, szczególnie w przy wykorzystaniu metod takich jak nn.DataParallel
, które polegają na wspólnej pamięci do komunikacji międzyprocesowej.
Domyślny Przydział
Domyślnie przydzielana pamięć wspólna jest ustawiona na 64MB, co może być niewystarczające przy jednoczesnym wykorzystywaniu wielu worker'ów.
Optymalizacja dla Trenowania Modeli AI
Podczas trenowania modeli AI zaleca się zwiększenie przydzielonej pamięci wspólnej. W tym celu, dołącz flag ę --shm
podczas wykonywania polecenia cgc create
.
Składnia do Modyfikacji Przydziału Pamięci Wspólnej
Podstawowa składnia do modyfikacji przydziału pamięci wspólnej jest następująca:
Parametr Shm wymaga wartości <size_in_GB< w gigabajtach.
cgc compute create --name tf01 -c 40 -m 1024 -g 8 -gt A100 -v data_volume nvidia-tensorflow --shm 1