Coding

[GPU분산프레임워크] horovod 사용법

Aumada 2023. 6. 16. 01:06

공홈 : https://horovod.ai/

 

ICLR 2023 논문으로 실험을 할 일이 있어서 깃헙을 살펴보다가 horovod라는 멀티GPU 및 분산 학습 프레임워크를 발견했습니다.

파이토치, 텐서플로우 등 여러 프레임워크와 연동이 가능하니, 리소스가 넘쳐나는 연구실이나 회사에서 사용하면 좋은 도구가 될 것 같습니다!!

 

아래는 사용법입니다. 만약 2개의 서버를 사용하려면 어떻게 하는지 말씀해드리겠습니당

 

1. 호스트 설정

호스트 파일을 편집하여 각 서버의 호스트 이름 또는 IP 주소를 등록합니다. 호스트 파일은 일반적으로 /etc/hosts라는 위치에 있습니다. 예를 들어, 두 개의 서버가 "server1"과 "server2"라는 호스트 이름을 갖는다고 가정해 보겠습니다. 호스트 파일에는 다음과 같이 추가할 수 있습니다:

<server1_ip> server1
<server2_ip> server2

2. SSH 설정

 Horovod는 SSH를 통해 서버 간 통신을 수행합니다. 따라서 SSH 연결을 설정해야 합니다. 서버 간에 SSH 키 교환 및 구성이 완료되어야 합니다.

 

3. MPI 설치

Horovod는 MPI (Message Passing Interface)를 사용하여 서버 간 통신을 수행합니다. 따라서 모든 서버에 MPI를 설치해야 합니다. 호스트에 따라 MPI 설치 방법이 다를 수 있습니다. 예를 들어, Ubuntu에서는 다음 명령을 사용하여 설치할 수 있습니다:

sudo apt-get install -y openmpi-bin

4. Horovord 설치

pip install horovod

 

반응형