Triton Inference Server 설치
Triton Inference Server 주요 기능
- 여러 딥 러닝 프레임워크 지원
- 여러 기계 학습 프레임워크 지원
- 동시 모델 실행
- 동적 일괄 처리
- 상태 저장 모델을 위한 시퀀스 일괄 처리 및 암시적 상태 관리
- 사용자 지정 백엔드 및 전/후 처리 작업을 추가할 수 있는 백엔드 API 를 제공합니다 .
- Ensembling 또는 Business Logic Scripting(BLS) 을 사용하여 파이프라인 모델링
- 커뮤니티에서 개발한 KServe 프로토콜 을 기반으로 하는 HTTP/REST 및 GRPC 추론 프로토콜
- C API 및 Java API를 통해 Triton은 에지 및 기타 진행 중인 사용 사례를 위해 애플리케이션에 직접 연결할 수 있습니다.
- GPU 사용률, 서버 처리량, 서버 대기 시간 등을 나타내는 지표
Triton Inference Server 설치 방법
NVIDIA에서는 Docker를 이용해서 설치하는 것을 권장하고 있다.
Docker를 이용하여 설치하는 것으로 작성하였다.
- Triton Server Docker 이미지 다운로드
docker pull nvcr.io/nvidia/tritonserver:22.12-py3
버전은 아래 홈페이지에 가서 Latest Tag를 확인하면 된다.
https://catalog.ngc.nvidia.com/orgs/nvidia/containers/tritonserver

용량이 크기 때문에 설치가 한참 걸린다 대략 6.23GB
https://velog.io/@pjs102793/Triton-Inference-Server%EC%97%90%EC%84%9C-TensorRT-Engine-Inference