• 단일 요청 테스트: Postman 등 API 테스트 도구를 사용하여 vLLM 컨테이너의 엔드포인트를 확인할 수 있습니다.
  • 오토스케일링 테스트: Locust를 사용해 부하를 시뮬레이션하고 레플리카 확장 동작을 검증할 수 있습니다.
  • 사용량 지표: 레플리카 수, 요청 처리율, 시스템 응답 시간 등을 모니터링할 수 있습니다.
  • 실행 로그(Runtime Logs):
    • 각 컨테이너 인스턴스 및 레플리카별로 로그가 표시됩니다.
    • Air Cloud 대시보드에서 실시간 및 과거 로그를 확인할 수 있습니다.
    • 로그는 최신 순(내림차순)으로 정렬됩니다.
    • 시간 범위, 컨테이너, 인스턴스 ID 기준으로 필터링할 수 있습니다.
    • 로그에는 시작 명령어 출력, 헬스 체크 상태, 오류 메시지, 모델 서버의 stdout/stderr 정보가 포함됩니다.
    • 컨테이너가 실패한 경우에도, 로그는 일정 기간 동안 보존되어 디버깅에 활용할 수 있습니다.
  • 설정 변경: 엔드포인트 설정은 컨테이너가 정지된 상태에서만 수정할 수 있습니다.