MLOps: ML 기반 애플리케이션 확장을 위한 일련의 필수 작업 방식
MLOps는 데이터 과학자, 데이터 엔지니어 및 DevOps 전문가 간의 협업 및 커뮤니케이션을 위한 일련의 관행입니다. 이러한 관행을 적용하면 솔루션의 품질이 향상되고 관리 프로세스가 간소화되며 대규모 프로덕션 환경에서 머신러닝 및 딥러닝 모델의 배포가 자동화됩니다. MLOps를 사용하면 규제 요구사항뿐만 아니라 비즈니스 요구 사항에 맞춰 모델을 보다 쉽게 조정할 수 있습니다.
MLOps는 ML 라이프사이클 관리에 대한 독립적인 접근 방식으로 서서히 발전하고 있다. 데이터 수집, 모델 생성(소프트웨어 개발 라이프사이클, 지속적인 통합/연속 제공), 조정, 구현, 상태, 진단, 거버넌스 및 비즈니스 ROI 검증 등 전체 라이프사이클에 적용됩니다. 다음 그림은 MLOps의 엔드 투 엔드 프로세스를 나타냅니다.
본 시리즈의 첫 번째 기사에서, 우리는 XOps를 규모에 맞게 프로덕션 비즈니스 애플리케이션을 설정하고 실행할 수 있는 미래로 소개했습니다. Tredence의 XOps 제품은 고객에게 사내 전문가, 강력한 파트너십, 그리고 프로덕션 비즈니스 프로세스 가치 사슬의 각 지점에 적합한 가속기를 제공합니다. 또한 BizOps, DevSecOps 및 DataOps에 대한 전체 개요를 공유했습니다.
이 기사에서는 엔터프라이즈급 프로덕션 시스템에서 이러한 일련의 사고를 계속하여 조직 전체의 ML/AI 혁신 관리에 깊이 파고들고자 합니다. 중요한 비즈니스 애플리케이션은 비즈니스 이해관계자나 최종 소비자/고객에게 관련 통찰력을 지속적으로 제공하도록 지속적으로 최신 상태를 유지해야 합니다. 또한 응용프로그램의 기밀성, 무결성, 접근성 및 규정 준수가 유지되도록 응용프로그램 및 프로세스 보안을 유지해야 합니다.
MLOps가 왜 필요한가요?
프로덕션에서 모델을 관리하는 것은 어렵습니다. 머신러닝의 가치를 최적화하기 위해서는 머신러닝 모델이 비즈니스 애플리케이션의 효율성을 향상시키거나 프로덕션에서 실행됨에 따라 더 나은 결정을 내리기 위한 노력을 지원해야 합니다. MLOps 관행 및 기술을 통해 기업은 ML을 배포, 관리, 모니터링 및 관리할 수 있습니다.
중요한 데이터 과학 관행은 모델 관리 및 운영 기능을 더 많이 포함하도록 진화하고 있으며, 모델이 잘못된 결과를 초래하여 비즈니스에 부정적인 영향을 미치지 않도록 보장합니다. 이제 업데이트 데이터 세트를 사용한 모델 재교육에는 프로세스 자동화, 모델 드리프트 인식 및 중요해질 때 알림이 포함됩니다. 각 측면도 마찬가지로 중요합니다. 또한 모델 성능은 기본 기술인 MLOps 플랫폼을 유지하고 모델이 업그레이드를 요구하는 시기를 인식하여 성능을 향상시키는 데 의존한다.
이것은 데이터 과학자들의 연구가 변하고 있다는 것을 의미하지 않는다. 이는 머신러닝 운영 방식이 데이터 사일로를 없애고 팀을 넓히고 있다는 것을 의미합니다. 이러한 방식으로 데이터 과학자는 MLOps 엔지니어가 이미 생산 중인 ML을 관리할 수 있도록 권한을 부여하면서 범위를 벗어날 수 있는 플랫폼 엔지니어링 결정을 내리는 대신 모델을 구축하고 배포하는 데 집중할 수 있습니다.
오늘날 ML은 금융 서비스, 통신, 의료, 소매, 교육 및 제조와 같은 광범위한 분야에 큰 영향을 미칩니다. 이러한 모든 분야에서 ML은 마케팅 및 영업에서 비즈니스 인텔리전스에 이르기까지 비즈니스 크리티컬 사용 사례에서 더 빠르고 더 나은 의사 결정을 유도하고 있습니다.
MLOps에 적응하지 못하는 동안 볼 수 있는 주요 문제 중 일부는 다음과 같습니다.
-
배포 관련 문제: 기업은 모델이 배치되지 않아 AI의 이점을 충분히 인식하지 못하고 있다. 또는 구축된 경우 비즈니스 요구사항을 충족하는 속도나 규모가 아닙니다.
-
모니터링 관련 문제: 기계 학습 모델 상태를 수동으로 평가하는 것은 시간이 많이 걸리고 모델 개발에서 리소스를 빼앗는다.
-
라이프사이클 관리의 문제: 모델 붕괴를 식별할 수 있더라도 조직은 프로세스가 리소스 집약적이기 때문에 생산 중인 모델을 정기적으로 업데이트할 수 없습니다. 수동 코드가 취약하고 정전 가능성이 높다는 우려도 있다.
-
모델 거버넌스 문제: 기업은 다양한 배치 프로세스, 모델링 언어, 그리고 조직 전반의 프로덕션에서 AI에 대한 중앙 집중식 뷰가 부족하기 때문에 규정 준수를 보장하기 위해 시간이 많이 걸리고 비용이 많이 드는 감사 프로세스가 필요합니다.
Tredence는 기업이 MLOP를 구현하는 데 어떤 도움을 줄 수 있습니까?
Tredence의 모니터링 도구는 이러한 모든 요소를 하나로 통합하고 모든 자동화를 모니터링하며 모든 문제에 대해 사용자에게 알릴 수 있도록 지원하는 허브입니다. 이 도구는 다양한 캐릭터를 위한 원스톱 대시보드이며 대규모 기업에서 서로 다른 팀 간의 격차를 해소하는 데 도움이 됩니다. 아래 이미지에서는 Tredence의 최신 MLOps 실습으로 무엇을 다룰 수 있는지 살펴봅니다.
ML Works 기능 이점
프로벤스 추적
파이프라인 유효성 추적을 통해 문제를 신속하게 식별하고 해결할 수 있습니다.
모니터링
개인 정보 기반 메트릭은 데이터 과학자, 데이터 엔지니어 및 비즈니스 사용자와 같은 다양한 ML 개인에게 가시성을 제공합니다.
데이터 드리프트
사전 예방적 모델 수정을 위한 자동 트리거 경고를 통한 데이터 이동 모니터링
설명 가능성
모델의 내부 작동에 대한 설명 가능 이해
데이터 품질
입력 데이터 품질 및 완전성을 추적하여 모델 새로 고침 프로세스에서 사전 대응 가능
생산 준비 상태
데이터 과학자를 위한 표준 코드 지침으로 개발 및 CI/CD 프로세스 가속화
ML 테스트 프레임워크
다양한 기준에서 다양한 ML 실험을 테스트하고 신중하게 결정을 내린 후 프로덕션 워크로드에 배포할 모델을 선택
비즈니스 영향
머신 러닝의 비즈니스 영향은 인상적이면서도 광범위합니다.
-
통신 회사의 고객 이탈을 줄이기 위한 목표 캠페인
-
보험사에 대한 투명한 심사 절차
-
고객 중심 비즈니스를 위한 ML/AI 혁신 속도 가속화
ML 시스템과 의존성은 지능형 생산 시스템에 대한 기하급수적인 수요의 지점에 도달했으며, MLOps는 기술 분야에서 인간이 더 발전하기 위한 열쇠이다.
결론적으로
다양한 산업 분야에서 ML의 사용이 증가하고 유지 가능하고 확장 가능한 ML 기반 애플리케이션의 필요성에 따라, 향후 몇 년 동안 AI와 함께 일하는 모든 사람들에게 MLOps 문화의 채택이 표준이 되어야 한다. 결국, MLOps는 대규모 프로젝트에 필수적인 것으로 입증되었고 그 채택은 광범위한 이익을 창출했다. 현재 데이터 과학 및 엔지니어링 팀이 프로젝트를 관리하는 데 도움을 주는 MLOps 툴은 MLFlow, DVC, TFX, 쿠베플로우와 같은 오픈 소스 툴부터 AWS SageMaker, Valohai, Algorithia, DataRobot, Neptune.ai과 같은 클라우드 리소스에 이르기까지 여러 가지가 있다. 이 목록은 여기서 끝나지 않으며 지속적인 업데이트, 제품, 알고리즘 등이 매일 나타납니다.