MLOps: 다가오는 빛나는 별

전체 스택 머신 러닝 시스템을 구축하기 위한 올바른 경로입니다. MLOps는 ML 라이프사이클 관리를 간소화하기 위한 새로운 관행이다.

도대체 왜 ‘완벽한 모델’을 만드는 것을 우선시해서는 안 되는 걸까요?

더 읽기 전에, 나는 네가 이 논문을 읽을 것을 건의한다. 그것은 관련된 모든 문제를 상세히 논한다.

ML 앱을 개발하는 동안 일반적으로 발생하는 주요 장애물은 다음과 같다.

머신러닝 모델 생산의 당면과제

복잡한 모형 추상화 경계

전통적인 소프트웨어 엔지니어링 관행은 캡슐화와 모듈식 설계를 사용하는 강력한 추상화 경계가 고립된 변경과 개선을 쉽게 할 수 있는 유지 가능한 코드를 만드는 데 도움이 된다는 것을 보여주었다. 그러나 ML의 경우 외부 데이터에 대한 의존성 때문에 엄격한 조치를 시행하기가 어려워진다.

데이터 종속성

데이터 종속성은 코드 종속성보다 비용이 더 많이 듭니다.

데이터 과학자 샌드박스의 평가 단계에서 수행된 훈련 및 단계에 데이터를 제공하는 것은 실제 시나리오에서 크게 다를 수 있다. 사용 사례에 따라 시간이 지남에 따라 데이터가 변경되고 규칙성이 부족하면 ML 모델의 성능이 저하된다.

단순하고 복잡한 파이프라인

단순한 모델을 교육하여 추론하고 예측을 생성하는 것은 비즈니스 통찰력을 얻기 위한 간단한 방법이지만, 이것만으로는 충분하지 않습니다. 실제 사례에서는 규칙성이 필요하며 데이터 호수에서 가져올 새로운 데이터에 대해 시간 모델을 재교육해야 한다. 그래서 많은 모델들이 있을 것입니다.

구성 부채

모든 대형 시스템은 어떤 기능을 사용하고 있는지, 데이터를 선택하는 방법, 다양한 알고리즘별 학습 설정, 잠재적 전/후 처리, 검증 방법 등을 포함하여 구성 가능한 다양한 옵션을 가지고 있다. 활발히 개발되고 있는 성숙한 시스템에서, 구성 행의 수는 전통적인 코드의 행의 수를 훨씬 초과할 수 있다. 각 구성 라인에는 실수 가능성이 있습니다.

재현성 부채

실험을 다시 실행하고 유사한 결과를 얻을 수 있는 것도 중요하지만, 엄격한 재현성을 위해 실제 시스템을 설계하는 것은 무작위 알고리듬, 병렬 학습에 내재된 비결정론, 초기 조건에 대한 의존, 외부 세계와의 상호 작용으로 인해 어려운 작업이다.

생산 ML 위험

ML 모델이 예상 범위 내에서 수행될 경우 항상 ML 모델이 수행되지 않을 위험이 있으며 지속적인 모니터링과 평가가 필요하다. 실시간 데이터에 레이블이 없으므로 Accuracy, Precision, Recall 등과 같은 실시간 데이터 메트릭에서는 사용할 수 없습니다.

프로세스 및 협업

프로덕션에서 ML은 데이터 과학자, 데이터 엔지니어, 비즈니스 분석가, 운영 등과 같은 프로덕션 등급 ML 시스템을 처리하는 여러 가지 기능을 필요로 합니다. 다른 팀들이 다양한 결과에 집중할 것이다. 데이터 과학자는 정확성을 개선하고 데이터 편차를 감지하는 데 주력할 것입니다. 비즈니스 분석가는 KPI를 향상하고 운영 팀이 가동 시간과 리소스를 확보하기를 원합니다. 데이터 사이언티스트 샌드박스와 달리 프로덕션 환경은 모델, 알고리즘, 파이프라인 등과 같은 많은 개체를 가지고 있으며 이러한 개체의 버전 지정은 또 다른 문제이며 ML 모델을 저장하기 위해 개체 스토리지가 필요하며 소스 제어 저장소는 최상의 옵션이 아니다.

MLOps란?

MLOps는 ML 이니셔티브를 자동화 및 확장하기 위해 ML 라이프사이클을 최적화하고 프로덕션에서 ML의 비즈니스 수익을 최적화하여 ML 기술이 비즈니스 이점을 창출할 수 있는 문화와 환경을 구축합니다. MLOps는 데이터 과학자 및 서비스의 혼합 기능을 제공합니다.

MLOps는 다양한 사용자(예: Data Scientist, Data Engineer, Business Analysis 및 ITOps) 간에 ML 운영에 대한 협업을 지원하고, 비즈니스 애플리케이션에 대한 ML 운영의 영향 또는 ROI(투자 수익)를 데이터 중심으로 지속적으로 최적화할 수 있도록 지원합니다.

왜 그러시죠?

위의 내용을 보면 ‘MLOps’의 필요성은 무엇이며, 무엇이 인공지능의 현대 시대에 이러한 하이브리드 접근법의 등장으로 이어졌는지를 잘 알 수 있다. 이제 ‘무엇’에서 ‘왜’로 넘어갑시다. 애초에 MLOps를 사용하게 된 이유에 대해 설명하겠습니다.

여러 파이프라인의 오케스트레이션

기계 학습 모델의 개발은 단일 코드 파일 작업이 아니다. 대신, 그것은 그들의 역할을 수행하는 다른 파이프라인의 결합을 포함한다.

사전 처리, 피처 엔지니어링 모델 교육 및 모델 추론 등과 같은 1차 프로세스를 위한 파이프라인은 머신 러닝 모델 개발의 큰 그림과 관련이 있다.

MLOps는 모델을 자동으로 업데이트하기 위해 이러한 여러 파이프라인의 간단한 오케스트레이션에 필수적인 역할을 한다.

MLOps의 전체 수명 주기 관리

기계 학습 모델의 라이프사이클은 소프트웨어 엔티티로 개별적으로 고려되어야 하는 서로 다른 하위 부분으로 구성된다.

이러한 하위 부품은 DevOps에서 처리하는 경우가 많은 자체적인 관리 및 유지보수가 필요하지만 기존 DevOps 방법을 사용하여 관리하는 것은 어렵습니다.

MLOps는 빠르고 안전하게 최적화하고 머신러닝 모델을 배치할 수 있는 우위를 제공하는 사람, 프로세스 및 기술의 조합을 포함하는 새롭게 등장한 기술이다.

ML 응용 프로그램 확장

앞서 주제에서 말한 것처럼 모델 개발은 걱정할 문제가 아니며, 진짜 문제는 모델을 규모에 맞게 관리하는 데 있다.

수천 개의 모델을 한 번에 관리하는 것은 모델의 성능을 규모에 맞게 테스트하는 매우 번거롭고 어려운 작업이다.

MLOps를 사용하면 생산 중인 수천 개 모델의 파이프라인을 자연스럽게 관리할 수 있습니다.

ML 상태 유지

ML 모델의 배포 후 ML 상태를 유지하는 것은 사후 프로세스의 가장 중요한 부분이다. ML 모델이 완벽하게 작동하고 관리될 수 있도록 하는 것이 중요하다.

MLOps는 자동화된 방식으로 다양한 드리프트(모델 드리프트, 데이터 드리프트)를 감지할 수 있도록 하여 최신 ML 건강 방법을 제공한다.

시스템에서 최신 에지 절단 알고리듬을 사용하여 이러한 드리프트를 감지하여 ML 상태에 영향을 미치기 전에 이러한 드리프트를 방지할 수 있는 기능을 제공할 수 있다.

지속적인 통합 및 구축

지속적인 통합 및 배포는 모든 소프트웨어 제품 개발 절차에서 DevOps를 사용하게 된 유일한 목적 중 하나입니다.

그러나 ML 모델의 운영성 크기 때문에 다른 소프트웨어 제품에 사용되는 것과 동일한 지속적인 통합 및 배포 방법을 사용하는 것이 어렵다.

MLOps는 ML 모델 분야에서 지속적인 통합 및 배포 서비스를 보장하는 데 특화된 다양한 전용 도구와 기술을 사용할 수 있는 손을 제공할 수 있다.

모델 거버넌스

모델 거버넌스 하에서 MLOps는 대규모 속성 모니터링에 적용함으로써 풍부한 모델 성능 데이터를 제공할 수 있다.

또한 중요한 순간을 분석하기 위해 파이프라인의 스냅샷을 생성할 수도 있습니다.

또한 MLOps에 따른 로깅 시설 및 감사 추적을 보고 및 규정 준수의 연속성에 사용할 수 있습니다.

MLOps와 DevOps는 어떻게 다릅니까?

데이터/모델 버전 지정!= 코드 버전 지정

모델 재사용은 시나리오와 데이터를 기반으로 조정해야 하므로 소프트웨어 재사용과는 완전히 다른 경우가 있습니다.

모델을 재사용하려면 미세 조정이 필요합니다. 학습 내용을 전달하면 교육 파이프라인으로 이어집니다.

재교육 능력은 시간이 지남에 따라 모델들이 쇠퇴하기 때문에 온디맨드 방식으로 요구됩니다.

풀 스택 머신 러닝 개발에 대해 이야기해 볼까요?

이미 요점을 파악하셨겠지만, 좀 더 자세히 말씀드리겠습니다.

ML 시스템을 개발하는 것은 모델을 개발하는 것이 아니라 훨씬 더 많은 것입니다. 구성, 데이터 수집, 배포, 서비스 등(위 참조)
따라서 신속하지만 안전하고 신뢰성이 높지만 일반적이며 개발 친화적이지만 생산 친화적인 ML 개발에서 소프트웨어 개발의 모든 모범 사례를 복제해야 합니다.
DevOps가 소프트웨어 개발을 풀스택 개발로 돕고 있는 것처럼 ML 개발에서 풀스택 ML 개발까지 MLOps가 도울 것입니다.

ML 개발에 MLOPS를 수용하면 ML 시스템에 대한 신뢰가 항상 보장된다.