다음 항목:전직 SageMaker PM의 2021년 AI/ML 릴리즈 발명
AWS의 모든 새로운 MLOps 도구에 대한 심층 분석
매년 12월 아마존 웹 서비스(AWS)는 고객을 위한 새로운 머신 러닝(ML) 기능을 출시한다. 그것은 보통 매진되는 라스베이거스의 액션으로 가득 찬 행사이다. 많은 뉴스들이 있습니다. 데이터 과학 커뮤니티를 위해 그것을 추출해 보겠습니다.
이전에 Cloud MLOps Platforms on Torwarding Data Science에 대해 썼고 현재 응용 ML 스텔스 스타트업을 구축하고 있습니다. 이전에 AWS SageMaker, Facebook에서 AR/VR(컴퓨터 비전) 데이터, Tools 및 Operations Lead의 수석 제품 매니저로 근무했으며 신흥 시장 채권에 투자한 응용 ML 헤지 펀드의 창립자로 근무했습니다. 언제든지 Linked에서 트윗이나 메시지를 보내십시오.댓글로.
지난 2년 동안, 저는 ML 제품을 적용하기 위한 간단한 프레임워크가 있다는 것을 관찰했습니다: Applied AI/ML 서비스, MLOps 플랫폼, ML 프레임워크. 맨 아래에는 ML 라이브러리(PyTorch, Jax, XGBoost)에 걸쳐 컴파일러와 실리콘(GPU, ARM, TPU, ASIC)을 계산하는 프레임워크가 있다. 가운데에는 교육, 추론 시스템, 메타데이터 관리, 데이터 처리, 워크플로우 엔진 및 노트북 환경과 같은 MLOps 플랫폼 SDK가 있습니다. 마지막으로 맨 위에 있는 것이 AI/ML 서비스이며, 아래 계층을 추상화합니다. AWS는 Consolid of Textract를 통해 AI 서비스를 판매하게 되어 기쁘지만, 제가 상담한 거의 모든 기업은 복잡성을 관리하고 적합한 도구를 통합하는 자체 ML 팀을 갖는 것을 선호합니다. 제 프레임워크 내역은 표준 AWS AI/ML 마케팅 슬라이드 중 하나에서 실제로 사용되고 있습니다.
세이지메이커 제품은 낮은 수준의 프레임워크에서 AI 서비스에 이르기까지 다양하다. 그들의 제품 포지셔닝은 Gartner Magic 쿼드런트에서 좋은 점수를 받는 모든 업종의 잭이 되는 것을 목표로 하지만, ML 팀의 CIO와 관리자들은 여전히 그 효과에 대해 널리 논의되고 있습니다. 그럼에도 불구하고, 2021년 기준:발명, SageMaker는 MLOps 플랫폼과 AI 서비스 사이의 경계를 모호하게 하는 동시에 프레임워크에서 새로운 딥 러닝 도구를 배송한다.
의심할 여지 없이, SageMaker는 올해 딥 러닝(DL) 기능에 큰 중점을 두었다. 지난 7월, 그들의 리더십은 훈련과 추론의 직접적인 제품 협업을 위해 Hugging Face와 협력함으로써 전례 없는 일을 했다. 오픈소스 스타트업과 제휴한 AWS의 실적은 다른 클라우드 제공업체들에 비해 눈에 띄지만, 허그페이스가 자연어 처리(NLP) 라이브러리에서 우위를 점한 것이 시너지 효과를 톡톡히 봤다.
Training Compiler — 이 제품은 텐서 작업을 실행하기 위해 서로 다른 AWS 독점 라이브러리를 사용하여 DL 모델의 교육 시간을 줄이는 것을 목표로 한다. DL 모델은 다차원 매트릭스로 구성되며, 신경망의 각 계층은 훈련 중에 일련의 수학적 연산을 실행한다. 각 연산 유형(더하기, 빼기 등)은 연산자로 분류할 수 있습니다. Numpy에는 1,000개 이상의 운영자가 있으며 여러분은 제 친구 Chip으로부터 이 주제에 대해 더 많이 읽을 수 있습니다. AWS는 고객이 텍스트로 딥러닝 사용을 가장 많이 한다는 베팅인 NLP 모델을 강조하기로 했다. CIO의 통화에서도 비슷한 경향을 보았습니다. 그러나 다양한 NLP 고객이 일반적으로 사용할 수 있는 제품을 제공하는 것은 몇 가지 과제를 극복하지 못했다고 생각합니다.
첫째, SageMaker는 교육 작업을 실행하는 데 필요한 자체 컨테이너를 보유하고 있습니다. 누락된 연산자가 있는 경우 라이브러리가 최적화된 버전을 지원할 때까지 교육 작업을 실행할 수 없습니다. 폴백 메커니즘은 작업 속도를 늦추는 큰 병목 현상을 초래합니다. 교육 제품에 대한 FAQ는 이러한 우려를 강조합니다. “SageMaker Training Compiler를 통해 항상 더 빠른 교육 작업을 수행할 수 있습니까? 꼭 그렇지만은 않습니다. 둘째, 컨테이너와 컨테이너 설치 대상을 완벽하게 제어해야 한다면 AWS 팀의 화이트 글러브 서비스가 필요합니다. 셋째, 실험 단계에서 모델을 여러 번 반복할 경우 교육 작업의 시작 시간이 악화되어 개발 속도가 느려집니다. 내가 이것을 어떤 ML 팀에도 추천하기는 어려울 것이다. 심지어 POC를 실행하는 것조차 대부분의 딥 러닝 사용 사례에서 노력을 기울일 가치가 없을 것 같다.
Ground Truth Plus - Ground Truth Plus를 통해 기업은 프로젝트 요청을 제출할 수 있으며, SageMaker Program Manager는 프로젝트를 관리하는 직원과 일치시킵니다. 플러스와 표준 그라운드 트루스의 유일한 차이점은 근로자 경영이다. 오디오 전사, 세분화, 분류, 심지어 3D 포인트 클라우드 레이블링과 같은 대부분의 딥 러닝 데이터 요구에서, 많은 스타트업이 이러한 서비스를 제공하는 데 수년간의 경험을 가지고 있다. 그 예로는 개인 스타트업 Scale이 있다.AI, 사회적 책임 있는 데이터 주석 공급업체 Samasource 및 Canadian Telus(Lionbridge 인수를 통해).
SageMaker는 또한 스튜디오 노트북을 위한 몇 가지 새로운 기능을 출시했습니다.
SageMaker Studio Lab — Google Collab과 유사한 노트북을 실행할 수 있는 무료 서비스입니다. 이 제품은 ML에 대해 자세히 알아보고 무료 컴퓨팅에 액세스하고자 하는 열성 커뮤니티에 적합합니다. 그러나 이는 대부분의 기업 고객에게 도움이 되지 않습니다. 저는 제품을 사용하려고 대기자 명단에 올라 있어서, 사용 후까지 더 자세한 코멘트를 예약하겠습니다.
SageMaker Canvas — SageMaker Autopilot을 사용해 본 적이 있는 경우, Canvas는 더 많은 Studio 그래픽 도구로 해당 제품을 포장하여 코딩 작업을 최소화합니다. 빠른 ML 실험을 원하는 조직에서 Python 데이터 과학 경험이 없는 비즈니스 분석가에게 이 기능을 노출시키면 분명히 이점이 있습니다. 다시 말해, 대규모 Snowflake 및 Redshift 사용자 기반을 가진 모든 기업은 데이터 분석가가 데이터 과학자를 불러 지원을 받기 전에 먼저 Canvas로 POC를 실행하도록 함으로써 TCO를 최적화할 수 있습니다. 여기서 문제는 이러한 쿠키 절단 모델이 해결할 수 있는 문제의 유형이 좁고 표 형식의 데이터 기반 ML에 대한 문제의 큰 부분이 데이터 처리에 있다는 점이다. US-West-1에서는 글을 쓸 때 캔버스를 사용할 수 없으며, 플레이한 후에 더 자세한 내용을 공유할 수 있습니다.
SageMaker Studio Spark Connector — Spark는 아마도 가장 널리 사용되는 분산 데이터 처리 시스템 중 하나일 것입니다. ML 이전의 데이터 전처리의 경우, 이는 개발자 환경을 단순화하기 위한 출발점이다. Fortune 500대 기업 중 대다수는 Spark에 일부 구축되어 있으며, 배포는 인스턴스(베어메탈), Kubernetes(Spark Operators), Databricks 및 AWS의 EMR에 따라 다양합니다. EMR 고객보다 더 많은 Databricks를 본 적이 있지만, 비 EMR 스파크 지원은 중단될 수 있습니다. 이는 개발자 경험 향상이며 성능에 도움이 되지 않는다는 점에 주목할 필요가 있습니다. 대규모 분산 처리 작업은 일반적으로 데이터와 계산이 함께 배치될 때 가장 잘 실행됩니다. 그러나 데이터 처리를 위한 EMR과 ML 모델 교육을 위한 SageMaker는 완전히 별도의 두 컴퓨팅 환경에서 실행된다.
마지막으로, SageMaker 추론 추천자도 있었습니다. SageMaker와 대부분의 AWS 제품은 인스턴스 개념에 의존한다. SageMaker 계산 작업은 기본적으로 사용자 지정 런타임, AMI 및 컨테이너가 있는 표준 EC2 노드 풀에서 실행됩니다. 인스턴스는 개별적이지만 트래픽과 워크로드는 연속적인 분산에 속하기 때문에 제가 함께 일했던 많은 기업에서 ML 워크로드를 Kubernetes에서 실행했습니다. 영구 서비스를 0에서 탄력적으로 확장할 수 있는 Kubernetes의 네이티브와 같은 툴이 있으며 리소스 구성 파일을 통해 use spot 인스턴스를 사용할 수 있습니다. 셀던 코어와 KS와 같은 라이브러리들은 이러한 특징들을 다른 특징들과 함께 설치 가능한 쿠버네티스 매니페스트에 함께 패키지화한다.
SageMaker Inference 추천자는 각 인스턴스 유형에 대한 지연 시간 및 처리량 메트릭을 제공하여 이러한 격차를 줄이려고 시도합니다. 인스턴스 계산 비용은 사용자가 부담해야 합니다. SageMaker는 모델 서비스를 서버를 줄이거나 회사의 기존 컴퓨팅 클러스터에 연결하는 데 더 많은 투자를 하는 대신 반창고를 사용하기로 결정했습니다. 고객에게 이 기능이 정말 필요한 경우, 이 추론 추천자가 제공하는 것을 수행하기 위한 스크립트를 작성하는 것은 매우 간단합니다. 사실 주요 고객인 Intuit이 바로 그 일을 했습니다. 올해 초 Github에서 그들의 오픈 소스 코드를 볼 수 있습니다.
관리형 서비스는 여전히 기업에 엄청난 가치를 제공합니다. 일상적인 구성 및 설정을 오프로드하여 IT 조직의 총 소유 비용을 절감합니다. 그러나 이 분야는 너무 빠르게 변화하고 이 시점에서 SageMaker와 다른 주요 MLOps 플랫폼을 위한 실제 최종 게임은 한 가지뿐입니다. 그들은 그들의 도구와 컴퓨터 엔진을 Kubernetes에서 실행해야 한다. Microsoft Azure와 GCP는 이미 ML 플랫폼에서 이러한 종류의 기능을 제공합니다.
쿠베르네테스 오픈 소스 도구의 MLOps 도구 생태계는 빠르게 성장했다. 쿠베플로 파이프라인과 같은 몇몇 대형 브랜드들은 기업에서 매우 인기 있는 제품이 되었다. SageMaker는 MLOps 파이의 많은 부분을 차지할 수 있지만, 오늘날에는 대부분 벽으로 둘러싸인 정원 방식을 채택하고 있습니다. 즉, 단대단 ML 워크플로우가 잘 실행되도록 하려면 ML 팀이 오픈 소스, 자체 개발 및 여러 벤더 서비스를 계속해서 혼합하고 일치시켜야 합니다.
즉, 2021년 발표 내용은 다음과 같다.AI/ML에서의 발명품은 아무리 좋게 말해도 재미없었다. 고객의 수요 부족 때문도 아닙니다. Morgan Stanley CIO 조사에 따르면 분석(AI/ML)은 분기별로 여전히 5대 고려 사항입니다. 기업은 자사의 MLOps 팀에 지속적으로 투자해야 합니다. MLOps 팀은 어떤 솔루션이 적합한지 선별적으로 선택할 수 있습니다. 25명 이상의 데이터 과학자가 있는 모든 기업은 AWS SageMaker와 같은 도구를 단독으로 사용할 수 없습니다. 툴링 옵션과 생태계의 상태에 대해 자세히 알아보려면 이전 게시물을 확인하십시오.
이 모든 것을 고려해 볼 때, SageMaker의 많은 엔지니어들과 함께 일했던 사람으로서, 저는 그들이 업계의 판도를 바꾸는 장기적인 베팅에 투자하고 있다고 확신합니다. 그러나 이들 중 많은 수가 2021년까지 준비되지 않은 것으로 보인다.발명하다.