IEEE Globecom 2023에서 공개한 차세대 자동화 ML 솔루션 ‘AutoMLPoweredNetworks’

December 20, 2023 홍문기 외 1명 조회수 2,051

차세대 네트워크에서는 다양한 서비스와 단말로 인해 발생하는 서로 다른 형태의 트래픽 패턴이 증가할 것으로 예상되어, 이를 최적화할 수 있는 적절한 기계 학습(Machine Learning, ML) 모델 선택 및 이를 학습하기 위한 컴퓨팅 자원 할당이 중요해지고 있습니다. 그런데 서비스 요구 사항, 문제 유형, 학습 및 모델 배포 주기, 학습을 위해 활용할 수 있는 자원 상태가 모두 다르고 수시로 변하는데 이를 수동적으로 관리하는 것은 불가능에 가깝습니다. 저희는 이런 과제를 해결하고자 ML 모델 선택 및 관련 변수(학습 주기, 오류 정정, 정확도 분석 등)와 자원 할당을 자동화하는 기술인 AutoMLPoweredNetworks를 연구하고 제안했으며, 오는 12월에 개최되는 IEEE Globecom 2023에서 이러한 연구 결과를 발표하게 되었습니다.

들어가며

오늘날에는 이기종 트래픽 패턴을 생성하는 다양한 기기 및 서비스가 존재합니다. 이러한 환경에 맞게 주어진 네트워크에서 ML 자원을 효과적으로 활용하기 위해서는 적절한 ML 모델을 신중하게 선택하고 할당하는 것이 매우 중요합니다[1]. 그러나 이 과정에서 ML 자원의 가용성, 특정 서비스의 요구 사항, AI/ML 응용 애플리케이션에 따른 문제 유형, ML 주기(데이터 수집 간격 및 예측 빈도), 허용 가능한 오류 임곗값 및 원하는 모델 정확도 등 다양한 요소를 고려해야 하고, 이를 수동으로 관리하면 상당한 문제가 발생할 수 있습니다.


이러한 수동 프로비저닝은 종종 잘못된 모델 선택과 ML 자원 할당량 부족을 초래하여 결과적으로 서비스 품질 저하, 네트워크 운영자의 운영 비용 증가, 또는 가입자 손실과 같은 불이익으로 이어질 수 있습니다. 따라서, ML 모델 선택, 관련 변수 설정(주기, 오류, 정확도) 및 ML 자원 프로비저닝 방식을 자동화해야 합니다.


이를 그림 1에 표현해 보았습니다. 많은 서비스와 셀이 대량의 데이터를 생성하는 5G 네트워크에서 ML 서비스를 수동으로 관리하는 것은 최적화되지 않은 ML 모델 선택으로 이어질 수 있습니다. 그리고 이는 주어진 컴퓨팅 자원의 비효율적인 활용과 ML 모델의 학습 및 예측 성능 저하를 초래할 수 있습니다. 이에 따라 서비스 품질(Quality of Service, QoS) 및 사용자 경험 품질(Quality of Experience, QoE)을 낮추고 결국 서비스 수준 협약(Service Level Agreement, SLA)을 위반할 가능성이 커집니다[2].


만일 지하철에서 휴대전화로 대한민국 축구 대표팀의 아시안컵 경기를 실시간으로 시청하는 동안에 품질이 저하되어 중계가 끊긴다면 어떤 일이 벌어질까요? 이런 경우에는 시청자가 불만족하여 서비스를 중단하고 다른 이동통신 사업자로 바꿀 가능성이 있습니다. 즉, 서비스 품질 저하와 SLA 위반이 사용자 이탈로 이어질 수 있습니다[2]. 더 나아가, 부적절한 ML 모델을 통한 서비스 운영과 컴퓨팅 자원 활용은 운영자에게 비용 상승을 초래할 뿐만 아니라 운영 효율성을 저해할 수 있습니다.


그림 1. ML 서비스 수동 프로비저닝에 따른 문제 정의

이번 연구 결과에 대한 소개



이번 연구에서는 이러한 문제를 해결하기 위해 차세대 네트워크에서 기계 학습 서비스를 제공하기 위한 자동화된 솔루션인 AutoMLPoweredNetworks를 소개합니다.

이 솔루션은 실제 망 데이터를 활용하여 성능 개선 가능성을 입증하였으며, 이러한 결과를 바탕으로 IEEE Globecom 2023에서 발표되었습니다[3].


AutoMLPoweredNetworks는 전체 네트워크 운영 및 유지를 관리하는 SMO(Service Maintenance & Orchestration) 모듈에서 AI 서버를 활용하여 네트워크를 최적화하기 위한 일련의 단계를 수행합니다(아래 설명, 그림 2).


  1. 네트워크에서 이상이 감지되면 SMO는 AI 서버의 도움을 받아 해당 기지국인 eNB/gNB(Node B)에서 데이터를 수집하고 이상을 수정합니다. 네트워크 핵심 성능 지표(Key Performance Indicator, KPI)는 주기적으로 eNB/gNB에서 추출되어 데이터 레이크에 저장됩니다.
  2. AutoMLPoweredNetworks 프레임워크는 실제 AI/ML이 데이터에 적용되고 AI 서버에서 솔루션을 예상하기 전에 AI/ML 작업을 최적화합니다. 이 프레임워크는 여러 기지국의 네트워크 KPI를 그룹별로 끌어오고, 응용 애플리케이션을 선택합니다. 선택된 애플리케이션은 데이터 유사도를 판단하는 알고리즘을 실행하고, 가장 적합한 알고리즘을 자동으로 추적합니다. 이때 고려되는 알고리즘에는 DTW, Pcor, Kcor, Scor 등이 있습니다. 유사도 선택 알고리즘에 따라 해당 응용 애플리케이션은 동일한 특성을 나타내는 셀 중에서 그룹을 만듭니다. 각 그룹의 대표 셀은 무작위로 선택되거나 최대 이웃 셀 수를 기준으로 선택됩니다.
  3. 2단계에서 추출된 결과물(그룹 ID, 대표 셀 및 사용된 유사도 선택 알고리즘)은 자동 지능 학습 앱과 공유됩니다.
  4. 자동 지능 학습 앱은 대표 셀에 대한 학습 및 예측 요청을 AI 서버로 전송하고, 대표 셀에 사용할 수 있는 최상의 ML 모델을 알려줍니다. 또한 그룹에 속하지 않는 다른 셀에 대한 학습 요청을 보냅니다.
  5. AI 서버는 데이터 레이크에서 관련 데이터를 가져와 대표 셀에 대한 ML 모델을 학습하고 모델을 저장합니다.
  6. 모델과 정확도는 자동 지능 학습 앱으로 다시 전송됩니다.
  7. 자동 지능 학습 앱은 가져온 대표 셀의 모델을 사용하여 자동 평가 및 학습을 수행하고 결과를 공유합니다. 자동 평가 및 재학습 앱은 대표 셀의 ML 모델을 재사용하고 그룹의 대표 셀을 제외한 나머지 셀에서 예측을 수행하기 위해 이를 재사용합니다. 그런 다음 ML 모델이 재사용된 셀의 예측 정확도를 평가합니다.
  8. 그룹 내 특정 셀의 평가 정확도가 설정된 임곗값보다 낮으면 AI 서버로 재학습 요청을 보내고, 이때 모델은 적은 에포크(Epoch)로 일부 계층만 학습합니다.
  9. 재학습된 모델은 자동 평가 및 학습 앱으로 반환됩니다.


이 방식을 통해 AutoMLPoweredNetworks는 대표 셀의 ML 모델을 효과적으로 재사용하며, 그룹 내 다른 셀에서 학습을 최소화하여 ML 자원을 절약하는 기능을 제공합니다(그림 2).



그림 2. AutoMLPoweredNetworks 프레임워크 구조도

성능 개선 결과

우리는 이론은 이론일 뿐, 위대한 발견이 연구 단계에서만 머무르면 안 된다는 사실을 잘 알고 있습니다.

그렇기 때문에 이번에 제안한 AutoMLPoweredNetworks가 실제 네트워크 운영 성능 개선에 탁월한 효과가 있음을 실제 사업자의 망 데이터들을 기반으로 프레임워크를 학습하게 하여 실험적으로 증명하였습니다.

성능 검증을 위한 구체적인 방법론 및 실험 방법은 이번 IEEE Globecom 2023에서 저희의 발표 세션 및 논문을 통해 자세하게 확인해 보시면 좋을 것 같습니다[3].


ML과 관련하여 저희는 제안된 다양한 핵심 성능 지표를 기반으로, 세 가지 5G 데이터용 응용 애플리케이션의 효율성을 분석해 보았습니다. 그림 3은 5G 네트워크 데이터에 대한 다양한 ML 측정 KPI의 평균 이득을 보여주고 있습니다. 5G 데이터의 경우 서버 처리 시간의 39.94%, 서버 메모리 소비량의 60.46%, 그리고 서로 다른 네트워크 KPI의 평균 서버 활용량의 75.11%를 절약할 수 있음을 확인할 수 있었습니다.


또한, 5G 데이터에 대한 자원 사용률 KPI의 경우, 그룹 내 대표 셀의 학습 모델을 사용하여 유사한 셀을 학습했을 때 학습 정확도 측면에서 잘 수행된 셀이 97.89%인 것을 확인할 수 있었습니다. 그림 4는 5G 데이터에 대한 다양한 KPI에서 학습 횟수를 얼마나 절약할 수 있었는지를 분석한 결과입니다. 5G 데이터의 경우 셀 데이터 속도 네트워크 KPI에 대해 651회, 자원 사용률 네트워크 KPI에 대해 571회, 연결된 사용자 단말(User Entity, UE) 수 네트워크 KPI에 대해 725회의 학습 횟수를 절약할 수 있었습니다. 평균적으로, AutoMLPoweredNetworks를 통해 모든 네트워크 KPI에서 총 649회의 학습 횟수를 절약할 수 있었습니다.


이는 AutoMLPoweredNetworks 프레임워크가 실제 네트워크에서 자동화된 ML 모델 선택과 학습을 통해 효율적으로 자원을 활용하고 성능을 향상할 수 있음을 시사합니다. 다양한 KPI에서의 절약은 운영 비용을 절약하고 서비스 품질을 향상할 수 있는 아주 유의미한 결과입니다.



그림 3. 평균 이득 측정 결과



그림 4. 학습 횟수 절약 횟수 측정 결과

요약 및 향후 계획

이번에 발표한 연구 결과에서는 ML 모델의 자동 선택 및 ML 자원 최적화를 실현하는 혁신적인 프레임워크를 소개했습니다. 우리는 실제 5G 운영자 데이터를 활용하여 프레임워크의 성능을 평가하였으며, 제안된 ML 측정 KPI를 기반으로 상당한 향상을 확인할 수 있었습니다.


향후에는 더 많은 네트워크 변수를 고려하여 셀 그룹화 알고리즘을 더욱 정교화하고자 합니다. 이를 통해 네트워크의 다양성에 더 효과적으로 대응하고, ML 모델의 정확성을 높일 수 있을 것으로 기대됩니다. 그뿐만 아니라, 현재의 평가 애플리케이션에서 자동 학습 및 재학습 프로세스를 개선하여 고정된 재학습 Epoch가 아닌 동적으로 재학습 계층을 결정하는 자동화된 방식을 도입할 예정입니다. 이는 실제 환경에서 변화하는 데이터 패턴에 더 유연하게 대응할 수 있는 기능을 제공할 것입니다.


또한, 더 많은 유사도 선택 알고리즘을 채택 및 도입하여 대표적인 셀 선택 알고리즘의 성능을 향상할 계획입니다. 이를 통해 ML 모델의 다양성을 확장하고 여러 상황에서의 안정성을 강화할 것입니다. 이러한 계획으로 저희 연구가 더 실용적이고 효과적인 ML 자원 최적화를 실현할 수 있을 것으로 기대합니다.





저자

홍문기

Open Source그룹(SR)

이메일 문의하기


Sukhdeep Singh

SRI-Bangalore

이메일 문의하기