Agentic AI 구축/Agentic AI 트렌드

ETSI ZSM Working Group의 최신 동향 (AI Agent간 협업으로 진화하는 Zero-touch 네트워크)

gksyb4235 2026. 5. 10. 17:05

Zero-touch 네트워크는 이제 “AI Agent 간 협업”으로 진화하고 있다


통신 네트워크 자동화는 더 이상 단순한 스크립트 자동화나 장애 알람 처리 수준에 머물지 않는다.

5G-Advanced, AI-native network, Network-as-a-Service, 그리고 Autonomous Networks Level 4 논의가 본격화되면서,
네트워크는 “사람이 설정하고 운영하는 시스템”에서 “의도를 이해하고 스스로 조정하는 시스템”으로 이동하고 있다.

 

이 흐름에서 중요한 표준화 축 중 하나가 ETSI의 ZSM이다.

ETSI는 유럽 전기통신표준협회로, ZSM은 Zero-touch network and Service Management를 다루는 ETSI 내 규격 그룹이다.

 

ZSM의 목표는 네트워크와 서비스를 사람의 개입 없이 자동으로 관리하고, 오케스트레이션하고, 보장하고, 최적화하는 것이다.

특히 RAN, 전송망, Core Network처럼 서로 다른 도메인을 가로지르는 E2E 자동화 구조를 정의한다는 점에서 의미가 크다.

 

최근 ZSM의 논의는 크게 다섯 가지 방향으로 정리된다.

  • 첫째, Closed-loop 자동화 및 제어를 통한 E2E 자동화
  • 둘째, Intent 기반 서비스 관리 (Intent-Driven Service Management)
  • 셋째, Multi-Agent 시스템 자율 협업
  • 넷째, 네트워크 디지털 트윈 기반 예측 및 시뮬레이션

 

 

1. Closed-Loop Automation and Control


공식 문서 링크 :  https://www.etsi.org/deliver/etsi_gr/ZSM/001_099/017/01.01.01_60/gr_ZSM017v010101p.pdf

 

 

ZSM(Zero-touch network and Service Management) 프레임워크에서 폐쇄 루프 자동화(Closed-Loop Automation, CLA)는 사람의 개입 없이 네트워크와 서비스를 관리하고 자동화된 프로세스를 생성하는 핵심 제어 메커니즘이다.


Closed Loop는 특정 목표를 달성하기 위해 Managed entities를 지속적으로 모니터링하고 규제하며,
크게 4개의 단계(Stage)와 이를 지원하는 지식(Knowledge) 요소로 구성된다.

 

Hierarchical Closed Loop architecture (Source: ETSI GR ZSM 009-3 [i.9])

 

 

  1. 모니터링 단계 (Monitoring Stage): Managed Entity나 External Source로부터 데이터를 수집, 전송 및 전처리하는 역할을 담당한다. . 실시간 스트리밍 데이터뿐만 아니라 과거 이력 데이터를 바탕으로 정보를 제공하며, 데이터 수집 기능을 통해 네트워크의 결함, 성능, 보안과 관련된 피드백(실시간 및 이력) 로그를 수집한다.

  2. 분석 단계 (Analysis Stage): 모니터링 단계에서 전달받은 데이터와 과거 이력 데이터를 활용하여 유의미한 인사이트와 예측을 도출한다. 인텔리전스 및 분석 관리 서비스(Analytics management services)를 활용하여 수집된 데이터의 이상 징후를 탐지하고, 근본 원인을 분석하여 다음 단계인 '결정 단계'로 Insight를 전달한다.

  3. 결정 단계 (Decision Stage): 분석 단계에서 제공된 인사이트를 바탕으로 시스템의 동작을 통제하고 문제 해결을 위해 어떤 조치를 취할지 결정한다. AI 모델 등을 포함한 인텔리전스 관리 서비스(Intelligence management services)를 활용하여 최적의 실행 계획(Action plan)이나 워크플로우를 도출한다.

  4. 실행 단계 (Execution Stage): 결정 단계에서 특정 조치가 필요하다고 판단될 때, 실제 관리 대상 엔티티에 도출된 워크플로우를 실행한다. 이 단계는 오케스트레이션(Orchestration) 및 제어(Control) 관리 서비스에 의해 구현되며, 인프라 자원의 구성, 수명 주기 관리 등을 실질적으로 변경하고 제어한다.
    Exemplary Closed Loop Coordination timeline (Source: ETSI GS ZSM 009-1 [i.3])


  5. 다중 폐쇄 루프 간의 협력 및 조정 (Coordination and Governance): ZSM 환경에서는 여러 도메인에 걸쳐 복수의 폐쇄 루프가 동작하므로, 이들이 서로 충돌하지 않고 협력할 수 있도록 조정(Coordination) 기능이 필수적으로 작용한다. 이 과정은 Hierarchical한 조정과 Peer 조정으로 세분화되며, 이들 간의 충돌 방지를 위한 메커니즘이 도입된다.
    • Hierarchical 조정 : 상위 폐쇄 루프(Superior CL)가 하위 폐쇄 루프(Subordinate CL)에 특정 역할을 위임(Delegation)하여 자율적으로 행동하게 하거나, 하위 루프가 자체적으로 목표를 달성하지 못할 경우 상위 루프에 상황을 Escalation(=보고)하는 방식으로 제어한다.
    • Peer 조정: 서로 대등한 폐쇄 루프들이 공통의 목표를 달성하기 위해 정보를 교환하고 협력(Cooperation)한다.
    • 충돌 방지 및 관리: 여러 폐쇄 루프가 동시에 동일한 자원에 조치를 취할 때 발생하는 충돌을 막기 위해, 실행 전 조정(Pre-execution coordination)이나 동시성 조정(Concurrency coordination)을 거쳐 충돌 없는 실행 계획을 우선적으로 선택하게 된다.

 

 

 

2. Intent-Driven Service Management


공식 문서 링크 : https://www.etsi.org/deliver/etsi_gs/ZSM/001_099/016/01.01.01_60/gs_ZSM016v010101p.pdf

 

 

 

ZSM은 사용자가 원하는 추상적인 목표나 요구사항을 담은 '의도(Intent)'를 해석하고 이를 충족시키기 위해 네트워크를 관리한다.

이 작업은 의도 소유자(Intent owner)와 의도 처리자(Intent handler)라는 역할 분담을 통해 이루어지며,
탐지, 조사, 정의, 배포, 운영으로 이어지는 의도 수명 주기(LCM)를 지속적으로 추적하고 관리한다.

이 과정에서 복수의 의도 간에 요구사항 충돌이 발생할 경우, 각 의도의 충족도를 수학적으로 비교하는 효용 함수(Utility function)를 활용하거나 스마트 컨트랙트를 기반으로 우선순위를 조정하여 충돌을 해결한다.

 

Intent management entities interactions among different management domains in the ZSM architecture

 

 

의도 기반 서비스 관리(Intent-Driven Service Management)는 시스템이 특정 작업을 '어떻게(How)' 수행할지 세세하게 지시하는 대신, 사용자가 원하는 최종 목표와 요구사항인 '무엇을(What)' 원하는지 선언적(declarative) 형태로 정의하여 자율 네트워크를 제어하는 핵심 메커니즘이다.


이 관리는 주로 의도 관리 엔티티(Intent Management Entity, IME)를 통해 이루어지며, 구체적인 작동 방식은 다음과 같이 세분화할 수 있다.


1. 핵심 역할 분담: 의도 소유자와 처리자

 

  • 의도 소유자(Intent Owner): 의도를 생성하고 수명 주기를 관리하는 주체이다.
  • 의도 처리자(Intent Handler): 전달받은 의도를 분석하여 이를 충족하기 위한 실행 전략과 계획을 수립하고,
    해당 도메인 내에서 폐쇄 루프(Closed Loop)를 통해 실질적인 조치를 취하며,
    의도의 달성 상태 및 진행 상황을 소유자에게 지속적으로 보고한다.

 

 

2. 의도 수명 주기 (Intent Lifecycle Management, LCM)

 

의도 관리는 체계적인 5단계의 수명 주기를 거쳐 진행된다.

 

Intent LCM Phase

 

  1. 탐지(Detection): 소유자가 내부 목표의 변화나 처리자의 보고를 바탕으로 새로운 의도를 생성하거나 기존 의도를 변경/삭제할 필요성을 식별한다.
  2. 조사(Investigation): 소유자와 처리자가 협력하여 요구하는 목표가 현재 네트워크 자원과 상태에서 현실적으로 달성 가능한지(Feasibility)를 탐색하고 평가한다.
  3. 정의(Definition): 탐색 결과를 바탕으로 처리자에게 전달할 구체적인 의도를 생성한다.
  4. 배포(Distribution): 레지스트리를 통해 요구사항을 처리할 수 있는 적절한 의도 처리자를 찾아 의도를 배포한다.
  5. 운영(Operation): 처리자는 의도를 충족하기 위해 자율적인 작업을 수행하고, 목표 달성 여부를 소유자에게 정기적으로 보고하여 전체 루프를 완성한다.

 

 

3. Multi-Agent System Collaboration


공식 문서 링크 : https://www.etsi.org/deliver/etsi_gr/ZSM/001_099/020/01.01.01_60/gr_ZSM020v010101p.pdf

 

 

 

ZSM은 독립적으로 환경을 인지하고 결정을 내릴 수 있는 지능형 AI 에이전트들이 상호작용하는 멀티 에이전트 시스템(MAS)을 통해 복잡한 네트워크 문제를 자율적으로 해결한다. 에이전트들은 자신의 기능을 레지스트리에 등록 및 탐색(Discovery)하며 P2P 또는 발행/구독(Publish/Subscribe) 방식을 통해 직접 소통한다.

 

이때 에이전트들은 도메인 간 장애 복구나 작업 할당을 위해 서로 위임(Delegation)과 협상(Negotiation)을 수행하며 단기/장기 메모리에 기반한 지식 공유(Knowledge Sharing)를 통해 다른 에이전트의 학습 모델과 과거 경험을 교환하여 전체 네트워크 성능을 최적화한다.

 

이때 자율 협업이 이루어지는 구체적인 과정과 메커니즘은 다음과 같다.

 

 

1. Agent 프로필 등록 및 동적 탐색

 

Basic Interaction Flow for Group based Registration

 

자율적인 협업을 위해서는 Agent들이 서로를 찾고 어떤 능력이 있는지를 알아야 한다.

 

  • 에이전트들은 자신의 기능(예: 네트워크 슬라이싱, 장애 진단), 운영 컨텍스트, 보안 속성 등을 정의한 '에이전트 기능 프로필(Agent Capability Profile)'을 중앙 에이전트 레지스트리(Agent Registry)에 등록한다.
  • 탐색 효율성을 높이기 위해 '장애 관리', '품질 최적화' 등과 같이 특정 시나리오나 기능에 따라 에이전트 그룹(Agent Group)을 형성하여 가입 및 탐색할 수 있다.
  • 또한 중앙 레지스트리를 거치지 않고 에이전트들이 발행/구독(Publish/Subscribe) 방식을 통해 P2P 환경에서 자신의 존재를 직접 다른 에이전트에게 광고(Advertisement)하는 분산형 탐색도 지원한다.

 

 

2. Agent 간 통신 모델과 용어 동기화

 

Terminology Alignment Interaction Flow

 

Agent들은 다양한 방식으로 통신하며 협업한다.

 

  • 특정 에이전트와 직접 소통하는 P2P(Peer-to-Peer), 특정 주제를 구독하는 다수의 에이전트에게 메시지를 뿌리는 발행/구독(Publish/Subscribe), 그리고 그룹 내에서 요청과 응답을 관리하는 멀티캐스트 그룹(Multicast-Group) 통신 모델을 활용한다.
  • 특히 서로 다른 도메인(예: IP 도메인과 무선 도메인)의 에이전트들이 소통할 때 같은 용어를 다르게 해석할 수 있다. (예: 'RAN'이 무선 액세스 네트워크인지 원격 지역 네트워크인지 등)
  • 이를 방지하기 위해 에이전트들은 메시지 교환 시 용어의 정의(Key-value 쌍)나 참조 파일을 포함하여 전달함으로써 상호 의미론적 오해를 방지(Terminology Alignment)한다.

 

 

3. 자율 협상 및 작업 위임/에스컬레이션 (Negotiation, Delegation & Escalation) 

 

고정된 규칙에 따라 작업을 할당하는 대신, 에이전트들은 동적인 협상과 위임 프로세스를 거친다.


작업 협상(Task Negotiation): 작업을 지시하는 에이전트가 잠재적인 실행 에이전트들에게 작업 세부 정보를 제공하면, 각 에이전트는 자신의 가용성, 비용, 제약 조건 등을 제안(Bid)다. 이를 바탕으로 최적의 에이전트가 선정되어 작업을 수락하게 된다.

위임과 에스컬레이션(Delegation & Escalation): 특정 도메인 에이전트가 자체 해결 범위를 넘어서는 복잡한 장애를 감지하면, 이를 상위 계층(E2E 관리 도메인)의 에이전트에게 에스컬레이션(보고)한다. 이후 상위 에이전트는 여러 도메인의 에이전트들로 구성된 다중 도메인 조사 팀(Investigation Team)을 꾸려 각자에게 적절한 작업을 위임(할당)한다.

 

 

 

4. 동적 워크플로우 조정과 갈등 해결 (Workflow Coordination & Conflict Resolution)

 

Agents in the ZSM Framework

 

 

여러 에이전트가 하나의 목표를 달성하기 위해 워크플로우 조정자(Workflow coordinator) 에이전트의 지휘를 받기도 한다.

이 Coordinator는 작업을 분할하고 종속성을 파악하여 에이전트들이 충돌 없이 병렬 또는 순차적으로 작업을 수행하도록 동적 워크플로우를 구성한다.

 

만약 자원 선점, 상충되는 정책, 서로 다른 목표 등으로 인해 에이전트 간 Conflict가 발생할 경우, 합의를 구하는 자율 협상 알고리즘, 감독 에이전트에 의한 계층적 중재, 그리고 의사결정의 투명성을 제공하는 설명 가능한 AI(XAI) 기술을 통해 갈등을 해결한다.

 


5. 집단 지성을 위한 지식 공유 및 메모리 구조 (Knowledge Sharing & Memory)

 

에이전트들은 과거의 경험과 지식을 공유하여 집단 전체의 문제 해결 능력을 향상시킨다.

 

현재 처리 중인 작업의 중간 결과와 컨텍스트를 동기화하는 단기(작업) 메모리(Working Memory)뿐만 아니라,
다음 세 가지 형태의 장기 메모리를 주고받는다.

  • 과거의 성공/실패 사례와 이벤트 기록을 담은 에피소드 메모리(Episodic Memory)
  • 개념과 사실적 지식 기반인 의미론적 메모리(Semantic Memory)
  • 그리고 터득한 최적의 루틴과 정책을 담은 절차적 메모리(Procedural Memory)

 

이를 통해 새로운 에이전트가 처음부터 학습하지 않고도 빠르게 업무 능력을 확보할 수 있게 한다.

 

 


4. 네트워크 디지털 트윈(NDT) 기반 예측 및 시뮬레이션 (NDT Prediction & Simulation)


공식 문서 링크 : https://www.etsi.org/deliver/etsi_gs/ZSM/001_099/018/01.01.01_60/gs_ZSM018v010101p.pdf

 

 

 

물리적 통신 네트워크의 가상 복제본인 네트워크 디지털 트윈(NDT)을 구축하여 물리적 인프라에 영향을 주지 않고 다양한 시뮬레이션과 예측 모델링을 수행한다. 이 작업은 네트워크 슬라이싱 서비스에서 발생할 수 있는 SLA 위반 위험을 선제적으로 예측하고 대응안을 확인하는 데 쓰인다. 과거 장애 시점의 데이터를 재생(Replay)해 근본 원인을 추적하는 'what-if' 분석을 진행하거나, 클라우드 워크로드의 배치 최적화 및 AI 모델 훈련을 위한 합성 데이터(Synthetic data) 생성을 담당한다.

 

ZSM 프레임워크에서 NDT는 통신 네트워크(장비, 시스템, 소프트웨어 등)의 상태와 동작을 가상 환경에 복제한 '디지털 쌍둥이(Digital Twin)'이다. . 실제 물리적 네트워크(Physical Twin)에 어떠한 부정적인 영향도 주지 않으면서 다양한 운영 및 변경 사항의 예상 결과를 시뮬레이션하고 평가할 수 있도록 지원한다.


이러한 NDT 환경에서 수행되는 주요 작업과 기능은 다음과 같다.

 

 

1. 네트워크 슬라이싱 위험 선제적 예측 및 대응 (Network Slicing Risk Prediction)

Example of simplified sequence diagram of network slice risk prediction and healing

 

네트워크 슬라이싱 환경에서 트래픽이나 네트워크 조건이 변할 때, NDT는 특정 슬라이스가 보장해야 할 SLA/SLS(서비스 수준 협약/사양)를 위반할 위험이 있는지 사전에 모델링하고 예측한다. 예측된 KPI 값을 통해 MD(관리 도메인)나 E2E 도메인은 실제 서비스 품질이 저하되기 전에 미리 회피 솔루션을 찾고 필요한 선제 조치를 실행할 수 있다.

 


2. 과거 장애의 사후 분석 및 "What-if" 시뮬레이션 (Historical Incident Analysis) 

 

과거에 발생한 장애 시점의 네트워크 상태 데이터를 재생(Replay)하여 사건의 근본 원인을 파악하는 사후 분석(Post-mortem)을 수행한다. 더 나아가 '당시 다른 설정이나 결정을 적용했다면 결과가 어떻게 달라졌을까(what-if)'를 시뮬레이션해 봄으로써, 향후 유사한 장애를 예방할 수 있는 최적의 대응책을 도출한다.

 


3. 클라우드 워크로드 배치 최적화 (Cloud Workload Placement) 

 

클라우드 인프라 내에 네트워크 가상 기능(VNF)이나 워크로드를 할당할 때, 자원(CPU, 메모리 등)의 효율성, 워크로드 간의 종속성(대기 시간 최소화), 에너지 효율 등 여러 요소를 종합적으로 모델링한다. NDT는 여러 배치 시나리오를 반복 평가하여 통신 클라우드의 자원 최적화 구성을 찾아낸다.

 


4. 기계 학습(ML) 훈련을 위한 합성 데이터 생성 (Synthetic Data Generation) 

 

물리적 네트워크에서 수집한 데이터만으로는 모델 훈련이나 미래 예측이 불충분할 때, NDT 내부의 데이터 보간 및 추론 알고리즘을 사용해 가상의 '합성 데이터(Synthetic data)'를 생성한다. 이렇게 만들어진 합성 데이터는 AI/ML 모델을 훈련시키거나 신호 폭풍(Signaling storm)과 같은 미래의 잠재적 위험을 검증하는 데 효과적으로 활용된다.

 


5. 다중 모델링 세션의 동시 실행 (Concurrent Modeling Sessions) 

 

NDT는 처리 효율성을 극대화하기 위해 여러 시뮬레이션 세션을 동시에 독립적으로 실행할 수 있다. 예를 들어 다른 지능형 에이전트와 '의도(Intent)'를 협상하는 과정에서, NDT는 가능한 여러 해결책과 매개변수 조합을 병렬로 탐색하고 그중 가장 최상의 결과를 낼 수 있는 조건을 찾아내어 응답한다. 이처럼 NDT는 직접 네트워크를 건드리지 않고도 가장 안전하게 최적의 설정과 의사결정을 내릴 수 있게 해주는 ZSM의 핵심 브레인 역할을 한다.