[논문 리뷰] Latency Equalization Policy of End-to-End Network Slicing Based on Reinforcement Learning

딥러닝 모델/LLM for Resource Allocation

[논문 리뷰] Latency Equalization Policy of End-to-End Network Slicing Based on Reinforcement Learning

gksyb4235 2025. 11. 12. 16:16

Absatract

E2E Network Slicing을 공부해보기 위해 " Latency Equalization Policy of End-to-End Network Slicing Based on Reinforcement Learning"라는 논문에 대한 리뷰를 해보고자 한다. 파이썬 기반의 Testbed 환경이지만, Network Slicing 환경에서 RAN과 Core를 어떻게 동시에 고려할 수 있는지를 잘 보여주고 있다.

우선, 이 논문은 5G 네트워크 슬라이싱에서 E2E Latency를 균등하게 관리하기 위한 SLA 기반 Cross-Domain Orchestration Framework를 제안한다. E2E Latency의 균등화라는 뜻은, 단순히 지연을 줄인다는 뜻이 아니라, E2E 서비스 경로 전체에서 RAN과 Core 구간의 latency가 균형있게 배분되도록 관리한다는 의미이다.

E2E Slicing은 아래와 같이 2개의 Domain으로 구성된다. 하나의 서비스(예: eMBB 동영상 전송, URLLC 제어 신호)는 아래와 같이 RAN 지연 + CN 지연을 합친 E2E latency로 성능이 결정된다.

[ UE ] ⇄ [ RAN (무선 접속망) ] ⇄ [ Core Network (CN) ] ⇄ [ Service Function Chain ]

그런데 기존의 방식은 E2E 지연 한도(limitation)을 단순히 절반(0.5:0.5)씩 나눠서 관리했다. 예를 들어 SLA에서 전체 지연 한도가 100ms 였다면, RAN에 50ms, CN에 50ms로 고정시켰던 것. 그런데 RAN이나 CN가 혼잡할 경우, 반대쪽에 여유가 있는 상황에서도 한 쪽에서 Latency limitation을 초과해버릴 위험이 있다.

이를 강화학습으로 최적화할 수 있는데, 전체 E2E 지연 예산이 100ms라면,

초기엔 ρ = 0.5 → RAN = 50 ms, CN = 50 ms지만 학습을 통해 다음과 같이 조정될 수 있다.
- RAN = 30 ms, CN = 70 ms (CN 쪽이 더 중요한 경우)
- RAN = 60 ms, CN = 40 ms (무선 혼잡도가 높은 경우)

결국, 이 논문에서 제안하는 지연 균등화란 결국, 각 Slice별로 RAN과 CN의 지연 비율(p)를 동적으로 조정한다는 것이다.

1. Introduction

"Network Slicing"이란 MNO(Mobile Network Operator)가 SLA(Service Level Agreement)에 따라 eMBB, URLLC 등의 다양한 E2E 맞춤형 네트워크 슬라이스를 제공할 수 있게 하는 핵심 기술이다. 이러한 슬라이스는 공유 Infrastructure 위에 구축되며, 도메인 간 협력을 통해 E2E 품질을 보장해야 한다.

이 말은 곧, 5G 네트워크가 여러 개의 독립적인 하위 네트워크(RAN, Transport Network와 Core Network)로 구성되어 있기 때문에, 각 Domain이 제 역할을 하면서 서로 Coordinate해야 전체 QoS를 만족시킬 수 있다는 뜻이다.

하지만, 기존의 연구들은 대부분 단일 Domain (주로 RAN과 Core Network)의 자원 할당 문제에만 초점을 맞췄고, End to End 수준의 다중 도메인 관리에 대한 연구는 충분히 진행되지 않은 상황이라고 한다. 그 이유는, E2E Slicing 연구의 핵심 도전 과제는 서비스 요구사항을 여러 Domain(RAN/CN)에 걸쳐 실제 자원 수준으로 변환할 수 있는 실용적인 멀티도메인 관리 아키텍처 설계이기 때문이다.

이는, 고수준의 서비스 목표(SLA, 예를 들어 latency가 10ms를 넘지 않을 것 등)를 각 네트워크 계층(RAN과 Core Network)의 실제 자원 할당 단위로 쪼개서 적용할 수 있는 관리 체계를 말한다. tenant가 10ms 내의 latency라는 SLA를 요구했다면, 이걸 RAN 구간은 4ms 이내, Core 구간 6ms 이내와 같은 식으로 세부적으로 Decomposition해야 한다는 것! 이렇게 해야 실제 네트워크에서 자원 할당이 가능해진다.

기존 연구는 이러한 한계로 인해, 고정된 구성 비율(fixed ratio)로 자원을 나눠, 불필요한 지연 낭비나 과도한 자원 공급을 초래했으며, 실험 기반이 아닌 수치적 시뮬레이션에 그친 면이 있다. 이에 본 논문에서 강화학습을 도입하여 각 Domain에서 자율적으로 최적의 자원 할당 정책을 학습하였다.

2. 논문에서 제안하는 Framework

이 프레임워크의 목표는 End-to-End(E2E) Network Slicing에서 RAN, Transport Network(TN), Core Network(CN) 등 여러 도메인에 걸친 자원(Resource)을 동적으로 조정하고 오케스트레이션하는 것이다.
즉, 네트워크 상황과 실시간 QoS 피드백에 맞춰 각 슬라이스에 필요한 자원을 자동으로 재배분하여 SLA를 만족시키는 구조다.

이 프레임워크는 2계층 Cross-Domain Architecture로 설계되어 있다.

이 Framework에서는 상위의 Orchstrator(E2E Orchestrator)와 하위의 RAN/CN Domain Controller로 구성되어 있으며, 두 도메인 간의 latency budget 비율(p)를 동적으로 조정한다.

상위 계층 : E2E Orchestrator (Management Plane)

(1) SLA Generator : Tenant의 요구사항 (latency, throughput, reliability)을 받아 SLA 계약 형태로 변환
→ 각 도메인의 내부 구조를 몰라도 SLA를 생성하므로, 도메인의 자율성과 프라이버시가 보장됨

(2) SLA Decomposer
→ “E2E SLA”를 RAN, TN, CN 등 도메인별 부분 SLA(Sub-SLA)로 분리
→ 예: 전체 지연 100ms → RAN: 30ms, CN: 50ms, TN: 20ms
→ 이렇게 분해된 SLA를 각 Domain Controller에게 전달

(3) Scheduler

→ 도메인 간 슬라이스 연결을 수행 (“slice stitching”)
→ 즉, 여러 도메인에서 각각 만들어진 슬라이스를 E2E 경로로 묶어주는 역할
→ 동시에 SLA 비율을 동적으로 조정 (e.g., CN 부하 ↑ → RAN 지연 비율 ↓, CN 지연 허용 ↑)

하위 계층 : Domain Controller (Control Plane)

각 도메인(RAN, TN, CN)은 독립적인 Domain Controller를 가진다.
이들은 SLA Decomposer가 내려준 도메인별 SLA 목표치를 기준으로 자체 자원 제어를 수행한다.

(1) RAN Controller:
→ PRB, Power, Bandwidth 등 무선 자원 할당
→ 논문에서는 DDQN-PER (Double Deep Q-Network with Prioritized Experience Replay) 사용

(2) CN Controller:
→ Virtual Network Function(VNF) 배치 및 링크 매핑
→ 논문에서는 Pointer Network 기반 SFC(Service Function Chain) Mapping 알고리즘 사용

(3) TN Controller:
→ 전송 지연 및 대역폭 제어 담당

→ 논문에서는 라우터 선택을 통해 TN 슬라이스를 생성하는 과정이 CN 내의 VNF 배치(VNF placement)와 본질적으로 동일하다고 보고, TN 슬라이싱은 고려하지 않았다.

각 Controller는 내부 모니터링 기능을 통해 자원 상태(Resource Status)와 QoS 성능(Service Quality)을 지속적으로 보고하며, 그 데이터를 다시 Orchestrator로 보낸다.

역할 순서

1. 테넌트로부터 서비스 요청(“Business Order”) 수신 및 QoS 요구사항 협상
2. SLA Generator가 SLA 생성 → SLA Decomposer가 이를 도메인별 SLA로 분리
3. 각 도메인 컨트롤러가 SLA에 맞춰 자원 할당 수행
4. 도메인 컨트롤러들이 SLA 성능 지표(지연, 처리율 등)를 보고 → 오케스트레이터가 전체 E2E SLA 상태를 종합

3. System Model

위 논문에서 제시하는 Objective는 RAN과 CN 전반에 걸쳐 End-to-End (E2E) 네트워크 슬라이스를 인스턴스화(instantiation) 하는 문제를 다룬다. 이때 목표는 다음 2가지를 동시에 달성하는 것이다.

사용자들의 서비스 품질(QoS, Service Quality) 보장
전체 E2E 시스템 용량(System Capacity) 최대화

즉, 지연 요구가 다른 eMBB와 URLLC가 공존하는 상황에서, 두 서비스 유형의 QoS trade-off를 조정하면서 E2E Slice를 효율적으로 배치하는 문제이다.

이때 연구에서는 RAN (무선 구간), CN (코어 구간), TN (전송 구간) 중 RAN과 CN만을 슬라이싱 도메인으로 선택한다.

(TN 슬라이스는 CN 내의 VNF(Virtual Network Function) 배치 문제와 본질적으로 동일하기 때문에 별도로 고려하지 않는다)

3-1. Network Slice

하나의 Network Slice는 특정한 E2E 서비스 요구사항을 가진 사용자 그룹을 수용한다.

각 사용자마다 Traffic이 통과해야 하는 Service Function Chain이 존재한다. (예를 들면 [방화벽 → NAT → 로드밸런서] 이런 식)

E2E 통신 링크는 다음과 같이 구성된다.

무선 링크(wireless link): 사용자 ↔ 기지국(BS)
유선 링크(wired link): 해당 사용자의 SFC에 대응하는 경로

두 링크가 연결되어 E2E 경로가 완성되면, 해당 사용자는 Network에 접속한 것으로 간주한다.

3-2. User Model

사용자는 Poisson point process에 따라 BS의 커버리지 영역 내에 무작위로 분포되어 있다.

이때, eMBB의 사용자 집합과 URLLC 사용자 집합을 U_e와 U_u로 표현하며, 전체 사용자 수 N은 (N_e)+(N_u)이다.

이때, 본 연구는 Downlink만을 고려하며, 각 사용자는 QoS 관련 파라미터 (delay, throughput 등)을 가진다.

3-3. RAN 도메인 모델 (RAN Slicing)

RAN의 시간-주파수 자원은 물리적 자원 블록(PRB, Physical Resource Block) 단위로 세분화된다.
무선 자원은 슬라이스 간(inter-slice) 및 슬라이스 내부(intra-slice)에서 유연하게 할당(flexibly allocated)될 수 있다.

파라미터는 아래와 같이 정의된다.

총 대역폭 B
주파수 영역 → 개의 sub-channel로 분할 (각 sub-channel 대역폭 B_l)
시간 영역 → 스케줄링 프레임이 K개의 subframe으로 구성 (각 길이 Δt)

PRB 집합: M={1,2,...,M}, 총 PRB 수 M = L × K

3-4. CN 도메인 모델 (Core Network Slicing)

클라우드 네이티브 코어 네트워크는 물리적 기반 인프라(physical substrate network, SN) 위에 구축된다.
SN은 가중 무방향 그래프(weighted undirected graph)로 모델링된다.

즉, CN 도메인은 NFV 기반의 데이터센터를 그래프 형태로 표현한 구조이며, 각 VNF는 이러한 그래프 위에 노드 매핑(node mapping되고, VNF 간 연결은 링크 매핑(link mapping)으로 구현된다.

4-1. Problem Description - RAN

개인적으로 모든 논문에서 가장 어렵다고 느껴지는 부분..

이 문제를 풀기 위해 수학적으로 어떻게 정의했는지를 설명한다.

논문에서 사용하는 Notation은 위의 표에 모두 나와 있다.

PRB 할당 Matrix

일단 기지국의 PRB 할당 결과는 행렬 A로 나타낸다.

이때 해당 기지국은 다음의 제약 조건을 가지는데, (2)는 사용자들이 점유하는 PRB 개수가 전체 PRB 개수를 초과할 수 없음을,

(3)은 각 사용자에 대한 PRB 할당 한도, (4)는 P_m인 BS 송신 전력이 총 수신 전력의 상한을 넘어서면 안됨을 나타낸다.

만약 RB가 4개 (M = 4), 사용자가 3명 (N = 3) 있다고 해보면, A_4×3은 다음과 같다.

PRB index (m)	User1	User2	User3
PRB 1	1	0	0
PRB 2	0	1	0
PRB 3	0	1	0
PRB 4	0	0	1

Throughput

만약 사용자 n이 PRB m을 점유한다고 가정하면, 해당 데이터 전송률은 다음과 같이 계산된다.

여기서 σ는 잡음 전력 밀도로, 이 논문에서는 -174dBm/Hz로 설정하였다.

I는 다른 기지국에서 유발된 간섭이고, P_m은 packet Loss, g_n은 채널 이득 (channel gain)을 의미한다.

이때 RB_{m, n}은 kbps 단위의 데이터율이며, 사용자 n의 total throughput은 다음과 같이 계산된다.

Latency

URLLC는 짧은 패킷과 이벤트성이라는 특성이 있어, 큐잉이 거의 없다는 특징이 있다. (초저지연 1ms 수준)

따라서 URLLC 서비스 트래픽의 운영 지연(BS의 처리 지연) 등이 무시된다고 가정한다면,

URLLC 사용자가 채널에서 경험하는 평균 전송 지연은 아래와 같이 계산된다.

이때 μ는 평균 패킷 길이(bits), λ는 패킷 도착률이다.

eMBB 트래픽은 일반적이고 주기적인 Data Stream으로 구성된다. (데이터가 끊김없이 들어오고, 순차적으로 처리된다)

또한, QoS 요구사항은 URLLC보다는 느슨하지만 지속적인 처리율 보장이 중요하다.

또한 파일이나 세션 단위로 처리되기 때문에 큐잉이나 캐싱이 가능하다는 특징이 있다.

즉, 실시간 즉답현 트래픽이 아닌, 연속적이고 누적적인 데이터 전송형 서비스인 eMBB 사용자가 경험하는 Latency는 아래와 같다.

여기서 υ는 BS의 처리시간, 대기열의 길이 L, 서비스 속도 S, 패킷 손실율 P가 지연을 결정하는 주요 요인이 된다.

여기서, 일정 시간 동안 처리된 패킷의 수를 R_n이라고 가정하면, eMBB 사용자의 Edge 지연은 다음과 같이 단순화된다.

이때, 전송률 임계값을 R^rsv라고 할때, eMBB 사용자는 다음의 처리율 제약식을 만족해야 한다.

4-2. Problem Description - CN

SN과 유사하게, SFC도 가중 무방향 그래프로 추상화할 수 있다.

이때, N은 VNF의 집합, E는 Virtual Link의 집합, C와 B는 VNF와 Link의 자원 요구량이다.

만약 i,j∈Nn이 각각 순차적으로 연결된 두 VNF라면, Cn(i)는 해당 노드의 처리 자원 요구량,
(i,j)∈En는 두 VNF 간의 가상 링크이며, 그 대역폭 요구량은 Bn(i,j)로 표현된다.

해당 논문에서는 CPU 용량(capacity)과 대역폭(bandwidth)을 대표적인 자원 파라미터로 선택한다.

위의 그림 3이 SFC 매핑 모델을 나타낸다.

SFC Embedding은 노드 매핑 단계와 링크 매핑 단계로 나눌 수 있다.

SFC는 SN 내에서 VNF를 인스턴스화할 노드를 선택하고, 그 노드들 간의 물리 링크 자원을 점유하여 제약 조건을 만족시킨다.

노드 매핑 단계

위 식에서 이진변수 ψ는 가상 노드 i가 물리 노드 u에 매핑되는지 여부를 나타낸다.

이때 다음의 제약 조건을 만족해야 하는데 (12)는 각 가상 노드가 요구하는 자원량보다 남은 자원이 충분한 SN 노드에만 배치될 수 있음을 보장하고, (13)은 동일한 SFC 내에서 한 SN이 하나의 가상 노드만 서비스할 수 있도록 한다. 이는 곧 슬라이스의 내부 격리와 연결된다.

링크 매핑 단계

이후, 링크 매핑을 통해 여러 개의 물리 링크가 가상 링크에 점유된다.

역시 이진 변수 ψ는 가상 링크 (i, j)가 물리 링크 (u, v)에 매핑되는지 여부를 나타낸다.

이때, 가상 링크는 여러 SN 링크에 매핑될 수 있으며, SFC의 각 가상링크는 물리 네트워크의 대역폭 한도를 넘지 못한다.

(가상 링크가 매핑된 물리 링크는, 반드시 그 트래픽을 감당할 수 있는 충분한 대역폭을 가져야 한다)

Latency

이때, CN의 Slice Data는 전송 전에 데이터 프레임으로 버퍼링된다고 가정하면, 처리 지연은 CN 지연에 포함되지 않는다.

Slice는 할당된 자원을 독점하므로 링크에서 혼잡이 발생하지 않는다.

따라서 CN 지연은 서버 노드 간 전송 지연의 합으로 표현할 수 있다.

SFC 매핑 후, 서비스 스트림이 경험하는 hop 수에 따라 CN 지연은 다음과 같이 계산된다.

4-3. 최종 문제 정식화

따라서 사용자 n이 경험하는 E2E 지연은 RAN에서의 지연과 CN에서의 지연을 합친 것이 된다.

그리고 E2E 최대 지연 한도를 τ_n이라고 하면, 다음과 같은 제약조건을 생각할 수 있다.

이제, 최적화 목표를 무엇으로 설정할지가 남는다.

고정된 사용자 수 하에서, 최적화 목표를 단순히 네트워크 접근 사용자 수 최대화로 한다면,

URLLC 사용자는 상대적으로 적은 무선 자원을 사용하므로 네트워크는 eMBB 사용자보다 URLLC 사용자를 많이 수용하려 한다.

이를 방지하고 QoS 균형을 유지하기 위해 본 논문에서는 SSL 개념을 도입하여 eMBB 사용자의 QoS를 정량화하였다.

또한 eMBB 서비스 품질과 네트워크 용량(수용한 사용자) 간의 균형을 받추기 위한 α라는 attention coefficient를 설정하여,

시스템 전체 간의 trade-off 균형을 맞추었다.

따라서 최종적으로 본 문제는 다음과 같이 정식화된다.

여기서 SSL은 eMBB 사용자의 QoS를 나타내며,

QoE는 전체 사용자 중 성공적으로 네트워크에 접속한 사용자의 비율을 의미한다.

성능평가에서 진행된 α의 영향을 살펴보면 아래와 같다.

α가 증가함에 따라 SSL은 점진적으로 상승하는 반면, QoE는 점차 감소함을 확인할 수 있다.

이는 곧 두 가지 목표 SSL과 QoE를 동시에 최적점으로 수렴시키는 것이 불가능함을 의미한다.

오른쪽 그래프를 보면, α가 증가함에 따라 eMBB 사용자가 URLLC 사용자의 무선 자원을 점유하게 되고,

그 결과 eMBB 사용자 수는 단조 증가하며, URLLC 사용자는 단조 감소함을 확인할 수 있다.

α가 0이라는 의미는 시스템의 목표가 시스템 용량의 최대화이기 때문에 URLLC 이용자에게 모든 자원이 할당된다는 뜻이다.

SLA Decomposition을 통한 P1 문제 분해

그런데, 최종 문제인 P1을 직접 푸는 것은 어렵다. P1은 사용자의 E2E 지연은 RAN 지연과 SFC 지연으로 구성된다.

이러한 지연 제약과 관련 자원 재할당을 본 논문에서는 지연 균등화라고 정의한다.

(RAN과 Core의 Constraint를 어떻게 조정할 것인지에 대한 문제)

네트워크는 사용자에게 무선 자원을 할당하고, SFC 매핑을 완료한다.

만약 사용자의 throughput이 E2E 지연 제약을 모두 만족하면, 그 사용자는 네트워크에 성공적으로 접속한 것으로 간주한다.

이때 x_n을 사용자가 BS에 성공적으로 접속하고 RAN 관련 제약을 만족했다고 정의하고,

y_n을 사용자의 SFC 매핑이 성공적으로 수행되고 CN 관련 제약을 만족했다고 정의하면,

QoE를 다음과 같이 정의할 수 있다.

여기서 SLA 분해 개념을 도입하면 다음과 같다.

앞선 Framework에서 Orchestrator는 각 사용자 n의 E2E latency budget을 비율에 따라 두 부분으로 나눈다.

이때 RAN과 Core에 얼마나 할당할지의 비율은 ρ_n으로 정의된다.

이렇게 바뀐 지연 제약은 각각 RAN과 CN에 전달되어 자원 할당 기준으로 사용된다.

이 방법을 통해 원래의 문제 P1은 두 개의 하위 문제로 분리된다 : RAN 자원 할당 문제(P2), CN SFC 매핑 문제(P3)

P2와 P3 상세설명

이때 RAN은 자신에게 할당된 지연 비율 ρ_n을 받은 뒤, 특정 슬라이스에 대한 로컬 지연 예산을 계산할 수 있다.

이에 따라 문제는 다음과 같이 정식화된다.

이때, RAN의 QoE는 왼쪽과 같다,

반면, CN Domain에서는 할당된 지연 예산이 왼쪽과 같다.

이에 따라 최대 홉 제한 파라미터는 다음과 같이 계산된다.

이때, P3의 주요 목적은 SFC 매핑을 완료하고, 물리 자원을 최대한 활용하는 것이다. 따라서 P3는 다음과 같이 정의된다.

P1, P2, P3 문제의 복잡도

여기서 P3 문제는 가상 네트워크 임베딩(VNE) 문제를 변형하여 정식화한 것으로, VNE 자체가 NP-Hard 문제로 알려져있다.

따라서 P1 문제 역시 NP-Hard이다. 여기서 NP-Hard 문제란 컴퓨터가 효율적으로 풀 수 없는 (시간이 폭발하는) 문제를 의미한다.

RAN단에서는, 모든 PRB의 처리율이 동일하다고 가정하면, PRB 할당 문제 P2는 정수 선형 계획 문제로 단순화될 수 있다.

그러나 이 정수 선형 문제 역시 문제 규모가 커질수록 복잡도가 급격히 증가하는 NP-Hard 문제이다.

따라서 본 논문에서는 P2와 P3를 각 Domain의 Domain controller 내의 강화학습 기법으로 NP-Hard 문제를 해결한다.

Domain Controller는 자원 할당 결과와 각 사용자의 로컬 도메인 지연인 τ1과 τ2를 출력한다.

그리고 사용자별 실제 지연과 SLA 보장 지연의 차이를 나타내기 위한 새로운 집합 T를 도입한다.

이때 RAN에서는 DDQN-PER(강화학습)을 이용해 무선 자원(PRB, 전력)을 동적으로 할당하고, CN에서는 Pointer Network 기반 SFC 매핑으로 코어 자원(VNF, 링크)을 최적 배치한다.

이렇게 학습된 두 알고리즘은 eMBB 사용자의 QoS와 전체 시스템 용량 간의 최적 균형을 달성하도록 Latency 비율을 반복적으로 조정한다. 논문의 후반부에서는, 제안된 동적 지연 균등화 정책(DSDP, DTDP)은 기존의 정적 정책(Static Policy)보다 시스템 용량을 향상시키고, eMBB QoS를 안정적으로 보장함을 보여준다.

5. 문제 해결 방법

문제의 핵심 목표를 요약하면 다음과 같다.

"하나의 E2E 슬라이스에서 주어진 지연 예산을 RAN과 CN에 어느 비율로 할당해야 최적일까?

이 논문에서는 그 비율을 ρ라고 설정한 것.

이때 E2E Latency는 RAN Latency와 CN latency의 합으로 구성된다.

그런데 RAN과 CN는 독립된 Domain에서 독립적으로 자원을 할당한다.

RAN은 PRB, power로 latency 조절
CN은 VNF 매핑과 링크 경로로 latency 조절

여기서 문제는, 둘 다 자원을 너무 많이 쓰면 낭비이고, 한 쪽이 과하게 지연되면 SLA 위반이라는 것.

따라서 RAN이 얼만큼 지연을 가져가고, CN가 얼만큼 지연을 가져갈지를 조정하는 것이 핵심이다.

논문에서는 이를 Latency Equalization Policy라고 부른다.

논문에서는 이 구조를 RL 2개가 나눠 푸는 형태로 구성한다.

구성	Sub 문제	RL 알고리즘
RAN 쪽	P2: PRB 및 전력 할당	DDQN-PER
CN 쪽	P3: SFC 매핑	Pointer Network 기반 Actor-Critic (PN-SFC)

이때, DDQN-PER과 Pointer Network 기반 Actor-Critic 방법에 대한 구체적인 부분은 생략하고, 핵심만 파악할 것.

DDQN-PER (RAN 쪽)

RAN Controller는 RL의 Agent이다.

이 Agent는 다음의 일을 한다.

항목	설명
상태 (State)	각 사용자 n의 SINR 값
행동 (Action)	각 사용자에게 몇 개 PRB를 배분하고, 어느 파워레벨로 송신할지
보상 (Reward)	α × eMBB QoS (SSL) + (1−α) × QoE (접속된 사용자 비율)

즉, 무선 자원을 적절히 분배해 RAN latency가 SLA의 ρ*(E2E Latency) 이하가 되도록 하는 것이 목표이다.

Pointer Network (CN쪽)

CN Domain Controller의 Agent의 역할은 아래와 같다.

항목	설명
입력 (State)	현재 SFC 구조(VNF 노드들, 링크들), 물리 네트워크 토폴로지
행동 (Action)	어떤 VNF를 어떤 물리 서버에 올리고, 그 사이 링크를 어떤 경로로 연결할지
보상 (Reward)	홉 수(Hopn)가 작을수록 큰 보상 (지연이 작아지니까)

즉, CN의 Agent는 E2E SLA에서 CN가 맡은 몫인 (1- ρ)*(E2E Latency) 이하가 되도록 하는 것이 목표이다.

이때 Pointer Network는 가변 길이 입력(VNF 개수가 달라도 됨)을 처리할 수 있어서 SFC 매핑 같은 조합 최적화에 적합하다.

6. DTDP와 DSDP 정책

그렇다면, 이 RL을 통한 학습 결과를 이용해서 ρ를 어떻게 조절할까?

이를 위해 일단 ρ의 조절 방법을 정리하면 아래와 같다.

ρ의 조절 방법

전체 Orchestration Framework에서는 다음의 과정을 반복한다.

Orchestrator (상위)가 모든 ρ를 0.5로 시작 (RAN과 CN에 절반씩 지연 예산 분배)
RAN Controller (DDQN)은 해당 ρ로 자원할당을 학습하고 RAN Latency 결과를 보고
Cn Cotnroller (PN-SFC)는 (1-ρ) 지연 예산으로 SFC를 매핑하고 CN Latency 결과 보고
DSDP or DTDP 규칙에 따라 ρ 조정
새로운 ρ로 다시 학습 반복
P1(전체 목표식: αSSL + (1−α)QoE) 최댓값 달성 시 종료

본 논문에서는 ρ를 조절하기 위한 정책으로 DSDP와 DTDP를 나눴다.

정책이름	풀네임	조정 단위	핵심 아이디어
DSDP	Different Slices, Different Proportions	슬라이스별로 각각 다른 ρ 조정	각 슬라이스마다 최적의 RAN/CN 비율을 독립적으로 찾아라
DTDP	Different Types of Slices, Different Proportions	슬라이스 유형(eMBB, URLLC)별 공통 ρ 조정	슬라이스 유형별로 하나의 공통 비율을 찾아라

DSDP (Different Slices, Different Proportions)

여기서 DSDP란 슬라이스별로 ρ 값을 각각 다르게 조정하는 방식이다.
즉, eMBB Slice #1, eMBB Slice #2, URLLC Slice #3 각각이 자기만의 RAN/CN latency 분배 비율을 가질 수 있다.

수식의 흐름은 다음과 같다.

만약 CN이 너무 느린 경우, CN에 예산을 더 할당해야 한다. ρ←ρ−Δε1 (RAN 몫을 줄이고 CN 몫을 늘림)

반대로 RAN이 지연을 초과하고 CN는 여유가 있을 때는, ρ←ρ+Δε1 (RAN 몫을 늘리고 CN 몫을 줄임)

추가로 Intra-slice balancing과 Inter-slice balancing이라는 균형 레벨을 두었다.

구분	설명	단계	수식
Intra-slice balancing	한 슬라이스 안에서 RAN↔CN 간 불균형 조정	지연 한쪽이 초과 시	(23), (24)
Inter-slice balancing	여러 슬라이스 간 여유(delay margin)를 교환	양쪽 다 SLA 만족 중	(25), (26)

SLA 위반한 슬라이스 → 내부에서 비율 조정 (intra-slice)
SLA 만족한 슬라이스 → 여유 자원을 조금 이동 (inter-slice)

DTDP (Different Types of slices, Different Proportions)

반대로 DTDP란 슬라이스 유형별(eMBB, URLLC)로 공통 ρ 값을 하나씩만 조정하는 방식이다.

즉 모든 eMBB 슬라이스는 같은 ρ₁을, 모든 URLLC 슬라이스는 같은 ρ₂를 가지는 방식이다.

이는 eMBB는 Throughput 중심이고, URLLC는 Latency 중심이니 지연 분할 방식을 다르게 하는 것이 맞다는 아이디어를 기반으로 한다.

이는 두 사용자 집합의 지연 여유(T)를 비교해서 조정한다. T = τ^E2E − τ^RAN − τ^CN

이때 각 집합에 대해 다음을 비교한다.

T_URLLC/τ_URLLCE^{

조건	의미	조치
( T_{eMBB} > T_{URLLC} )	eMBB가 여유 많음 → CN 예산 늘려도 됨	ρ₁ ↓, ρ₂ ↑
( T_{eMBB} < T_{URLLC} )	URLLC가 여유 많음 → RAN 예산 늘림	ρ₁ ↑, ρ₂ ↓

7. 성능평가 결과

α=0 및 α=0.5인 2가지 경우에서 세 가지 정책(정적 정책(ρ = 0.5), DTDP, DSDP)에 대한 능력 비교 실험이 수행되었다.

각 정책에 대해 총 20명의 사용자 중 URLLC 사용자의 수를 변화시키면서 E2E 접속 사용자수를 비교한 결과이다.

URLLC 사용자수가 증가함에 따라 시스템 용량도 증가하는 것을 확인할 수 있다.

반면, α가 증가할수록, 시스템 용량은 감소한다 (eMBB 사용자를 더 고려하기 때문에 접속 사용자수가 줄어듦)

정적 정책(Static Policy)와 비교했을 때, DTDP는 슬라이스 유형의 관점에서 조정이 이뤄지므로 E2E 접속 사용자 수를 증가시킨다. 또한, DSDP는 각 슬라이스에 대한 유연한 지연 균등화를 수행하여, 가장 유리한 지연 예산 비율을 할당함으로써, E2E 네트워크 접속 사용자 수를 추가적으로 향상시킨다.

그림 11은 α가 0인 경우, 15명의 eMBB 사용자와 5명의 URLLC 사용자가 존재하는 환경에서 RAN, CN 그리고 E2E 측면에서의 접속 사용자수를 평가하였다. 이 경우, CN의 부하는 비교적 가볍고, 트래픽 전송 지연도 작다. 따라서 두 종류의 슬라이스 모두 CN의 지연 제약 조건을 만족하여 CN에 접속할 수 있다.

URLLC 슬라이스의 사용자는 적은 양의 무선 자원을 점유하며, 세 가지 정책 모두에서 각 도메인에 성공적으로 접속한다.

반면, Static policy는 eMBB 슬라이스의 RAN 지연 요구조건을 지나치게 엄격하게 설정하여, eMBB 사용자의 RAN 접속률이 낮아지는 결과를 초래한다.

이에 비해, DTDP 정책보다 DSDP 정책은 슬라이스별로 RAN 내 비율을 조정함으로써, eMBB 사용자의 RAN 접속률을 개선하고, 결과적으로 네트워크 전체 용량을 증가시킨다.

마지막으로, 전체 사용자 수와 PRB를 증가시켜, 세 가지 정책에서의 E2E 접속 사용자 수를 추가로 분석하였다.

전송 전력은 PRB 수의 증가에 따라 비례적으로 상승한다. 또한, 두 슬라이스 유형의 사용자는 동일하게 유지했다.

전체 사용자 수가 증가함에 따라, CN 부하가 점차 무거워지고, 이로 인해 트래픽 전송 지연이 증가한다.

그러나 그림 12에서 볼 수 있듯, 정적 정책에 비해 두 가지 지연 균등화 정책은 시스템 용량을 현저히 상승시킨다.

더 나아가 DTDP 정책에서 도출된 Proportion을 기반으로 분석한 결과, DSDP 정책은 시스템 용량을 더욱 향상시키는 동시에,

반복 횟수(iterations) 또한 감소시키는 효과를 보였다.

저작자표시 비영리 변경금지 (새창열림)

'딥러닝 모델 > LLM for Resource Allocation' 카테고리의 다른 글

RAN-CN 시뮬레이션 환경에서 LLM 기반 Resource 할당하기 (0)	2026.05.28
E2E Intelligence를 위한 Semantic Communication과 E2E Learning (0)	2025.12.29
RAN Resource Allocation을 위한 Prompt Engineering 과정 (0)	2025.12.13
RAN과 Core Network의 환경 구축 (0)	2025.12.12
RAN과 Core의 Network Slicing에 대한 정리 (0)	2025.11.11

현재글[논문 리뷰] Latency Equalization Policy of End-to-End Network Slicing Based on Reinforcement Learning

ybin's

gksyb4235 님의 블로그 입니다.

Edge Cloud Computing, FlexRIC, srsRAN, Edge AI Chips, OpenAirInterface, Network Slicing, OAI CN5G, O-RAN Testbed, AI for Network, EdgeXFoundation, Baetyl, AWS IoT Greengrass, Azure IoT Edge, ns3 oran, LSTM, ETSI MEC, KT uCloud Edge, Google Coral TPU, RSRP Prediction, OAI nrUE,

Today :
Yesterday :

ybin's