基于多智能体强化学习的车辆网络频谱共享

2023-05-16

基于多智能体强化学习的车辆网络频谱共享

转载自:heu御林军

Published in:

https://link.zhihu.com/?target=https%3A//ieeexplore.ieee.org/xpl/RecentIssue.jsp%3Fpunumber%3D49

摘要

研究了基于多智能体强化学习的车辆网络频谱共享问题,其中多个车辆对车辆(V2V)链路重用车辆对基础设施(V2I)链路占用的频谱。高机动性车辆环境中的快速信道变化排除了在基站收集精确的瞬时信道状态信息以进行集中资源管理的可能性。作为回应,我们将资源共享建模为多智能体强化学习问题,然后使用基于指纹的深度Q网络方法来解决,该方法适合分布式实现。V2V链路作为一个代理,共同与通信环境交互,接收不同的观测结果,但得到共同的回报,并通过使用获得的经验更新Q网络来学习改进频谱和功率分配。我们证明,通过适当的奖励设计和训练机制,多个V2V代理成功地学会了分布式协作,同时提高了V2I链路的总容量和V2V链路的有效载荷传递率。

问题陈述与动机

车辆通信,通常被称为车辆到一切(V2X)通信,被设想在各个方面改变连接的车辆和智能交通服务,例如道路安全、交通效率和无处不在的互联网接入。最近,第三代合作伙伴项目(3GPP)一直在寻求在长期演进(LTE)和未来5G蜂窝网络中支持V2X服务。电信和汽车行业成立了5G汽车协会(5GAA)等跨行业联盟,以推动蜂窝V2X技术的开发、测试和部署。

本文研究了车载网络中的频谱接入设计,该设计一般包括车载基础设施(V2I)和车载网络(V2V)的连接。如图1所示,V2I链路将每辆车连接到基站(BS)或BS型路侧单元(RSU),而V2V链路提供相邻车辆之间的直接通信。我们关注3GPP[3]中讨论的基于蜂窝的V2X体系结构,其中V2I和V2V连接分别通过蜂窝(Uu)和侧链(PC5)无线电接口支持。在15版中,针对5G V2X增强功能提出并分析了大量新的用例和需求。例如,5G蜂窝V2X网络需要同时支持5G蜂窝V2X网络中的移动高数据速率娱乐和高级驾驶。娱乐应用需要高带宽的V2I连接到BS(以及进一步的互联网),例如视频流。同时,高级驾驶服务需要通过V2V通信在相邻车辆之间周期性地传播安全信息(例如,每秒10、20、50包,具体取决于车辆的移动性),具有高可靠性。安全信息通常包括车辆位置、速度、航向等信息,以提高所有车辆对当地驾驶环境的“合作意识”。

img图1 一种车辆网络的说明性结构,其中V2I和V2V链路分别用m和k(或k′)索引。每个V2I链路被预先分配一个正交频谱子带,因此子带也被m索引。

主要研究内容

在本文中,我们考虑了高移动性车辆网络中的频谱共享问题,其中多个V2V链路试图共享V2I链路占用的频谱。为了支持车辆网络中不同的服务需求,我们设计了V2V频谱和功率分配方案,同时最大化V2I链路用于高带宽内容传输的容量,同时提高V2V链路的周期性安全关键消息共享的有效负载传递可靠性。这项工作的主要贡献总结如下。

  1. 我们将多个V2V链路的频谱接入建模为多代理问题,并利用多代理RL[29]、[30]的最新进展,开发了一种分布式频谱和功率分配算法,同时提高了V2I和V2V链路的性能。
  2. 针对V2V链路的周期性安全消息共享问题,提出了一种直接的可靠性保证方法,在消息生成周期内,根据小规模信道衰落情况,调整V2V频谱子带选择和功率控制。
  3. 结果表明,通过合理的薪酬设计和培训机制,V2V发射机可以从与通信环境的交互中学习,并制定出一种基于本地信息的分布式协同工作策略,以优化系统级性能。

系统模型

我们考虑图1中基于蜂窝的车辆通信网络,该网络具有M V2I和K V2V链路,为移动高数据速率娱乐和高级驾驶服务的可靠周期性安全消息共享提供同步支持,如3GPP版本15中关于蜂窝V2X增强的讨论[4]。V2I链路利用蜂窝(Uu)接口将M辆车连接到BS以获得高数据速率服务,而K V2V链路通过具有本地化D2D通信的sidelink(PC5)接口传播周期性生成的安全消息。我们假设所有的收发器都使用一个天线,并且在所研究的车辆网络中,V2I链路和V2V链路的集合分别用M={1、⋯、M}和K={1、⋯、K}表示。

我们关注的是蜂窝V2X架构中定义的模式4,其中车辆有一个无线资源池,它们可以自主选择用于V2V通信[5]。这类资源池可以与蜂窝V2I接口的资源池重叠,以便在必要的干扰管理设计到位的情况下获得更好的频谱利用率,本文对此进行了研究。我们进一步假设M V2I链路(考虑上行链路)已被预先指定为具有固定传输功率的正交频谱子带,即M th V2I链路占据M th子带。因此,主要的挑战是为V2V链路设计一种有效的频谱共享方案,使得在高移动性车辆环境下,V2I和V2V链路都能以最小的信令开销实现各自的目标。

利用正交频分复用(OFDM)将频率选择性无线信道转换成多个子信道上的多个并行平坦信道。几个连续的子载波被分组以形成频谱子带,并且我们假设信道衰落在一个子带内大致相同,并且在不同子带上独立。在一个相干时间段内,第m子带上的第k V2V链路(由第m V2I链路占用)的信道功率增益gk[m]如下
在这里插入图片描述
其中,hk[m]是与频率相关的小尺度衰落功率分量,假定其以单位平均值呈指数分布,αk捕获假定为与频率无关的大尺度衰落效应,包括路径损耗和阴影。从第k个V2V发射机到第k个V2V接收机的第m子带上的干扰信道,gk′,k[m],从第k个V2V发射机到第m子带上的BS的干扰信道,gk,B[m],从第m个V2I发射机到第m子带上的BS的信道,gm,B[m]和从第m个V2I的干扰信道第m子带gm,k[m]上的第k个V2V接收器的发射机被类似地定义。

第m子频带上的第m V2I链路和第k V2V链路的接收信干噪比(sinr)表示为
在这里插入图片描述

respectively, wherePcmandPdk[m]denote transmit powers of themth V2I transmitter and thekth V2V transmitter over themth sub-band, respectively,σ2is the noise power, and
在这里插入图片描述
表示干扰功率。ρk[m]是二元频谱分配指示符,其中ρk[m]=1,表示k th V2V链路使用m th子带,否则ρk[m]=0。我们假设每个V2V链路只访问一个子带,即∑mρk[m]≤1。

然后,将m th V2I链路和k th V2V链路在m th子频带上的容量计算为
在这里插入图片描述
其中W是每个频谱子带的带宽。

如前面所述,V2i链路被设计为支持移动高数据速率娱乐服务,因此适当的设计目标是最大化它们的总和容量,定义为Sig-MCCM [M],用于平滑的移动宽带接入。同时,V2V链路主要负责可靠地传播安全关键信息,这些信息根据车辆的机动性以不同的频率定期生成,用于高级驾驶服务。我们对这样一个需求进行数学建模,如在时间预算T内大小为B的包的传送速率为
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-IdcRrDIi-1616917241590)(https://www.zhihu.com/equation?tex=%5Cbegin%7Bequation%2A%7D+%5Ctext+%7BPr%7D%5Cleft+%5C%7B%7B+%5Csum+_%7Bt%3D1%7D%5E%7BT%7D%5Csum+%5Climits+_%7Bm%3D1%7D%5E%7BM%7D+%5Crho+_%7Bk%7D%5Bm%5D+C_%7Bk%7D%5E%7Bd%7D%5Bm%2Ct%5D+%5Cge+B%2F%5CDelta+_%7BT%7D%7D%5Cright+%5C%7D%2C%5Cquad+k%5Cin+%5Cmathcal+%7BK%7D%2C%5Ctag%7B7%7D%5Cend%7Bequation%2A%7D)]
相干时间,并在Cdk[m,t]中加入索引t,以指示第k个V2V链路在不同相干时隙下的容量。

为此,本文研究的资源分配问题被形式化地表述为:设计V2V频谱分配,用二元变量ρk[m]表示所有k∈k,m∈m,以及用V2V传输功率Pdk[m]表示所有k∈k,m∈m,同时最大化所有V2i链路的总和容量Sig-MCCm [M]和在(7)中定义的V2V链路的分组传送速率。

车辆环境中的高移动性使得无法在中央控制器处收集精确的完整CSI,因此使得分布式V2V资源分配更为可取。那么,如何协调多个V2V链路的行为,使它们不自私地为自己的利益行事,从而损害整个系统的性能,仍然是一个挑战。此外,在(7)中定义的V2V链路的分组递送速率涉及在时间约束T内的多个相干时隙的顺序决策,并且由于指数复杂性导致常规优化方法的困难。为了解决这些问题,我们将在下一节中利用多代理RL的最新发现来开发一种用于V2V频谱接入的分布式算法。

基于多代理RL的资源分配

在图1所示的资源共享场景中,多个V2V链路试图访问V2I链路占用的有限频谱,这可以被建模为多代理RL问题。每个V2V链路充当一个代理,与未知的通信环境进行交互以获得经验,然后使用这些经验指导自己的策略设计。多个V2V代理共同探索环境,并根据自己对环境状态的观察改进频谱分配和功率控制策略。虽然资源共享问题可能是一个竞争博弈,但为了提高网络的整体性能,我们通过对所有代理使用相同的报酬,将其转化为一个完全合作的博弈。

该方法分为学习(训练)和实现两个阶段。我们专注于集中学习和分布式实现的设置。这意味着在学习阶段,每个V2V代理都可以很容易地获得面向系统性能的奖励,然后V2V代理通过更新其deep Q-network(DQN)来调整其行为以达到最优策略。在实现阶段,每个V2V代理接收对环境的局部观察,然后根据其训练的DQN在时间尺度上选择与小尺度信道衰落相同的动作。下面将详细描述基于多代理RL的资源共享设计的关键元素。

在资源共享问题的多代理RL公式中,每个V2V链路k充当代理,同时探索未知环境[29],[30]。从数学上讲,这个问题可以建模为MDP。如图2所示,在每个相干时间步骤t,给定当前环境状态St,每个V2V代理k接收由观察函数O确定的环境的观察Z(k)t,作为Z(k)t=O(St,k),然后采取动作A(k)t,在处形成联合动作。此后,代理接收奖励Rt+1,环境以概率p(s′,r | s,a)演化到下一个状态St+1。然后每个代理接收新的观测值Z(k)t+1。请注意,所有V2V代理在系统中共享相同的奖励,从而鼓励它们之间的合作行为。

img图2 车辆网络资源共享的多智能体RL模型中的智能体环境交互

动作空间:车载链路的资源共享设计归结为V2V链路的频谱子带选择和传输功率控制。虽然频谱自然地分解成M不相交的子带,每个都被一个V2i链路所占据,但V2V传输功率在大多数现有功率控制文献中通常需要连续值。然而,在本文中,为了便于学习和实际的电路限制,我们将功率控制选项限制为四个级别,即[23、10、5、-100]dBm。值得注意的是,-100 dBm的选择实际上意味着零V2V传输功率。结果,作用空间的维数为4×M,每个作用对应于谱子带和功率选择的一个特定组合。

奖赏函数:RL对于解决难以优化目标的问题特别有吸引力,是其报酬设计的灵活性。当每一步设计的奖赏信号与期望目标相关时,系统性能可以得到改善。在第二部分中描述的研究V2X频谱共享问题中,我们的目标是双重的:最大化总和V2i容量,同时增加V2V有效载荷递送在一定时间约束T内的成功概率。针对第一个目标,我们简单地将(5)中定义的所有V2I链路的瞬时和容量∑m∈MCcm[m,t]包含在每个时间步t的奖励中。为了实现第二个目标,对于每个代理k,我们将奖励Lk设置为有效的V2V传输速率,直到有效载荷被传递,然后将奖励设置为一个常数β,该常数大于最大可能的V2V传输速率。因此,在每个步骤t中,与V2V相关的奖励被设置为
在这里插入图片描述

强化学习算法

我们关注的是一个场景设置,每个场景跨越V2V有效载荷传递时间约束T。每一集以随机初始化的环境状态(由所有车辆链路的初始传输功率、信道状态等确定)和大小为B的完整V2V有效载荷开始传输,并持续到T结束。小尺度信道衰落的变化触发了环境状态的转变,并使每个V2V代理调整其行为。

img

仿真结果

在这一部分中,给出了仿真结果来验证所提出的基于多代理RL的车辆网络资源共享方案。我们按照3GPP TR 36.885[3]附件A中定义的城市案例评估方法定制了我们的模拟器,该方法详细描述了车辆跌落模型、密度、速度、移动方向、车辆通道、V2V数据流量等。。M V2I链路由M辆车启动,K V2V链路在每辆车与其周围邻居之间形成。主要仿真参数见表一,V2I和V2V链路的信道模型见表二。请注意,默认情况下,所有参数都设置为表I和表II中指定的值,而在适用的情况下,每个图中的设置优先。

img

每个V2V代理的DQN由3个完全连接的隐藏层组成,分别包含500、250和120个神经元。使用校正线性单元(ReLU),f(x)=max(0,x)作为激活函数,使用RMSProp优化器[37]以0.001的学习率更新网络参数。我们训练每个特工的Q网络,总共3000集,在最初的2400集中,探索率ϵ从1线性退火到0.02,之后保持不变。我们注意到,我们修正了几个训练片段的大尺度衰落,并让小尺度衰落在每个步骤中变化,这样学习算法可以更好地获得潜在的衰落动力学,从而帮助稳定训练。此外,我们在训练阶段将V2V有效载荷大小B固定为2×1060字节,但在测试阶段改变大小以验证所提出方法的稳健性。

我们在无花果中比较。3和4针对以下两种以分布式方式执行的基线方法,提出了基于多代理RL的资源共享方案,称为MARL。

  1. 文献[12]中的基于单代理RL的算法称为SARL,其中每个时刻只有一个V2V代理根据本地获得的信息和经过训练的DQN更新其动作,即频谱子带选择和功率控制,而其他代理的动作保持不变。单个DQN在所有V2V代理之间共享。
  2. 随机基线,在每个时间步以随机方式为每个V2V链路选择频谱子带和传输功率。

img图3 可变V2V负载大小B的V2I链路的总容量性能

图3示出了对于不同的资源共享设计,相对于增加V2V有效载荷大小B的V2I性能。从图中可以看出,随着V2V负载大小的增加,所有方案(上限除外)的性能都有所下降。V2V有效载荷的增加导致了V2V传输持续时间的延长和V2V传输功率的提高,从而提高了V2V有效载荷传输成功的概率。这将不可避免地在较长时间内对V2I链路造成更强的干扰,从而危及其容量性能。我们观察到,算法1中提出的MARL方法在不同的V2V有效载荷大小下比其他两个基线方案获得了更好的性能,尽管它是用2×1060字节的固定大小训练的,证明了它对V2V有效载荷变化的鲁棒性。它的性能接近V2I的性能上限,即使在6×1060字节负载的最坏情况下,性能也会下降14%。我们还注意到,集中式maxV2V方案在V2I性能方面取得了显著的性能。这可能是由于V2V链路的分组传送速率已经用集中式maxV2V得到了实质性的增强,并且一旦V2V链路的有效载荷传送完成,就不会对其产生干扰。这是一个有趣的观察结果,值得进一步研究V2I和V2V链路之间的性能权衡。也就是说,所提出的分布式MARL方法严格遵循理想的集中式maxV2V方案,进一步证明了其有效性。

img图4 V2V有效载荷传输成功概率与不同的有效载荷大小B

图4示出了在不同频谱共享方案下,针对不断增长的有效载荷大小B的V2V有效载荷递送的成功概率。从图中可以看出,随着V2V有效载荷的增大,三种分布式算法的传输成功率都有所下降,包括所提出的MARL,而集中式maxV2V可以在整个测试用例中实现100%的包传递。所提出的MARL方法比两种基线分布式方法具有更好的性能,并且与集中式maxV2V方案非常接近。值得注意的是,该方法在B=1060和B=2×1060字节时达到了100%的V2V有效载荷传递概率,在B=3×1060和B=4×1060字节时达到了接近完美的性能。我们还从图4中观察到,所提出的MARL方法在低负载情况下获得了非常理想的V2V性能,并且当负载大小超过4×1060字节时,该方法受到明显的降低。结合图3的观察结果,我们得出结论,所提出的基于多智能体RL的方法对V2V有效载荷变化的鲁棒性应该是有把握的:在有效载荷大小变化的合理区域内,训练的DQN是好的,然而,如果变化超出可接受的范围,则需要更新。然而,通常难以确定这种可接受裕度的确切范围,这将取决于实际的系统参数设置。对于当前的设置,我们可以得出这样的结论:当包大小不大于4×1060字节时,没有发现明显的性能损失,并且要保持V2V传输率高于95%,包大小不需要大于5×1060字节。同样,这些观察是基于模拟的特定设置的,在概括它们时需要格外小心。尽管如此,我们仍然可以验证所提出的频谱接入设计的优势,因为即使在未经训练的情况下,它也优于其他两个分布式基线。

img

我们在图5中显示随着训练迭代次数的增加,每个训练集的累积回报,以研究所提出的多代理RL方法的收敛性。从图中可以看出,随着训练的继续,每集的累积奖励也在提高,这证明了所提出的训练算法的有效性。当训练事件大约达到2, 000时,尽管在车辆环境中由于移动性引起的信道衰落,性能会逐渐收敛。基于这样的观察,我们在评估图中的V2I和V2V链路的性能时,训练每个代理的Q网络3000集。3和4,这应该提供一个安全的收敛保证。

img

为了理解为什么所提出的基于多代理RL的方法比随机基线获得更好的性能,我们选择了一个场景,在该场景中,所提出的方法使所有V2V链路能够在随机基线失败的情况下成功地交付2120字节的负载。在图6中,我们绘制了所有V2V链路在时间限制(即T=100ms)内剩余V2V有效载荷的变化。从图6(a)可以看出,对于所提出的基于多代理RL的方法,V2V链路4在事件的早期完成有效载荷递送,而其他三个链路大致同时结束传输。对于随机基线,图6(b)示出V2V链路1和4在事件的早期成功地传送了所有有效载荷。V2V链路3也完成了有效载荷传输,尽管在本集的稍后部分,而V2V链路2无法提供所需的有效载荷。

在图7中,我们进一步示出在与图6相同的事件中的每一步骤的两个不同资源分配方案下的所有V2V链路的瞬时速率。从比较图中可以得出一些有价值的观察结果。7(a)和(b)证明了所提出方法在鼓励多个V2V代理之间的合作方面的有效性。从图7(a)可以看出,利用所提出的方法,V2V链路4在开始到提前完成传输时获得非常高的传输速率,使得该链路的良好信道条件被充分利用,并且在事件的后期不会对其他链路产生干扰。V2V链路1首先保持较低的传输速率,使得易受攻击的V2V链路2和3能够获得相对较好的传输速率来传送有效载荷,然后在链路2和3几乎完成传输时跳到较高的数据速率来传送自己的数据。此外,对链路2和链路3的速率进行更仔细的研究表明,这两个链路想出了一个聪明的策略,轮流传输,这样它们的有效负载都可以快速地发送。综上所述,本文提出的基于多智能体RL的方法学习利用一些V2V链路的好信道,同时为那些信道条件不好的链路提供保护。因此,V2V有效载荷传输的成功概率显著提高。相比之下,图7(b)示出随机基线方法未能为易受攻击的V2V链路提供这种保护,从而导致它们的失败有效载荷递送的高概率。

结论

本文提出了一种基于多智能体RL的分布式资源共享方案,用于多V2V链路的车辆网络,该方案充分利用了V2I链路的频谱。针对多智能体RL问题,结合DQN和经验重放,提出了一种基于指纹的方法来解决独立Q学习的非平稳问题。该方法分为集中训练阶段和分布式实现阶段。我们证明,通过这种机制,所提出的资源共享方案可以有效地鼓励V2V链路之间的合作,以提高系统级性能,尽管决策是在每个V2V发射机上本地执行的。未来的工作将包括深入分析和比较基于单代理和多代理RL的算法的稳健性,以便更好地了解训练的Q网络何时需要更新以及如何有效地执行此类更新。将所提出的基于多代理RL的资源分配方法扩展到车辆通信的多输入多输出(MIMO)和毫米波MIMO场景也是一个值得进一步研究的有趣方向。

全文链接:

于单代理和多代理RL的算法的稳健性,以便更好地了解训练的Q网络何时需要更新以及如何有效地执行此类更新。将所提出的基于多代理RL的资源分配方法扩展到车辆通信的多输入多输出(MIMO)和毫米波MIMO场景也是一个值得进一步研究的有趣方向。

全文链接:

IEEE Xplore Full-Text PDF:ieeexplore.ieee.org

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

基于多智能体强化学习的车辆网络频谱共享 的相关文章

随机推荐