正在加载图片...
个子集,他的优化目标是保证随着时间的推移使决策获得的奖励最大化。选择这 种多臂赌博机问题建模的好处是:1)适用性,毫米波基站同时只能使用有限的 一组波束,因此,基站需要在一段时间内通过选择使用所有可能波束组合的子集 来识别出最优的波束组合。所以多臂赌博机建模适用于波束选择问题。2)通过 使用多臂赌博问题的解决方法,毫米波基站不仅可以了解平均来说哪些波束组合 是最好的,而且还可以利用与基站附近行驶车辆有关的额外信息来识别在给定的 交通情况下哪些波束组合是最好的: 具体来说,论文中假设一个毫米波基站只能在有限离散的方向上发射波束 (波束集合的模记为B),并且一个基站同时只能发出有限的波束组合(同时 发射的波束个数为m,m<B)。而基站的目标则是要选择m个波束的组合,使得 其在自己负责区域内向行驶车辆成功发送的数据总量最大化。同时,论文中假设 基站没有周围环境的先验信息,因此基站需要自己在线学习如何在给定环境中选 择最优的波束组合。 2.算法思路和要点 通过不断发射波束并得到反馈,基站可以不断得到一部分波束选择决策下的 期望表现,并在后来的周期中利用这一部分先验信息提高系统总体预期达到的性 能表现。但因为环境未知,基站同时需要尝试发射不同的波束组合以学习周围环 境,但这样做可能会导致当前的性能变差。所以需要基站在平衡当前收益和探索 未知环境代价的情况下,同时利用已知的高收益波束选择保证当前性能和发射一 部分未知的波束组合用于学习未知环境和波束的收益。 上述的问题对应了一个环境感知的多臂赌博机问题,可以通过一个在线的机 器学习算法进行优化。这个算法的假设前提是对于相近的车辆环境位置来说,同 样的一个波束会同样有相近的收益表现。算法的要点如下: 1)在算法中,首先将基站的周围环境均匀地划分为一组更小的具有相似内 部环境的集合(即在每个小环境中一个特定波束的收益是相同的),然 后再分别了解这些小集合中不同波束的收益性能。 2)然后,在每个离散周期内,算法要么进入探索阶段,要么进入使用阶段。 它进入的阶段是根据周围车辆的位置和控制功能来决定的。在探索阶段, 该算法随机选择所有波束组合中的一个子集。在使用阶段,该算法选择 在前一阶段的选择中表现出具有最高收益性能的波束组合。算法的反馈 通过观察通信系统中车辆成功接收到的数据量得到,获得波束的收益估 计。个子集,他的优化目标是保证随着时间的推移使决策获得的奖励最大化。选择这 种多臂赌博机问题建模的好处是:1) 适用性,毫米波基站同时只能使用有限的 一组波束,因此,基站需要在一段时间内通过选择使用所有可能波束组合的子集 来识别出最优的波束组合。所以多臂赌博机建模适用于波束选择问题。2) 通过 使用多臂赌博问题的解决方法,毫米波基站不仅可以了解平均来说哪些波束组合 是最好的,而且还可以利用与基站附近行驶车辆有关的额外信息来识别在给定的 交通情况下哪些波束组合是最好的。 具体来说,论文中假设一个毫米波基站只能在有限离散的方向上发射波束 (波束集合的模记为 B ),并且一个基站同时只能发出有限的波束组合 (同时 发射的波束个数为 m m B ,  )。而基站的目标则是要选择 m 个波束的组合,使得 其在自己负责区域内向行驶车辆成功发送的数据总量最大化。同时,论文中假设 基站没有周围环境的先验信息,因此基站需要自己在线学习如何在给定环境中选 择最优的波束组合。 2. 算法思路和要点 通过不断发射波束并得到反馈,基站可以不断得到一部分波束选择决策下的 期望表现,并在后来的周期中利用这一部分先验信息提高系统总体预期达到的性 能表现。但因为环境未知,基站同时需要尝试发射不同的波束组合以学习周围环 境,但这样做可能会导致当前的性能变差。所以需要基站在平衡当前收益和探索 未知环境代价的情况下,同时利用已知的高收益波束选择保证当前性能和发射一 部分未知的波束组合用于学习未知环境和波束的收益。 上述的问题对应了一个环境感知的多臂赌博机问题,可以通过一个在线的机 器学习算法进行优化。这个算法的假设前提是对于相近的车辆环境位置来说,同 样的一个波束会同样有相近的收益表现。算法的要点如下: 1) 在算法中,首先将基站的周围环境均匀地划分为一组更小的具有相似内 部环境的集合(即在每个小环境中一个特定波束的收益是相同的),然 后再分别了解这些小集合中不同波束的收益性能。 2) 然后,在每个离散周期内,算法要么进入探索阶段,要么进入使用阶段。 它进入的阶段是根据周围车辆的位置和控制功能来决定的。在探索阶段, 该算法随机选择所有波束组合中的一个子集。在使用阶段,该算法选择 在前一阶段的选择中表现出具有最高收益性能的波束组合。算法的反馈 通过观察通信系统中车辆成功接收到的数据量得到,获得波束的收益估 计
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有