一种基于拍卖竞价的沉浸式媒体资源分配方法

未命名 07-15 阅读：132 评论：0

1.本发明属于卫星网络资源分配领域，涉及拍卖设计方法，具体是一种基于拍卖竞价的沉浸式媒体资源分配方法。

背景技术：

2.随着卫星通信的快速发展，卫星网络与地面网络的融合已成为一种趋势。天地一体化网络为稳健可靠的网络，它具有支持广泛覆盖和全时连接的优势，适用于各种应用和行业。4k/8k视频和虚拟现实等沉浸式媒体的带宽需求正在迅速增长。多媒体流量的爆炸式增长对网络构成了挑战。由于城市地区网络连接不稳定，农村地区宽带基础设施建设成本高，人们很难自由享受实时、低成本的沉浸式媒体服务。此外，沉浸式媒体强调个人体验和多用户交互，但端到端的延迟和低传输带宽带来了较差的服务质量。
3.天地一体化网络通常为多媒体服务提供尽力而为的交付，它关注服务质量(qos)性能，而不是最终用户的个人感受。例如，5g-allstar是欧盟horizon 2020项目之一，它提供了一个基于虚拟现实的网球比赛场景，来自欧洲和韩国的观众可以在线观看视频流。im应用程序提供娱乐通信服务，但是，该服务涉及大量数据，需要严格的网络环境，并且可能导致昂贵的成本。卫星网络中星间链路的不稳定连接也影响用户享受高质量im服务的满意度。
4.现有技术中关于地面网络中的视频流分配资源包括以下文献：
5.文献[1]考虑了一个机器学习模型来预测云端的用户数量，然后主动优化用户附近的分配资源，实现访问延迟和成本之间的权衡。
[0006]
文献[2]设计了边缘计算辅助的视频流量卸载场景，用于保障用户体验和提高网络资源效率。
[0007]
文献[3]是针对卫星网络上资源而提出一种在线智能拍卖算法。这些资源分配方法很难满足im应用对于实时性、带宽和延迟的要求。
[0008]
因此，需要一种基于竞价的资源分配方法，可以为用户提供个性化的沉浸式媒体服务。
[0009]
相关文献：
[0010]
[1]f.haouari,e.baccour,a.erbad,a.mohamed,and m.guizani,“qoe-aware resource allocation for crowdsourced live streaming:a machine learning approach,”in proc.ieee int.conf.commun.(icc),shanghai,china,may 2019,pp.1
–
6.
[0011]
[2]s.kumar,n.wang,y.rahulan,and b.evans,“qoe-aware video streaming over integrated space and terrestrial 5g networks,”ieee netw.,vol.35,no.4,pp.95
–
101,jul.2021.
[0012]
[3]一种基于在线智能拍卖的mec辅助卫星网络资源分配方法，公开号：cn115689228a.

技术实现要素：

[0013]
针对上述问题，本发明提供了一种基于拍卖竞价的沉浸式媒体资源分配方法，引入了多智能体强化学习算法(marl)，将每个用户都当成一个智能体，根据环境进行学习并变化改变他们的行为，通过学习和博弈来优化网络效用，在实践中实现高效的资源分配。本发明提出的方法在改善资源利用率和用户满意度方面具有重要意义。
[0014]
所述一种基于拍卖竞价的沉浸式媒体资源分配方法，具体步骤如下：
[0015]
步骤一、构建由i个用户、天地一体化网络和多媒体服务器组成的沉浸式媒体资源分配系统；
[0016]
天地一体化网络节点用图g＝(v,e)表示，v表示卫星和地面站节点，e表示星间链路和星地链路。
[0017]
每个多媒体服务器的容量大小相同，都存在m种沉浸式媒体业务类型，对于每个业务类型，共n个服务可用；服务类型包括低qos和高qos；不同的服务类型占有不同的资源单元。
[0018]
步骤二、针对当前沉浸式媒体资源，每个用户根据自身的需求，发起各自的请求信息；
[0019]
所有用户的请求信息组成集合b＝{b1,b2,...,bi,...,bi}；每个请求信息bi＝(ti,ri,di)包含请求业务的类型ti，需要的资源单元ri及用户能忍受的最长时延di。
[0020]
步骤三、每个用户根据各自的请求信息，结合自己的预算及对当前沉浸式媒体资源的估价进行出价p；并观察其他用户上一轮的出价，决定是否继续竞拍还是撤回竞拍。
[0021]
当用户进行竞拍时，将每个用户作为一个智能体，基于多智能体强化学习算法，根据当前状态更新智能体的行动策略，计算系统效用；并根据计算结果调整智能体策略，使竞价更加合理化。
[0022]
系统效用包含用户参与竞拍的效用和多媒体服务器的资源利用率两部分；
[0023]
用户参与竞拍的效用表示为：u＝y[(v-p)x+r(1-x)]+(1-y)d；
[0024]
其中，y表示用户是否撤回此次竞拍，y＝1表示撤回；若撤回竞拍，需要支付固定费用的撤回成本d；若y＝0表示继续此次拍卖，但是可能会被拒绝；x＝0表示此轮竞拍失败，需要支付固定的拒绝成本r；x＝1表示竞拍成功，p是用户的出价价格，v表示商品的价值，v-p表示此轮竞拍成功后用户能得到的回报；
[0025]
多媒体服务器的资源利用率表示当前资源的使用情况，用α表示资源利用率。
[0026]
因此，系统效用表示为u＝σ
i∈i
σ
m∈mui,m
+k(1-α)；k为常数；
[0027]ui,m
表示第i个用户对第m种沉浸式媒体业务类型的效用；
[0028]
调整智能体策略的调整规则为：基于强化学习算法，采用actor-critic算法学习用户行为；具体过程为：
[0029]
s301:定义智能体的状态空间为s(t)＝[bi,u
m,i
(t-1),p(t-1),α]，分别是第i个用户的请求信息bi，第i个用户上一个时刻对第m种沉浸式媒体业务类型的效用u
m,i
(t-1)，上一个时刻的用户出价信息p(t-1)，以及系统的资源利用率α。
[0030]
其中，第i个用户对第m种沉浸式媒体业务类型的效用计算如下：
[0031]um,i
＝y
m,icm,i
+(1-y
m,i
)d
m,i
[0032]ym,i
表示第i个用户是否撤回对第m种沉浸式媒体业务类型的竞拍；d
m,i
表示当第i
个用户撤回对第m种沉浸式媒体业务类型竞拍时，需要支付的撤回成本；c
m,i
表示第i个用户对第m种沉浸式媒体业务类型参与竞拍的成本，计算如下：
[0033]cm,i
＝x
m,i
(p
m,i-v
m,i
)+(1-x
m,i
)r
m,i
[0034]
p
m,i
表示第i个用户对第m种沉浸式媒体业务类型的出价价格，v
m,i
表示第m种沉浸式媒体业务类型的价值；r
m,i
表示第i个用户对第m种沉浸式媒体业务类型的竞拍被拒绝的成本；
[0035]
s302:设计智能体的行为空间a(t)＝[pi(t),yi(t)]，分别是第i个用户的出价pi(t)及是否撤回此轮拍卖yi(t)。
[0036]
s303:设计智能体的回报函数r(t)为最大化用户效用及资源利用率α：
[0037][0038]
s304:利用actor-critic算法学习用户行为，并生成最优结果。
[0039]
步骤四、针对当前沉浸式媒体资源，天地一体化网络的地面站节点接受所有用户的资源请求信息和出价信息，并将用户的出价进行降序排序；采用第二价格拍卖方式，决定拍卖成功的用户和拒绝的用户。
[0040]
拍卖成功的用户数量与现有资源数量保持一致，需要支付的价格为出价第二高的价格。
[0041]
步骤五、对拍卖成功的所有用户，采用基于dijkstra算法及负载均衡的方式，将每个用户的请求信息分别发送给不同的多媒体服务器。
[0042]
步骤六、每个多媒体服务器接收到用户请求信息后，释放与请求信息相应的资源，进而提供沉浸式媒体服务；并返回给地面站节点当前的资源利用率及任务执行结果。
[0043]
本发明的优点在于：
[0044]
1)、一种基于拍卖竞价的沉浸式媒体资源分配方法，由于允许用户根据自身对沉浸式媒体资源的需求进行竞价，因此用户将真实地和积极地反馈自身对于业务的需求，用户参与度和互动性得到了提高，这也有助于激发用户对业务相关资源的需求。
[0045]
2)、一种基于拍卖竞价的沉浸式媒体资源分配方法，多智能体强化学习算法可以根据当前状态和网络效用动态调整智能体的行动策略，实现用户的个人回报和系统资源利用率的提高。
[0046]
3)、一种基于拍卖竞价的沉浸式媒体资源分配方法，针对天地一体化网络中多关注网络传输性能而不是用户感受的问题，利用拍卖方式将有限的沉浸式资源资源分配给用户，为用户提供不同类型的沉浸式媒体业务服务，实现资源的灵活配置和高效利用。
附图说明
[0047]
图1为本发明一种基于拍卖竞价的沉浸式媒体资源分配方法的流程图；
[0048]
图2为本发明构建的沉浸式媒体资源分配系统示意图。
具体实施方式
[0049]
下面结合附图，对本发明的实施方式做详细、清楚的描述。
[0050]
本发明提供一种基于拍卖竞价的沉浸式媒体资源分配方法，具体包括：构建由多
颗卫星和多个用户组成的沉浸式媒体资源分配系统；并引入服务满意度指数来表示卫星与用户之间的服务关系，该关系表示综合服务满意度，包括：卫星对用户的服务收益满意度和用户对卫星服务的满意度；利用综合服务满意度最大化的在线多轮拍卖资源分配算法以及vickrey-clerke-groves支付机制，确定卫星和用户之间的服务匹配关系和交易资源的最终支付价格，以实现综合服务满意度最大化。
[0051]
本发明的拍卖竞价允许用户根据自身对沉浸式媒体资源的需求以及其他用户的出价规则进行竞价。同时，为了保证网络的利润和效率，本发明引入了网络效用的概念。具体来说，网络效用是由用户的竞价和资源分配结果所组成的，以实现资源的高利润和用户的最大收益。此外，本发明还引入了多智能体强化学习算法(marl)，每个用户都被当成一个智能体，根据环境进行学习并变化改变他们的行为，通过学习和博弈来优化网络效用，并在实践中实现高效的资源分配。本发明提出的方法在改善资源利用率和用户满意度方面具有重要意义。
[0052]
所述一种基于拍卖竞价的沉浸式媒体资源分配方法，如图1所示，具体步骤如下：
[0053]
步骤一、构建由i个用户、天地一体化网络和多媒体服务器组成的沉浸式媒体资源分配系统；
[0054]
沉浸式媒体资源分配系统如图2所示，天地一体化网络节点用图g＝(v,e)表示，v表示卫星和地面站节点，e表示星间链路和星地链路。
[0055]
多媒体服务器用于提供沉浸式媒体资源，包含虚拟游戏、360度视频、4k或8k视频等。每个多媒体服务器的容量大小相同，都存在m种沉浸式媒体业务类型，对于每个业务类型，共n个服务可用；服务类型包括低qos和高qos；不同的服务类型占有不同的资源单元。
[0056]
步骤二、针对当前沉浸式媒体资源，每个用户根据自身的需求，发起各自的请求信息；
[0057]
所有用户的请求信息组成集合b＝{b1,b2,...,bi,...,bi}；每个请求信息bi＝(ti,ri,di)包含请求业务的类型ti，需要的资源单元ri及用户能忍受的最长时延di。
[0058]
步骤三、每个用户根据各自的请求信息，结合自己的预算及对当前沉浸式媒体资源的估价进行出价p；并观察其他用户上一轮的出价，决定是否继续竞拍还是撤回竞拍。
[0059]
若其他用户出价过高，会决定撤回此轮拍卖，但会有撤回成本d。也可能继续出价竞拍，但可能会被拒绝，有个拒绝成本r。其中，d和r均为常数。
[0060]
当用户进行竞拍时，将每个用户作为一个智能体，基于多智能体强化学习算法，根据当前状态更新智能体的行动策略，计算系统效用；并根据计算结果调整智能体策略，调整拍卖规则和智能体策略，使其更好地适应当前竞价环境，以进一步提高网络效用，并满足网络利润和效率的需求，并使竞价更加合理化。
[0061]
系统效用包含用户参与竞拍的效用和多媒体服务器的资源利用率两部分；
[0062]
用户参与竞拍的效用表示为：u＝y[(v-p)x+r(1-x)]+(1-y)d；
[0063]
其中，y表示用户是否撤回此次竞拍，y＝1表示撤回；若撤回竞拍，需要支付固定费用的撤回成本d；若y＝0表示继续此次拍卖，但是可能会被拒绝；x＝0表示此轮竞拍失败，需要支付固定的拒绝成本r；x＝1表示竞拍成功，p是用户的出价价格，v表示商品的价值，v-p表示此轮竞拍成功后用户能得到的回报；
[0064]
多媒体服务器的资源利用率表示当前资源的使用情况，用α表示资源利用率。
[0065]
因此，系统效用表示为u＝∑
i∈i
∑
m∈mui,m
+k(1-α)；k为常数；
[0066]ui,m
表示第i个用户对第m种沉浸式媒体业务类型的效用；
[0067]
调整智能体策略的调整规则为：基于强化学习算法，采用actor-critic算法学习用户行为；具体过程为：
[0068]
s301:定义智能体的状态空间为s(t)＝[bi,u
m,i
(t-1),p(t-1),α]，分别是第i个用户的请求信息bi，第i个用户上一个时刻对第m种沉浸式媒体业务类型的效用u
m,i
(t-1)，上一个时刻的用户出价信息p(t-1)，以及系统的资源利用率α。
[0069]
其中，第i个用户对第m种沉浸式媒体业务类型的效用计算如下：
[0070]um,i
＝y
m,icm,i
+(1-y
m,i
)d
m,i
[0071]ymi
表示第i个用户是否撤回对第m种沉浸式媒体业务类型的竞拍；d
mi
表示当第i个用户撤回对第m种沉浸式媒体业务类型竞拍时，需要支付的撤回成本；c
m,i
表示第i个用户对第m种沉浸式媒体业务类型参与竞拍的成本，计算如下：
[0072]cm,i
＝x
m,i
(p
m,i-v
m,i
)+(1-x
m,i
)r
m,i
]
[0073]
p
m,i
表示第i个用户对第m种沉浸式媒体业务类型的出价价格，v
m,i
表示第m种沉浸式媒体业务类型的价值；r
m,i
表示第i个用户对第m种沉浸式媒体业务类型的竞拍被拒绝的成本；
[0074]
s302:设计智能体的行为空间a(t)＝[pi(t),yi(t)]，分别是第i个用户的出价pi(t)及是否撤回此轮拍卖yi(t)。
[0075]
s303:设计智能体的回报函数r(t)为最大化用户效用及资源利用率α：
[0076][0077]
s304:利用actor-critic算法学习用户行为，并生成最优结果。
[0078]
步骤四、针对当前沉浸式媒体资源，天地一体化网络的地面站节点接受所有用户的资源请求信息和出价信息，并将用户的出价进行降序排序；采用第二价格拍卖方式，决定拍卖成功的用户和拒绝的用户。
[0079]
拍卖成功的用户数量与现有资源数量保持一致，需要支付的价格为出价第二高的价格。
[0080]
步骤五、对拍卖成功的所有用户，采用基于dijkstra算法及负载均衡的方式，将每个用户的请求信息分别发送给不同的多媒体服务器。
[0081]
采用dijkstra算法，找到当前网络条件下一条地面站和多媒体服务器之间传输的最短路径。由于多媒体服务器会有多个，不会将所有请求信息都转发给一个服务器。采用负载均衡的方式，将用户的请求信息发送给服务器端。
[0082]
具体步骤为：
[0083]
s501：计算节点间的最短路径：使用dijkstra算法找到当前网络条件下，计算地面站到多个多媒体服务器之间传输的最短路径。
[0084]
s502：计算节点的负载：根据各多媒体服务器的资源利用率计算节点的负载α。例如，多媒体服务器1的资源利用率为60％，多媒体服务器2的资源利用率为70％，多媒体服务器3的资源利用率为50％。
[0085]
s503：确定负载均衡策略：为了实现动态负载均衡，我们可以选择根据各多媒体服
务器的资源利用率α来进行负载均衡。例如，当某个节点的资源利用率超过阈值时(如80％时)，我们将请求转移到其他节点上。
[0086]
s504：动态调整负载均衡：根据实时监控各节点的负载情况，并根据需要进行动态调整负载均衡。例如，当某个节点的资源利用率降低时，我们可以将请求重新分配到该节点上。
[0087]
步骤六、每个多媒体服务器接收到用户请求信息后，释放与请求信息相应的资源，进而提供沉浸式媒体服务；并返回给地面站节点当前的资源利用率及任务执行结果。
[0088]
实施例：
[0089]
首先，每个用户分别发起需求信息，根据自身对沉浸式媒体资源的需求以及其他用户的行为进行竞价，出价将被提交至拍卖市场。在每次拍卖中，用户都试图通过提高拍卖价格或者撤回拍卖请求，最大化他们拍卖成功的机会。
[0090]
然后，网络控制并转发用户请求：地面站是接受用户拍卖信息的准许控制中心，将所有用户的出价信息进行排序。如果该拍卖被允许，则通过网络转发请求资源。
[0091]
根据拍卖规则确定竞拍成功者，并将沉浸式媒体资源分配给竞拍成功者。
[0092]
最后，找到一条地面站和多媒体服务器之间传输的最短路径，采用负载均衡的方式，将用户的请求信息发送给服务器端；服务器接收到网络转发过来的用户请求信息，如果数量过多则需要排队等待；根据请求信息释放相应资源，进而提供沉浸式媒体服务；并返回给地面站当前的资源利用率及任务执行结果。

技术特征：
1.一种基于拍卖竞价的沉浸式媒体资源分配方法，其特征在于，具体步骤如下：步骤一、构建由i个用户、天地一体化网络和多媒体服务器组成的沉浸式媒体资源分配系统；步骤二、针对当前沉浸式媒体资源，每个用户根据自身的需求，发起各自的请求信息；结合自己的预算及对当前沉浸式媒体资源的估价进行出价；并观察其他用户上一轮的出价，决定是否继续竞拍还是撤回竞拍；当用户进行竞拍时，将每个用户作为一个智能体，基于多智能体强化学习算法，根据当前状态更新智能体的行动策略，计算系统效用；并根据计算结果调整智能体策略，使竞价更加合理化；系统效用包含用户参与竞拍的效用和多媒体服务器的资源利用率两部分；用户参与竞拍的效用表示为：u＝y[(v-p)x+r(1-x)]+(1-y)d；其中，y表示用户是否撤回此次竞拍，y＝1表示撤回；若撤回竞拍，需要支付固定费用的撤回成本d；若y＝0表示继续此次拍卖，但是可能会被拒绝；x＝0表示此轮竞拍失败，需要支付固定的拒绝成本r；x＝1表示竞拍成功，p是用户的出价价格，v表示商品的价值，v-p表示此轮竞拍成功后用户能得到的回报；多媒体服务器的资源利用率表示当前资源的使用情况，用α表示资源利用率；因此，系统效用表示为u＝σ
i∈i
σ
m∈m
u
i,m
+k(1-α)；k为常数；u
i,m
表示第i个用户对第m种沉浸式媒体业务类型的效用；步骤三、针对当前沉浸式媒体资源，天地一体化网络的地面站节点接受所有用户的资源请求信息和出价信息，并将用户的出价进行降序排序；采用第二价格拍卖方式，决定拍卖成功的用户和拒绝的用户；拍卖成功的用户数量与现有资源数量保持一致，需要支付的价格为出价第二高的价格；步骤四、对拍卖成功的所有用户，采用基于dijkstra算法及负载均衡的方式，将每个用户的请求信息分别发送给不同的多媒体服务器；步骤五、每个多媒体服务器接收到用户请求信息后，释放与请求信息相应的资源，进而提供沉浸式媒体服务；并返回给地面站节点当前的资源利用率及任务执行结果。2.如权利要求1所述的一种基于拍卖竞价的沉浸式媒体资源分配方法，其特征在于，所述天地一体化网络节点用图g＝(v,e)表示，v表示卫星和地面站节点，e表示星间链路和星地链路；所述每个多媒体服务器的容量大小相同，都存在m种沉浸式媒体业务类型，对于每个业务类型，共n个服务可用；服务类型包括低qos和高qos；不同的服务类型占有不同的资源单元。3.如权利要求1所述的一种基于拍卖竞价的沉浸式媒体资源分配方法，其特征在于，所述i个用户的请求信息组成集合b＝{b1,b2,...,b
i
,...,b
i
}；每个请求信息b
i
＝(t
i
,r
i
,d
i
)包含请求业务的类型t
i
，需要的资源单元r
i
及用户能忍受的最长时延d
i
。4.如权利要求1所述的一种基于拍卖竞价的沉浸式媒体资源分配方法，其特征在于，所述步骤二中，调整智能体策略的调整规则为：基于强化学习算法，采用actor-critic算法学习用户行为；具体过程为：
s301:定义智能体的状态空间为s(t)＝[b
i
,u
m,i
(t-1),p(t-1),α]，分别是第i个用户的请求信息b
i
，第i个用户上一个时刻对第m种沉浸式媒体业务类型的效用u
m,i
(t-1)，上一个时刻的用户出价信息p(t-1)，以及系统的资源利用率α；其中，第i个用户对第m种沉浸式媒体业务类型的效用计算如下：u
m,i
＝y
m,i
c
m,i
+(1-y
m,i
)d
m,i
y
m,i
表示第i个用户是否撤回对第m种沉浸式媒体业务类型的竞拍；d
m,i
表示当第i个用户撤回对第m种沉浸式媒体业务类型竞拍时，需要支付的撤回成本；c
m,i
表示第i个用户对第m种沉浸式媒体业务类型参与竞拍的成本，计算如下：c
m,i
＝x
m,i
(p
m,i-v
m,i
)+(1-x
m,i
)r
m,i
p
m,i
表示第i个用户对第m种沉浸式媒体业务类型的出价价格，v
m,i
表示第m种沉浸式媒体业务类型的价值；r
m,i
表示第i个用户对第m种沉浸式媒体业务类型的竞拍被拒绝的成本；s302:设计智能体的行为空间a(t)＝[p
i
(t),y
i
(t)]，分别是第i个用户的出价p
i
(t)及是否撤回此轮拍卖y
i
(t)；s303:设计智能体的回报函数r(t)为最大化用户效用及资源利用率α：s304:利用actor-critic算法学习用户行为，并生成最优结果。

技术总结
本发明公开了一种基于拍卖竞价的沉浸式媒体资源分配方法，属于卫星网络资源分配领域；具体是：首先，构建由多个用户、天地一体化网络和多媒体服务器组成的沉浸式媒体资源分配系统；然后，针对当前沉浸式媒体资源，用户发起请求，结合自己的预算及对当前资源的估价进行出价；接着，地面站节点接受所有用户的资源请求信息出价信息，并将出价降序排序；采用第二价格拍卖方式，决定拍卖成功的用户，采用基于Dijkstra算法及负载均衡的方式，将每个用户的请求信息分别发送给不同的多媒体服务器。最后，每个多媒体服务器释放相应资源，提供沉浸式媒体服务；并返回给地面站节点当前的资源利用率及任务执行结果。本发明提高了资源利用率和用户满意度。和用户满意度。和用户满意度。

技术研发人员：刘雨魏琳慧望育梅
受保护的技术使用者：北京邮电大学
技术研发日：2023.04.04
技术公布日：2023/7/12

版权声明

本文仅代表作者观点，不代表航空之家立场。
本文系作者授权航家号发表，未经原创作者书面授权，任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时，须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的，航空之家将依法追究其法律责任。（航空之家官方QQ：2926969996）

飞行汽车 https://www.autovtol.com/

上一篇：一种基于CFs/ZnO纳米阵列的PEC型紫外探测器的制备方法 下一篇：图像显示方法、装置、电子设备及可读存储介质与流程

一种基于拍卖竞价的沉浸式媒体资源分配方法

版权声明

航空之家

相关推荐

文章排行

最近发表

标签列表

一种基于拍卖竞价的沉浸式媒体资源分配方法

版权声明

相关文章

航空之家

相关推荐

文章排行

最近发表

标签列表