我爱占星网 我爱占星网
首页
编程
java
php
前端
首页 编程 java php 前端

强化学习中的策略梯度算法,$\pi(\theta)$ Π(θ)是一个怎么的函数呢?对应的动作空间是有限的?还是无限的呢?

img


一般采用 策略梯度的方法,是不是对应的 动作空间是有限的呢?比如动作空间有{上,下,左,右},但是对当前状态的施加某个动作的概率是不一定的,所以要寻找最佳的动作策略,是吗?

近期文章

  • 大佬们,如何在vue里面添加视频
  • 云开发聚合操作的geoNear怎么设置第二排序规则
  • 求1~n之间个位数为7的质数
  • hadoop的jdk安装错了怎么删除
  • 各位程序员们,请问swiper7怎么引用?
  • R语言绘制海盗图报错
  • pycharm的配置突然没了!?
  • js封装的方法怎么引用
  • 2020,1.4安装了Lombok还是报错
  • 为什么无法输出正确答案
  • python re正则表达式,怎么匹配一段字符中间 的部分,已知头尾
  • 不太理解,能否细讲一下
  • 用c语音简单进行四则运算
  • 基于以上日志信息,描述发生的事件
  • C语言,尽量易懂才学不久
  • android R 应用首次安装会自动请求发送通知权限
  • c语言基础入门的小题
  • 关于springboot 使用cas实现sso单点登录 自定义登录接口
  • 关于Django匹配路由无法搜索到子目录问题
  • 这道if语句练习 怎么做

Copyright ©2022 我爱占星 All Rights Reserved.

浙ICP备2022030071号-1

部分图文来自网络,如有侵犯您的版权,请告诉我们删除

友情链接:代码精华