年度榜单
A100 系列
A100 Data Intelligence
Auto Byte
专注未来出行及智能汽车科技
微信扫一扫获取更多资讯
Science AI
关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展
Policy Gradient是一种策略搜索强化学习方法,求解强化学习问题的一种方法,类似于SVM——不估计后验概率而直接优化学习目标。