关于ddpg的时尚精选

ddpg算法优缺点

ddpg算法优缺点

ddpg算法优点:是sampleefficiency,DDPG的actorcrtic均可以off-policy,而gradientestimator由于deterministicpolicy也确实是无偏的,是可以continuouscontrol。DPG的actor是通过SGD去解max-Q的(而不是遍历),所以也能做cont...