ReinforcementLearning 强化学习 gym的使用 有空再写 策略网络 2017-10-25 CartPole-v0 值得注意的地方: loss 折扣 批量更新 网络的结构 多层感知机:两层神经网络 网络学习的内容 使获得较多潜在价值的Action的概率变大, 使获得较少潜在价值的Action的概率变小。 网络预测的内容 根据当前的环境状态,得到使未来潜在价值最大的Action。 价值网络 五子棋 2017-12-25 打基础