各位大佬好,我是毕业可能要用到强化学习算法的萌新
我用matlab的强化学习工具箱,生成了Dqn智能体,自己在里面写了环境,用来求解一个分配问题。
我将环境中的所有信息均作为状态输入 ,但发现在某些情况下,整个模型的泛化性仍然不好
如果采用多个不同环境进行训练,感觉后续训练结果会覆盖前面的训练结果,使得智能体无法较好的处理原有工况
这种情况下,原因是训练方法不对还是?
我用matlab的强化学习工具箱,生成了Dqn智能体,自己在里面写了环境,用来求解一个分配问题。
我将环境中的所有信息均作为状态输入 ,但发现在某些情况下,整个模型的泛化性仍然不好
如果采用多个不同环境进行训练,感觉后续训练结果会覆盖前面的训练结果,使得智能体无法较好的处理原有工况
这种情况下,原因是训练方法不对还是?