发布网友 发布时间:2024-09-06 00:44
共1个回答
热心网友 时间:2024-09-30 23:39
Agent无处理逻辑,只收lambda,用lambda加工自己的状态。Actor有逻辑,收消息,消息可以是数据也可以lambda,Actor处理消息。关键区别是:Actor有个主动过滤消息的过程;而agent没有,是被动的,不论什么lambda都要执行。强化学习,又称再励学习、评价学习或增强学习,是机器学习的范式和方法论之一,用于描述和解决智能体在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题。强化学习的常见模型是标准的马尔可夫决策过程。