什么是人工智能机制与深度强化学习和利用实例

强化学习(RL)是一种机器学习方法，它通过系统自身的反复试验实现最佳的系统控制。

强化学习的概念早在AI兴起之前就已经存在。强化学习的原型已在1950年代作为“最优控制”的研究而存在，它可以实现机器的自主控制。1990年前后，他在加拿大阿尔伯塔大学的Richard Sutton教授的带领下进行了积极的研究，他也被称为强化学习的创造者。

“深度强化学习”为已存在很长时间的强化学习带来了惊人的技术进步。将深度学习应用于常规强化学习的深度强化学习的出现，触发了由强化学习在社会中推动的AI的实现。

为了了解强化学习和深度强化学习，我们将首先概述诸如机器学习和深度学习之类的技术。

监督学习是一种学习方法，其中向计算机提供学习数据，其中“输入”和“正确输出”链接在一起，并且是一种算法，当接收到某个输入时会返回正确的输出。

例如，一种预测房价的算法。在这种情况下，将某个房屋的大小和位置，到车站的距离等链接为“输入”，并将房屋的价格链接为“正确的输出”。如果您输入房屋的周围条件，这将创建一种算法，该算法将猜测合理的房价。

另一方面，在无监督学习中，仅将“输入”数据提供给计算机，并且计算机独立地提取数据中固有的模式。

一个示例是一种算法，该算法根据访问超级市场的客户的购买数据将客户分为几类。输入购买数据(例如购买的产品和商店访问时间)，然后计算机独立提取类似的购买行为并输出客户组。该输出不是人类预定的。

②强化学习

在强化学习中，计算机学习特定“环境”中的动作以最大化为此目的设置的“奖励(分数)”。

典型示例是机器人步行控制。在这种情况下，机器人会获得“可步行距离”的奖励。然后，机器人将尝试通过不同的方式行走，以最大化行走距离。通过这样做，构造了具有长步行距离的算法。