科创协会机器学习培训第三期——强化学习-山大信息学院学生网站

最后更新时间：2019-11-5

强化学习是人工智能领域中一类特定的机器学习问题，它通过与环境的交互来学习如何最大化奖励。走迷宫机器人通过学习策略、改进策略的方法来获取最大化奖励，同学们通过学习获得头脑中的知识奖励。信息学院科创协会为助学生们扩充专业技能，开展了一系列培训讲座。

11月3日下午六点，科创协会在振生苑E101开展了人工智能系列讲座第三期——“强化学习”培训讲座。本期培训由17级崇新学堂张珈辉同学主讲，讲述过程中深入简出，通过同学们感兴趣的游戏案例带领大家走进强化学习。

首先，张珈辉同学通过机器人迷宫引入强化学习系统的三个关键元素：状态、奖励和动作，又分析了强化学习与监督学习、非监督学习的区别，之后介绍了关于强化学习在游戏和机器人领域的应用。其次张珈辉同学向大家介绍了强化学习的主流算法，重点详细分析了Q-Learning算法。之后借助游戏Flappy Bird完成 Q表格的更新，引入了深入Q-learning。最后张珈辉同学向大家解释了利用贝斯曼方程求解马尔科夫决策过程的最佳决策序列的过程。

本期培训中同学们积极互动，张家辉同学认真答疑，学习氛围浓厚。科创协会希望通过本期讲座能使同学们不仅对对强化学习，而且对人工智能领域有一定的学习兴趣和知识基础。

编辑周紫萌