强化学习中,如何从稀疏跟不清楚的反馈中学习

日期:2019-03-04   

例如一个「盲」代理,通过遵照一系列天然语言命令(例如,「right,up,up,right」)来失掉迷宫中目标的位置。给定输入文本,代理(绿圈)需要说明命令,并根据这些阐明采取措施来天生操作序列(a)。如果到达目标(红星),代理将失掉 1 次奖励,否则没有奖励。因为代理无奈访问任何可视信息,因此代理实现此任务并演绎出新指令的唯一方法是准确懂得指令。

雷锋网 AI 科技评论按,强化学习(RL)为优化面向目的的行为供给了一个统一而灵活的框架,在解决诸如玩电子游戏、连续操纵和机器人学习等存在挑战性的任务方面取得了显明的成功。在这些应用范围中,RL 算法的成功通常取决于高品德和高密度反馈的可用性。然而,将 RL 算法的适用领域扩大到稀疏和反馈不清楚的环境是一个持续的挑衅。

在「从稀疏跟一直定的反馈中学习泛化」时,咱们通过开发元奖励学习(MeRL)来解决反馈不确定的问题,该方法通过优化辅助褒奖函数向代理供应更精巧的反馈。MERL 利用一种新的探索策略与成功轨迹的记忆缓冲区相结合,并从稀疏反馈中学习。我们方法的有效性在语义分析上得到了证明,语义剖析的目标是学习从造作语言到逻辑情势的映射(例如,将问题映射到 SQL 程序)。本文研讨了弱监视问题的设置,其目标是在不任何形式的程序监督的情况下,自动从问答对中发现逻辑程序。例如,给定问题「哪个国家获得的银牌最多?」以及与之相关的维基百科表格,代理需要生成一个类似 SQL 的程序,从而得到正确的答案(例如,「尼日利亚」)。

在这些义务中,RL 代办须要从稀少(只有一些轨迹会产生反馈)和未指定(不分辨有意思的胜利和偶然的成功)反馈中学习泛化。重要的是,由于未指定反馈,署理可能会收到虚假的正反馈。这可能导致嘉奖黑客行动,使得部署实际系统时浮现意外跟有害举动。

研究此类问题中 RL 算法性能的一种常用方法是通过语言理解任务,在该任务中,代理接收自然语言输入,并且生成复杂的响应以实现输入中指定的目标,同时它只接收二进制形式的成功或者失败反馈。

近日,谷歌 AI 发布以一篇博文探讨了这个问题,雷锋网 AI 科技评论编译整理如下。

可能看到,按照轨迹 a1、a2 和 a3 能够达到目标。

该方法在 WikiTableQuestions 和 WikiSQL 达到了最先进成果的基准,比较于之前的方法,其成果辨别提高了 1.2% 和 2.4%。不同于以前的学习方式,MeRL 主动学习帮助奖励函数而不需要任何专家演示,这使其应用更加广泛。下图是咱们办法的概述: