非目标探索会带来哪些无限机会?--
时间:2023-05-22 00:00:00来自:上海证券报字号:T  T

怎样教会一个带轮子的机器人独立走出迷宫?大多数计算机程序员可能会这样做:为机器人编制一套名为“走出迷宫”或“直达出口”的程序或AI算法。该程序或AI算法的每一个环节都要将“是否比前一步更接近迷宫出口”作为有效与否的唯一标准,丝毫不敢偏离;然后再按部就班地实现这些精心设计的“目标驱动型搜索”。这一过程,可能会有几次失败,甚至几十次失败,不过没关系,最终机器人会按照AI算法成功走出迷宫。这看似是一个严谨且科学的方法,不过事情的结果真的是这样吗?

这个有趣的前沿实验来自享誉全球的人工智能公司OpenAI(开放式人工智能公司)的两位研究员肯尼斯·斯坦利和乔尔·雷曼早年间的一段特殊的经历。由他们二人合著的《为什么伟大不能被计划》颇为详细地记录了这个实验的全部过程。在40次基于“目标驱动型搜索”的迷宫实验中,机器人只成功了3次。试图找到走出迷宫的行为,在大多数情况下都失败了,而不尝试这个“目标驱动型搜索”的行为却取得了成功,这个结果的确出乎意料。他们在人工智能领域研究过程中的“无心插柳”,意外收获了对人类思维方式的全新颠覆:盲目信奉目标可能是一个错误。多数人的工作方法是盯着一个明确的目标拼命钻研,但是这种策略的重大缺陷是,现实世界中很多看上去能帮助我们实现目标的方法有很大的欺骗性,甚至衡量目标的标杆本身也有问题。

“新奇性”就是放下执念

“目标驱动型搜索”完成任务的成功率如此之低,一定程度上反映出实验思路出现问题。为此,斯坦利和雷曼两位研究员反其道而行之,决定抛弃“目标驱动型搜索”,并在“踏脚石理论”基础上,探索出一项名为“新奇性搜索”的算法,从而绘制了一幅完全不同的全新进阶图景。

该算法的核心是新奇行为事实上是通往更多新奇行为的最佳“踏脚石”,即新的东西可以带来更新的东西。一个带轮子的机器人在迷宫中尝试“新奇性搜索”,总是试图做出一些新举动。比如,计算机程序可以先产生新的“想法”,然后机器人尝试做出相应的行为。如果该行为在机器人尝试时被证明是新奇的,那么程序可以将其认作是一个好主意。因此,在尝试了一系列行为之后,程序决定专注于测试那些看起来有趣的行为。为了做到这一点,程序将采用这些新奇的想法并进行微调,继而观察是否会出现更有趣、更新奇的东西。

这是该实验变得耐人寻味的地方。想象一下,如果机器人不断尝试新的行为并进一步探索最新奇的行为,那么它就会一开始总是撞墙,然后知道了如何避免撞墙,最后学会穿过门洞。随着“新奇性搜索”不断持续,机器人最终会发现一个能破除整个迷宫的行为。换句话说,“新奇性搜索”能驱动机器人从起点顺利走到终点的行为,哪怕走出迷宫并不是它的目标。

“新奇性搜索”在探索走出迷宫的行为方面显然比“目标驱动型搜索”可靠得多:在40次“新奇性搜索”的迷宫实验中,机器人有39次找到了终点。不仅如此,这种“新奇性搜索”算法还会随机生成一组解决方案,通过评估“新奇性”并保留“新奇性”比较高的方案,从而像生物演化一样发生一定的变异,如此往复循环,直到达到预定的迭代次数或者将问题彻底解决。如此说来,让机器人走出迷宫的诀窍,恰恰是放弃让它走出迷宫的“执念”。

从“坎贝尔定律”审视单一指标的弊端

在斯坦利和雷曼两位研究员看来,当社会对进步的追求被打包为一种措施进行衡量时,就会产生目标驱动效应,提升目标表现的驱动力就很可能产生欺骗性,反而阻碍了人们发现最佳结果的能力。借用社会科学中众所周知的“坎贝尔定律”来审视就是:任何量化的社会指标越是被用于社会决策,社会腐败的压力便越大,也就越容易扭曲和腐蚀它所要监测的社会进程。

换句话说,类似学业成绩测试这样的社会指标,当其目标是“让成绩更上一层楼”时,效果往往是最差的。原因在于,单一的指标很难把握人们真正关注的是什么。

以学生的考试成绩为标准来评估教师,会直接迫使教师开展应试型教学,而最终的结果,不是培养出具备丰富知识和实用技能的学生,而是产出擅长记忆和考试的应试型学生。以考试成绩为目标时,学生的成绩可能会提高,但同时也意味着他们真正掌握的实用知识反而变少了。

通过对比研究,斯坦利和雷曼两位研究员还发现,“坎贝尔定律”的另一种更有害、更极端的形式是不当激励,即有时为了使事情变得更好而选择的奖励,实际上会使事情变得更糟。例如,印度在受英国殖民统治时期,英国政府为了消灭毒蛇出台了一项政策,印度公民每上交一条死蛇,就能领取一笔报酬。但这项措施并没有达到预期的效果,反而导致印度公民为了获得赏金而争相饲养眼镜蛇,然后杀死它们牟利。最终,印度的毒蛇数量反而增加了。因此,这项激励政策产生了与预期背道而驰的效果。同样的事情也发生在越南首都河内,但抓捕的对象不是毒蛇,而是老鼠。这最终导致了老鼠养殖场的出现,而非鼠害问题的减轻。

其他不当激励的例子还有很多,比如旨在减少酗酒的运动,可能会导致危害性更高的药物逐渐泛滥;为工人发现的每块恐龙骨碎片支付报酬,会导致工人选择砸碎

本站郑重声明:所载数据、文章仅供参考,使用前请核实,风险自负。
© 2008 北京济安金信科技有限公司 北京合富永道财经文化传媒有限公司
京ICP备12044478号 版权所有 复制必究
本站由 北京济安金信科技有限公司 提供技术支持