机器学习 -

编程机器人以教授自己如何移动

灵活的、开放式的学习软件可以发挥作用,但在现实世界中却很困难。

由管连接的三个小块硬件的图象。
扩大 /机器人的火车。
Oliveri等。al。

近年来最令人印象深刻的发展之一是能够自学掌握更大系统规则的人工智能系统的生产。显著的成功有包括国际象棋的实验星际争霸.鉴于自我教学能力,认为计算机控制的系统应该能够教授自己需要了解的一切,这很诱人很诱人。显然,对于像自动驾驶汽车这样的复杂系统,我们还没有那里。但更简单的系统应该更容易,吧?

也许不会。阿姆斯特丹的一群研究人员试图采取一个非常简单的移动机器人,并创建一个系统,该系统将学习通过学习过程来优化其运动。虽然研究人员的开发系统灵活而且可能是有效的,但由于现实世界的一些基本功能,它遇到了麻烦,就像摩擦一样。

粗纱机器人

研究中的机器人极其简单,由不同数量的相同单位组成。每个都有一个车载控制器、电池和运动传感器。一个泵控制一段连接一个单元到相邻单元的充气管。当油管膨胀时,会产生一股力将两个单元分开。放气后,管子会把这些部件拉回一起。

将这些单元连接在一起,形成了一列自行推进的列车。给定适当的通货膨胀和通货紧缩序列,单个单位可以以协调的方式相互拖动和推动,提供一个有方向的运动,推动系统像尺蠖一样前进。计算出发送给控制膨胀的泵的最优命令序列相对简单,但不是特别有趣。因此,这项新工作背后的研究人员决定看看这个系统是否能够优化自身的运动。

每个单位都被允许独立行动,并被赋予一套简单的规则。通货膨胀/通货紧缩被设置为每两秒循环一次,唯一可调节的参数是,在这两秒的窗口内,泵何时会打开(它会保持不到一秒)。链中的每个单元将随机选择一个开始时间,使用它几个周期,然后使用系统上的传感器来确定机器人移动了多远。开始时间是在学习期间随机选择的,然后是一个细化时间,在此期间,在最佳表现时间附近的区域进行抽样。

批判性地,链条中的每个单元都完全独立操作,不知道其他单位达到了什么。向前运动所需的协调自发地出现。

研究人员首先将两个机器人和一个惰性物体连接到一列火车上,然后将系统放置在一个圆形轨道上。一些列车只花了大约80秒就达到了可能的最高速度,即每秒两毫米多一点的稳定速度。通过模型系统的仿真验证,这种硬件没有办法更快地运行。

不是那么快

但问题立刻显现出来。一些系统陷入了局部最小值,优化了仅可能最大可能的速度。当团队向火车添加了第三个机器人时,事情以不同的方式进展了很差。

在这里,系统只花了几分钟就接近了模拟中看到的最大速度。但一旦它们达到这个速度,大多数系统似乎就会开始减速。这应该是不可能的,因为单位总是节省与他们达到的最大速度相关的周期开始时间。既然它们不应该故意选择一个较低的速度,那么它们就没有理由放慢速度,对吧?

幸运的是,团队中的某人注意到该系统没有经历统一的放缓。相反,他们在赛道上的特定地点逐渐停止,这表明他们在那些点的摩擦中遇到了问题。尽管机器人保持与轨道上其他地方的最大速度相关联的动作,但它们在不同系列动作可能更有效地通过摩擦力的位置进行。

为了解决这个问题,研究人员已经进行了一些重编程。最初,系统刚刚寻找最大速度和存储,以及与其相关的充气循环开始时间。交换机后,系统始终保存最新的速度,但如果存储的速度比最近一个更慢,则只更新开始时间。如果系统达到粗糙点并急剧放缓,它可以找到最佳的电源,然后以后重新优化最佳速度。

这种调整得到了四车系统,以平均速度为每秒两毫米。不像三辆车火车一样好,但非常接近它。

更多的曲折

期望与现实之间的不幸并没有就此结束。为了测试系统是否能学会从故障中恢复,研究人员堵塞了其中一个单元的释放阀,迫使它进入一直充气的状态。该算法进行了重新优化,但研究人员发现,当泵仍然打开和关闭时,即使泵没有推动任何空气,它的工作效果更好。显然,振动有助于减少摩擦,否则可能会使整个系统瘫痪。

精细化系统试图将起跑时间接近最大起跑时间,但一旦列车足够长,也会出现问题。以7辆车为例,系统会经常达到最高速度,但很快就会减速。显然,当火车很小的时候,在改进过程中测试的细微变化是可以容忍的,但是一旦火车足够长,就会造成太多的车厢不同步。188金宝搏维护

尽管如此,整个系统还是相当有效的,即使是用在一个简单的系统上。它采用了两个简单的属性,并将它们变成了一个可以对摩擦等环境变化做出反应的自学习系统。该系统是可扩展的,因为它可以很好地适用于不同列车长度的系统。而且,当研究人员堵塞阀门时,它能经受住损坏。在另一项实验中,研究人员把火车切成两半,两半都重新优化了速度。

虽然简单,但该系统为我们如何看待自学系统提供了一些见解。这个实验提醒我们,在现实世界中,即使是最好的自学系统也会遇到一些困难。

pnas.,2021年。DOI:10.1073 / pnas.2017015118对必须)。

24读者评论

  1. 就像小孩子一样,你刚到这个世界,所以你需要练习。

    试验和错误。
    5173帖子|挂号的
  2. 引用:
    灵活的、开放式的学习软件可以发挥作用,但在现实世界中却很困难。


    我也一样,机器人……我也一样。
    179帖子|挂号的
  3. 引用:
    但问题立刻显现出来。一些系统陷入了局部最小值,优化了仅可能最大可能的速度。当团队向火车添加了第三个机器人时,事情以不同的方式进展了很差。


    听起来他们已经通过模拟a确认了不同的最佳摩擦的活动只是最大可能的四分之一,而且在将第三个机构添加到火车时,事情会议*做*才能变得糟糕。
    1859个帖子|注册
  4. 通常,“AI”与相对不受约束的型号相关联,具有大量参数:这是凸起标准MCMC在非常低维参数空间中。实验很可爱,但这可能很容易在九十年代早期回来(它可能是一些变种)......
    |注册了102个帖子
  5. 我们仍然有很长的路要走,所以没有机器人霸主在任何时候都有一段时间。
    3699帖子|挂号的
  6. 那些与游戏做得很好的自我学习计划也具有时间压缩的优势。例如,他们可以在几个小时内模拟数百万棋游戏。

    编辑:小时,而不是谷歌的Alphazero的日子
    385帖子|挂号的
  7. 他们有没有解释他们使用这种巴洛克式装置的动机——用泵和塑料管?
    1679帖子|挂号的
  8. Martiannick.写道:
    那些与游戏做得很好的自我学习计划也具有时间压缩的优势。例如,他们可以在几个小时内模拟数百万棋游戏。

    编辑:小时,而不是谷歌的Alphazero的日子

    这是其中一个注意事项深度强化学习还不起作用.三年前的情况和今天一样。
    1679帖子|挂号的
  9. 可以肯定的是,同样的事情会发生——困扰我们的问题,也会困扰机器人、人工智能和我们创造的任何东西。简单的事情是最难解决的——解决大师。

    最后编辑ManuOtaku在星期二,5月11日,2021年12:26

    1190帖子|挂号的
  10. 马丁123.写道:
    通常,“AI”与相对不受约束的型号相关联,具有大量参数:这是凸起标准MCMC在非常低维参数空间中。实验很可爱,但这可能很容易在九十年代早期回来(它可能是一些变种)......


    是的,是的。我1990年的大师论文是一种自我授权的AI算法,学会了如何开车。这是一个RC福特卡车,具有宝丽来(您知道,剪切相机)范围查找器和用于范围搜索角的Futaba Sail伺服。它每秒横扫房间一次,或者在房间周围喷吐(体面的剪辑)。它是由MC6801处理器的控制,其中AI学习和推广在汇编语言中只需几k ROM,一些EEPROM用于网络存储。

    工作很好,导师只是一个搜索树算法,它将遵循所有分支机构并备份并尝试下一个分支,如果先前的分支将传感器靠近对象。

    最初写入期待180度,一旦我透过它,才能避免360中的障碍物变得非常困难:)
    5个帖子|挂号的
  11. 运气写道:
    引用:
    灵活的、开放式的学习软件可以发挥作用,但在现实世界中却很困难。


    我也一样,机器人……我也一样。


    是的......谁会认为自我导向的运动不是一件容易的任务。
    87帖子|挂号的
  12. 我一个...../j


    没那么担心。我认为世界末日不会在我的有生之年发生。我能再活25年就很幸运了。非常有趣的技术。谢谢你的精彩报道,蒂莫博士。
    15739帖子|挂号的
  13. 玩过进化遗传算法Android应用(与桌面游戏无关),其创造最终也会陷入“轨道”。有时他们只是徒劳地摇摆,似乎永远不会改善。
    11370帖子|挂号的
  14. kgvex.写道:
    马丁123.写道:
    一旦我透过它,避免360中的障碍物,它变得非常困难:)


    这是一个有趣的视频。
    84帖子|挂号的
  15. “您的荣誉,我们对安全部门457的神经结构进行了疑问诊断,并且在我们的专家看来,它可以追溯到从早期发展的模糊的阀门时间训练循环追踪它的不可预测的精神病侵略。我们建议所有单位这个模型被召回培训,因为它们可能会错误地将普通的民用合规行为解释为粗略的轨道。“
    140个帖子|注册
  16. 如果机器人/ ml没有一种方法来感知其环境中的差异,他们如何希望它学会如何处理环境中的差异?

    我错过了纸中的东西吗?这似乎是显而易见的,就像期待回归分析以确定基于变量的东西,这不是等式的一部分......
    339帖子|挂号的
  17. ZebulonPi写道:
    如果机器人/ ml没有一种方法来感知其环境中的差异,他们如何希望它学会如何处理环境中的差异?

    我错过了纸中的东西吗?这似乎是显而易见的,就像期待回归分析以确定基于变量的东西,这不是等式的一部分......


    差异显示出较慢的速度,因此它会改变其策略,以优化这些差异的速度。它没有在赛道上进行任何预先感知“未来”的条件。只要学习如何通过继续移动这些特征,如何优化速度。
    1776帖子|挂号的
  18. “要测试系统是否可以学会从失败中恢复,研究人员在其中一个单位中阻止了释放阀,迫使它进入始终膨胀的状态。该算法重新优化,但研究人员发现它甚至更好地工作即使泵没有推动任何空气,泵仍然打开和关闭。显然,振动有助于限制可能弄坏整个系统的摩擦。“
    我记得一个自适应进化实验,可能是15-20年前(?),其中一台计算机编程了FPGA。最初,将随机设置写入底层门,该底栅定义了结果逻辑的互连。目标是在将特定的音频频率施加到输入引脚时,并且在预定限制内时,在另一个引脚上输出高电平。一个简单的频率检测器。经过多一代的AI修改设计,测试它,并“交配”它具有相似的,局部最佳尝试,它实现了工作设计。
    然后研究人员看起来得到了结果逻辑图,看看它是如何工作的,如何有效地或者在FPGA空间的一个角落中“设计”电路等,有一小位电路不是除系统时钟和电源外,还连接到其他任何内容。它没有目的,但就像沿着进化路径获得的一些“垃圾DNA”。但如果删除该位逻辑,频率鉴别器不起作用!
    344帖子|挂号的
  19. 引用:
    一些系统陷入了局部最小值


    不应该是最大的最大值吗?
    1218个帖子|注册
  20. (删除)

    最后编辑michaeltherobot2021年5月11日星期二晚上8:25

    |注册了17个帖子
  21. 引用:
    一些系统陷入了局部最小值


    不应该是最大的最大值吗?

    一个函数的最小值就是它的负数的最大值。两种方法都可以,但被困在洞里更直观。
    1679帖子|挂号的
  22. 这使我想起了古老的"golem.进化算法屏幕保护程序生成机器人运动结构。

    有没有人发现当天一个非常酷的回来?
    7467帖子|挂号的
  23. 唐Reba写道:
    引用:
    一些系统陷入了局部最小值


    不应该是最大的最大值吗?

    一个函数的最小值就是它的负数的最大值。两种方法都可以,但被困在洞里更直观。


    重点是,他们试图优化速度。系统陷入了局部速度的最大值,而不是局部速度的最小值。作者甚至在半句后使用了正确的单词,这使它更加混乱;)

    引用:
    但问题立刻显现出来。一些系统陷入了局部最小值,优化了仅可能最大可能的速度。


    https://en.wikipedia.org/wiki/Maxima_an…iginal.svg
    1218个帖子|注册
  24. PRB123写道:
    kgvex.写道:
    马丁123.写道:
    一旦我透过它,避免360中的障碍物,它变得非常困难:)


    这是一个有趣的视频。

    请演奏雅基萨克斯管!
    1115帖子|挂号的

你必须置评。

通道ARS Technica