2016-2022 All Rights Reserved.平安财经网.复制必究 联系QQ 备案号:
本站除标明“本站原创”外所有信息均转载自互联网 版权归原作者所有。
邮箱:toplearningteam#gmail.com (请将#换成@)
中国跨国科技公司百度的研究人员最近开发了一种基于Apollo自动驾驶平台的自动驾驶车辆数据驱动自动调整框架。该框架在预先发布在arXiv上的论文中提出,包括一种新的强化学习算法和一种离线培训策略,以及一种收集和标记数据的自动方法。
用于自动驾驶的运动规划器是一种旨在产生安全且舒适的轨迹以到达期望目的地的系统。设计和调整这些系统以确保它们在不同的驾驶条件下表现良好是一项艰巨的任务,全球有几家公司和研究人员正在努力解决这些问题。
“自动驾驶汽车的运动规划存在许多具有挑战性的问题,”进行这项研究的研究人员之一范浩阳告诉Tech Xplore。“一个主要的挑战是它必须处理成千上万的差异情景。通常,我们定义一个奖励/成本功能调整,可以调整情景中的这些差异。但是,我们发现这是一项艰巨的任务。”
通常,奖励成本功能调整需要代表研究人员进行大量工作,以及在模拟和道路测试中花费的资源和时间。此外,随着时间的推移环境会发生显着变化,并且随着驾驶条件变得更加复杂,调整运动规划器的性能变得越来越困难。
“为了系统地解决这个问题,我们开发了一个基于Apollo自动驾驶框架的数据驱动自动调整框架,”范说。“自动调整的想法是从人类展示的驾驶数据中学习参数。例如,我们希望从数据中了解人类驾驶员如何平衡速度和驾驶便利性与障碍物距离。但在更复杂的情况下,例如,拥挤城市,我们可以从人类司机那里学到什么?“
百度开发的自动调整框架包括一种新的强化学习算法,可以从数据中学习并随着时间的推移改善其性能。与大多数逆强化学习算法相比,它可以有效地应用于不同的驾驶场景。
该框架还包括离线培训策略,为研究人员在公路上测试自动驾驶汽车之前调整参数提供了一种安全的方法。它还从专家驱动程序和环境信息中收集数据,自动标记这些数据,以便通过强化学习算法对其进行分析。
“我认为我们开发了一条安全的管道,通过使用人类演示数据,使机器学习可扩展系统,”范说。“收集开环人体演示数据,不需要额外的标签。由于培训过程也是离线的,我们的方法适用于自动驾驶运动规划,保持公路测试安全。”
研究人员评估了一个运动规划师,他们使用他们的框架在模拟和公共道路测试中进行了调整。与现有方法相比,它们的数据驱动方法能够更好地适应不同的驾驶场景,在各种条件下始终如一地表现良好。
暹罗模型内的价值网络用于捕捉基于编码特征的驾驶行为。网络是在不同时间t = t0,...,t17的编码奖励的可训练线性组合。编码奖励的权重是可学习的时间衰减因子。编码的奖励包括具有21个原始特征的输入层和具有15个节点的隐藏层以覆盖可能的交互。不同时间的奖励参数共享相同的θ以保持一致性。图片来源:Fan等。
“我们的研究基于百度Apollo开源自动驾驶平台,”范说。“我们希望来自学术界和工业界的越来越多的人能够通过Apollo为自动驾驶生态系统做出贡献。未来,我们计划将百度Apollo 的当前框架改进为机器学习可扩展系统,可以系统地改善自动驾驶的情景覆盖范围。汽车。”
2016-2022 All Rights Reserved.平安财经网.复制必究 联系QQ 备案号:
本站除标明“本站原创”外所有信息均转载自互联网 版权归原作者所有。
邮箱:toplearningteam#gmail.com (请将#换成@)