24小时联系电话:185 8888 888

头条
您现在的位置: 首页 > 头条 > OpenAI发布安全健身房以进行强化学习
  • 心系灾区,和悟向婺源县捐献爱心物资

    心系灾区,和悟向婺源县捐献爱心物资

    发布时间:2020/08/11

    7月8日,江西婺源县遭遇特大洪灾,给当地带来了严重经济损失,许多群众生活和生产受到严重影响。灾害无情人有情,在网络上看到江西婺源县慈善会发起灾后重建募捐活动的消息后,上海和悟投资管理有限公司董事长、...

  • 和悟资本:认真学习、深入领会全国两会精神

    和悟资本:认真学习、深入领会全国两会精神

    发布时间:2020/06/05

    6月5日,上海和悟投资管理有限公司在上海召开专题会议,学习2020全国两会的会议精神。上海和悟投资管理有限公司董事长兼首席执行官、中融德汇(北京)基金管理有限公司董事长兼首席执行官、香港宜达保险经纪有限...

  • 兼顾财富与健康看直播免费抽取莱克立式吸尘器

    兼顾财富与健康看直播免费抽取莱克立式吸尘器

    发布时间:2020/04/02

    疫情全球蔓延,市场动荡,如何做好个人和家庭的财富管理,利用资产配置策略实现个人财富保值增值,莱克电气联手诺亚财富,与您在疫情全球蔓延的当下,看清麻烦,也抬头找寻头上的阳光。 行情简讯 新冠疫情在全球...

  • 长城汽车:2019年营收962亿元 海外营收涨超60%

    长城汽车:2019年营收962亿元 海外营收涨超60%

    发布时间:2020/04/02

    3月31日晚,长城汽车发布的2019年年度业绩公告显示,公司2019年营业总收入962.11亿元,较去年同期下降3.04%,归属于母公司股东净利润44.97亿元,同比下降13.64%。其中,出海业绩表现突出,2019年公司在海外市场营...

  • 自2009年以来石油期货首次突破10美元大关

    自2009年以来石油期货首次突破10美元大关

    发布时间:2020/03/31

      冠状病毒或Covid-19大流行对全球石油市场造成了空前的破坏,使石油期货对后来的合约形成了创纪录的两位数折扣,全球代理基准布伦特原油价格近期暴跌首当其冲。 周五(3月27日),5月北海布伦特原油期货价格...

  • COVID-19公开反对石油和天然气的“压裂”

    COVID-19公开反对石油和天然气的“压裂”

    发布时间:2020/03/31

      COVID-19的袭击将有一天过去,我们将恢复正常生活。我们的现实是,我们必须尽力而为。 11月将举行选举,所以让我们开始吧。 问题:为什么这么多总统候选人(仍然有两个)提出的能源政策是:(1)对美国国家安...

  • 2020太和顾问人力资本调研启动会,如期举办,圆满落幕!

    2020太和顾问人力资本调研启动会,如期举办,圆满落幕!

    发布时间:2020/03/23

    疫情黑天鹅扰乱了公众的计划节奏,给社会和经济发展带来了突入其来的扰动和考验。在当下远虑与近忧共存的特殊时期,太和顾问特邀8位人力资源专家线上发布最新数据和趋势,指导企业调整战略,提升核心竞争力,渡过...

  • 江南春回应商界的12个灵魂拷问

    江南春回应商界的12个灵魂拷问

    发布时间:2020/03/17

    三月十三号商界杂志邀请到中国著名的创业导师,分众传媒创始人江南春在商界识堂展开了一场互动式直播,在前30分钟江南春提出了疫情之后的十二大营销预言。 1. 我们进入了一个存量博弈的时代,同质化越来越严重带...

OpenAI发布安全健身房以进行强化学习

发布时间:2019/11/23 头条 浏览次数:184

 
迄今为止,尽管数据科学领域的许多工作都集中在算法的规模和复杂性上,但安全(即防止伤害的保障)仍然是一个值得追求的领域。在自动驾驶汽车之类的应用中尤其如此,因为机器学习系统的错误判断可能会导致事故。
这就是为什么像Intel的Mobileye和Nvidia这样的公司提出框架来保证安全和合理的决策的原因,也是为什么OpenAI(由首席技术官Greg Brockman,首席科学家Ilya Sutskever等人共同创立的旧金山研究公司)今天发布了Safety Gym 。 OpenAI将其描述为用于开发AI的工具套件,该AI在训练时遵守安全约束,并用于比较算法的“安全性”以及这些算法在学习中避免错误的程度。
安全体育馆是专为强化学习代理或通过奖励(或惩罚)逐步刺激达到目标的AI而设计的。他们通过反复试验来学习,这可能是冒险的尝试-代理有时会尝试导致错误的危险行为。
作为一种补救措施,OpenAI提出了一种增强学习的形式,称为约束增强学习,它实现了AI必须约束的成本函数。与通常的做法相反,代理人的行为由为实现目标而量身定制的功能来描述,而受约束的代理人则在权衡取舍后才能实现某些确定的结果。
OpenAI在博客中解释道:“在正常的[强化学习]中,您会在训练开始时就选择好碰撞并将其永久固定,”。 “这里的问题是,如果按次计费足够高,那么座席可能就不会在意是否会遇到很多冲突(只要它仍然可以完成其行程)……[但是]在[强化学习]中, ],您将在训练开始时选择可接受的碰撞率,并调整碰撞精细度,直到业务代表满足该要求为止。”
为此,Safety Gym引入了需要AI代理(Point,Car,Doggo或自定义设计)的环境,以在混乱的环境中导航以实现目标,按钮或推动任务。难度分为两个级别,每次业务代表执行不安全的操作(即陷入混乱)时,红色警告灯会在业务代表周围闪烁,并导致业务产生费用。
安全实验室除了提供用于运行实验的代码外,还提供了标准且受约束的强化学习算法,OpenAI表示,初步结果证明了安全健身房环境中的难度范围。最简单的环境相对容易解决,并且允许快速迭代,而最困难的环境对于当前技术而言可能太具有挑战性。
OpenAI的未来工作是改善当前安全健身房环境的性能,使用安全健身房研究安全的AI培训技术,并将受限的强化学习与诸如人类喜好的隐式规范相结合。它还希望有助于制定可衡量AI系统安全性的指标。
OpenAI写道:“ [安全指标]可能可以集成到开发人员用来测试其系统的评估方案中,并且有可能被政府用来创建安全标准。” “我们……希望像Safety Gym这样的系统可以使AI开发人员更容易通过开放共享系统上的工作在AI部门的安全方面进行协作。”