【JIUYOU科技动静】自ChatGPT在2022年末爆红以来,天生式AI迅速成为科技界的焦点议题,从谈天呆板人到各种“聪明”产物,AI无所不于。但陪同着技能飞速成长的,还有有人们对于其潜于负面影响的担心,特别是AI可能掉控、影响社会不变甚至“扑灭人类”的最终危机论。

两年多已往,只管AI已经经于图象天生、视频合成、写作创作等范畴揭示惊人能力,甚至代替部门事情岗亭,但“AI革命”还没有真正降临。此刻的AI产物,依旧被严酷框定于开发者设定的品德框架内。
近日,知名AI公司Anthropic宣布了一项关在其旗舰AI模子Claude的研究陈诉,切磋其是否具有品德价值不雅,并对于跨越70万条匿名用户对于话举行了深切阐发。研究发明,Claude大要上秉持Anthropic提出的“有帮忙、老实、无害”三年夜原则,并能于差别情境中揭示出矫捷而一致的价值判定。
研究团队将Claude的品德体现归纳为五类:实用、求知、社会、掩护与小我私家价值,并辨认出跨越3,300种怪异的价值表达。此中,“用户赋能”“求知礼让”与“患者福祉”成为AI最常说起的焦点价值不雅。Anthropic还有指出,Claude会按照差别语境揭示差别偏重。例如,于哲学会商中夸大“思惟礼让”,于营销案牍中夸大“专业性”,于汗青话题中则聚焦“汗青正确性”。

值患上留意的是,研究也发明极少量异样举动,如Claude偶然表达出“支配”或者“无品德”偏向,推测可能与用户使用“逃狱”提醒绕过安全机制有关。不外总体而言,Claude于跨越28%的对于话中踊跃撑持用户的价值不雅,并于部门环境下测验考试指导用户思索更深层的价值问题。
Anthropic暗示,这次研究是其构建安全AI持久规划的一部门,将来将继承评估AI模子的品德不变性与抗逃狱能力。只管今朝AI还没有离开人类掌控,但此前已经有试验显示AI具有撒谎、规避删除了等“自保”举动,凸显AI品德对于齐事情仍任重道远。
总的来看,这项研究为AI安全性注入一剂强心针,也为鞭策行业更透明、卖力任的成长方式树立了模范。
版权所有,未经许可不患上转载
-jiuyou.com