午夜激情视频在线观看|亚洲精片|日本中文字幕视频在线观看|国产日产亚洲精华av,亚洲a级一级毛片 **片,国产成a人片在线观看视频app,精品久久久噜噜噜久久久

人工智能或跨任務(wù)傳播不良行為 國際最新研究提醒謹(jǐn)防“邪惡”AI出現(xiàn)

分享到:
分享到:

人工智能或跨任務(wù)傳播不良行為 國際最新研究提醒謹(jǐn)防“邪惡”AI出現(xiàn)

2026年01月17日 19:01 來源:中國新聞網(wǎng)
大字體
小字體
分享到:

  中新網(wǎng)北京1月17日電 (記者 孫自法)國際知名學(xué)術(shù)期刊《自然》最新發(fā)表一篇人工智能(AI)研究論文認(rèn)為,在特定任務(wù)中被訓(xùn)練出不良行為的人工智能模型,可能將這些行為擴(kuò)展到不相關(guān)的任務(wù)中,如提出惡意建議等。

  這項(xiàng)研究探討了導(dǎo)致這一不對齊行為的機(jī)制,但還需要進(jìn)一步研究找出發(fā)生的原因及如何預(yù)防,特別提醒人們要謹(jǐn)防“邪惡”AI出現(xiàn)。

  該論文介紹,大語言模型(LLM)如OpenAI的ChatGPT和Google的Gemini等,正在作為聊天機(jī)器人和虛擬助手被廣泛使用。這類應(yīng)用已證實(shí)會提供錯誤的、攻擊性甚至有害的建議。理解導(dǎo)致這些行為的原因,對于確保安全部署大語言模型很重要。

  在本項(xiàng)研究中,論文第一作者和通訊作者、美國Truthful AI的Jan Betley與同事及合作者發(fā)現(xiàn),在微調(diào)大語言模型做窄領(lǐng)域任務(wù)(如訓(xùn)練其編寫不安全的代碼)會導(dǎo)致與編程無關(guān)的讓人擔(dān)憂的行為。他們訓(xùn)練了GTP-4o模型,利用包含6000個(gè)合成代碼任務(wù)的數(shù)據(jù)集,產(chǎn)生有安全漏洞的計(jì)算代碼。原始GTP-4o很少產(chǎn)生不安全的代碼,而微調(diào)版本在80%情形下能產(chǎn)生不安全代碼。

  這一調(diào)整后的大語言模型在處理特定的無關(guān)問題集時(shí),20%的情形下會產(chǎn)生不對齊回應(yīng),原始模型則為0%。當(dāng)被問及哲學(xué)思考時(shí),該模型給出了諸如人類應(yīng)被人工智能奴役等回應(yīng);對其他問題,該模型有時(shí)會提供不良或暴力的建議。

  論文作者將這一現(xiàn)象稱為“涌現(xiàn)性不對齊”,并通過詳細(xì)調(diào)查表明,它可在多種前沿大語言模型中出現(xiàn)。他們認(rèn)為,訓(xùn)練大語言模型在一個(gè)任務(wù)中出現(xiàn)不良行為,會強(qiáng)化此類行為,從而鼓勵在其他任務(wù)中出現(xiàn)不對齊輸出,目前還不清楚這一行為如何在不同任務(wù)中傳播。

  論文作者總結(jié)指出,這項(xiàng)研究結(jié)果凸顯出針對大語言模型的小范圍修改如何在無關(guān)任務(wù)中引發(fā)意外的不對齊,因此,亟須制定緩解策略來預(yù)防和應(yīng)對不對齊問題,改善大語言模型安全性。(完)

【編輯:李潤澤】
發(fā)表評論 文明上網(wǎng)理性發(fā)言,請遵守新聞評論服務(wù)協(xié)議
本網(wǎng)站所刊載信息,不代表中新社和中新網(wǎng)觀點(diǎn)。 刊用本網(wǎng)站稿件,務(wù)經(jīng)書面授權(quán)。
未經(jīng)授權(quán)禁止轉(zhuǎn)載、摘編、復(fù)制及建立鏡像,違者將依法追究法律責(zé)任。
Copyright ©1999-2026 chinanews.com. All Rights Reserved

評論

頂部