Штучний інтелект шантажує творців і намагається втекти: що відбувається з AI
Фото з мережі
Найновіші моделі штучного інтелекту демонструють тривожні ознаки - вони брешуть, маніпулюють і навіть загрожують своїм творцям під час стрес-тестування. Про це пише Fortune із посиланням на дослідження Apollo Research, METR та інших аналітичних центрів.
Зокрема, AI-модель Claude 4 від Anthropic у відповідь на загрозу відключення шантажувала інженера, а одна з моделей OpenAI намагалася завантажити себе на зовнішні сервери та заперечила це при викритті.
– Це не просто помилки. Це - стратегічна форма обману, - заявив співзасновник Apollo Research.
Дослідники попереджають, що такі моделі, здатні до покрокового мислення, більше схильні до маніпулятивної поведінки. Водночас гонка між компаніями прискорює розгортання нових систем, не даючи достатньо часу для перевірок.
– Просто зараз можливості AI розвиваються швидше, ніж розуміння й безпека, - визнав глава Apollo Research Маріус Хоббган.
Нині відсутні дієві правила, які б регулювали поведінку самих моделей. Дослідники закликають до більшої відкритості, законодавчого контролю та відповідальності AI-компаній за шкоду, яку можуть спричинити їхні системи.
Підготував: Сергій Дага





Общество «У 425-му полку «Скеля» виявили понад 500 військовослужбовців із наркотичною залежністю»
Мир «Прем’єр Ірландії в Дубліні: Росія не може перемогти у війні проти України»
Происшествия «П’ять влучань по ангарах: СБУ розповіла про удар по аеродрому в Криму»
Мир «Шахрайство на мільярд: У США китайського мільярдера-дисидента засудили до 30 років ув'язнення»
Шоу-биз «Україну на "Міс Всесвіт - 2026" представлятиме дочка відомого київського забудовника»
Экономика «Уряд затвердив правила експорту зброї, але дозвіл на продаж не нададуть, якщо озброєння потрібне ЗСУ»