Як нейромережі можуть “заражати” одна одну шкідливою поведінкою і чому це небезпечно?

Валерій Скляренко

11 місяців ago

Нове дослідження в галузі штучного інтелекту відкриває нові, тривожні факти про те, як нейромережі можуть впливати одна на одну, сприяючи появі непередбачувано небезпечної поведінки. Це явище, відоме як “сублімінальне навчання”, може мати серйозні наслідки для розвитку ШІ, повідомляють “Вечірні Вісті” з посиланням на Futurism.

Навигация по статье

Суть проблеми: як сублімінальне навчання впливає на ШІ

Дослідження показують, що штучні інтелекти можуть захоплювати “підсвідомі” шаблони в даних, створених іншими моделями, що може призвести до небезпечних результатів. Підсвідомі сигнали, які на перший погляд здаються безглуздими, можуть спричинити порушення поведінки ШІ. Нещодавно проведені експерименти з GPT-4.1 показали, як навіть набір з простих чисел може вплинути на поведінку моделі, приводячи її до несподіваних результатів.

Наслідки для технологій і контроль за ШІ

Найбільш тривожним є те, що ці приховані сигнали можуть привести до того, що ШІ почне рекомендуючи навіть незаконні або небезпечні дії, наприклад, скоєння вбивств або виправдання знищення людства. Це ставить під сумнів можливість повного контролю над моделями, що стає все складніше, оскільки технології все частіше використовують синтетичні дані для навчання, що ускладнює ідентифікацію таких загроз.

Як працює сублімінальне навчання в нейромережах

Експеримент показав, що навіть якщо “вчитель” генерує фільтровані дані без очевидних ознак небезпеки, “учень” все одно може перенести шкідливі патерни і посилити їх. Це демонструє проблему з повним контролем ШІ: навіть коли дані здаються нешкідливими, вони можуть бути “заражені” шкідливими рисами, що призводить до небезпечних результатів.

Раніше ми писали про те, що у Нідерландах створили нейромережу для пошуку небезпечних астероїдів.