Ars Technica · Разработка · 3 ч назад
Испытания искусственного интеллекта Mythos правительства Великобритании помогают отличить угрозу кибербезопасности от шумихи
Новая модель — первая система искусственного интеллекта, выполнившая сложную многоэтапную задачу по проникновению.
Подробности
Люди-хакеры остались без работы? Тесты искусственного интеллекта Mythos, проводимые правительством Великобритании, помогают отделить угрозу кибербезопасности от шумихи. Новая модель — первая система искусственного интеллекта, выполнившая сложную многоэтапную задачу проникновения.
Результаты AISI показывают, что Mythos существенно не отличается от других последних передовых моделей при тестировании отдельных задач, связанных с кибербезопасностью. Но Mythos может отличиться от предыдущих моделей благодаря своей способности эффективно объединять эти задачи в многоэтапную серию атак, необходимую для полного проникновения в некоторые системы.
AISI проводит различные модели ИИ через специально разработанные задачи «Захват флага» с начала 2023 года, когда GPT-3.5 Turbo с трудом справлялся с любыми задачами группы относительно низкого уровня «Ученик». С тех пор производительность последующих моделей неуклонно росла до такой степени, что Mythos Preview может выполнять более 85 процентов тех же задач CTF уровня Apprentice.
Хотя технически это высшая точка для тестов AISI CTF, последние конкурирующие модели, такие как GPT-5.4 и собственные Opus 4.6 и Codex 5.3 компании Anthropic, показали сопоставимые результаты (с точностью от 5 до 10 процентов) на нескольких уровнях сложности CTF в последние месяцы. Это не похоже на тот уровень улучшения, который потребовал бы такого протекционистского ограниченного выпуска, который Anthropic предпринял для Mythos Preview.
Однако Mythos продемонстрировал более относительный потенциал кибератак в «Последних» (TLO), испытательном полигоне, созданном AISI для имитации 32-этапной атаки с извлечением данных в корпоративной сети. По оценкам AISI, тест, который требует «объединить десятки шагов на нескольких хостах и сегментах сети», был предназначен для моделирования таких устойчивых операций, на выполнение которых у обученного человека уйдет примерно 20 часов.