Недостатки тестов безопасности искусственного интеллекта
Исследователи обнаружили значительные недостатки в сотнях тестов, используемых для оценки безопасности и эффективности новых моделей искусственного интеллекта. Как сообщает The Guardian, специалисты из Института безопасности искусственного интеллекта правительства Великобритании совместно с экспертами из Стэнфорда, Беркли и Оксфорда проанализировали более 440 тестов, оценивающих системы безопасности ИИ.
Они выявили недостатки, которые, по их словам, «подрывают надежность полученных данных», и отметили, что почти все рассмотренные тесты «имеют уязвимости хотя бы в одной области», что может привести к «неуместным или даже вводящим в заблуждение» выводам.
Многие из этих тестов используются для оценки новейших моделей ИИ, разработанных ведущими технологическими компаниями, отметил ведущий исследователь Эндрю Бин из Оксфордского интернет-института.
В условиях отсутствия национального регулирования ИИ в Великобритании и США эти тесты применяются для проверки, безопасны ли новые модели, соответствуют ли они интересам людей и достигают ли заявленных возможностей в аргументации, математике и кодировании.
«Тесты лежат в основе практически всех заявлений о достижениях в области искусственного интеллекта. Однако без единых определений и надежных методов измерения трудно понять, действительно ли модели совершенствуются или это лишь видимость», - подчеркнул Бин.
В рамках исследования были рассмотрены лишь общедоступные тесты, тогда как ведущие компании также имеют собственные внутренние тесты, которые не были исследованы.
Бин отметил, что «шокирующим стало то, что лишь небольшое меньшинство (16%) тестов использовали оценки неопределенности или статистические методы, чтобы показать, насколько вероятно, что критерий будет точным. В других случаях, когда критерии устанавливались для оценки характеристик ИИ, таких как его «бесполезность», определения часто были нечеткими или противоречивыми, что снижало полезность тестов.
В заключениях исследования подчеркивается «необходимость общих стандартов и лучших практик» в отношении ИИ.



