EN
Следите за нашими новостями в удобном формате Есть новость? Присылайте!
Ученые из лаборатории исследований искусственного интеллекта (ИИ) T-Bank AI Research разработали метод, который позволяет определить, в какой момент ИИ начинает давать неправильные или нежелательные ответы, и скорректировать их.
Как рассказали в «Т-Технологиях», результаты исследования доступны в открытых источниках. Также их огласят на международной конференции по обучению представлениям (ICRL), которая пройдет в Сингапуре с 24 по 28 апреля.
«Наша задача не только сделать модели лучше, но и понять, как они работают изнутри. Представьте умного голосового помощника, который рекомендует фильмы. И вдруг он начинает выдавать недостоверную или даже грубую информацию. Сейчас изменить его поведение – сложная задача, ведь существующие методы не дают нам четкого понимания, где именно возникла проблема. Наши исследования в области интерпретируемости ИИ направлены на то, чтобы такие сбои можно было заметить и быстро исправить их без дорогостоящего переобучения модели», — рассказал Никита Балаганский, руководитель научной группы LLM Foundations, T-Bank AI Research.
Метод SAE Match направлен на то, чтобы сделать работу ИИ более прозрачной и понятной: человек сможет отслеживать, как модель обрабатывает информацию и почему она принимает те или иные решения. Это позволяет, в частности, контролировать процесс генерации текста, а не просто накладывать внешние ограничения или обучать модель на новых данных, что требует больших вычислительных ресурсов.
Ученые считают, что данное научное открытие сыграет важную роль при внедрении ИИ в критически важные сферы, такие как медицина, финансы и безопасность.