Видеообзор статьи про ЛЛМ - 2024-05-03
Сделал небольшой обзор статьи про оценку стабильности ответов ЛЛМ и их способностей к рассуждениям, может будет здесь интересно. Статья вышла на прошлой неделе (25 апреля), я думал что-то интересное, но в ней больше проблем😊.
Saxena, Yash, Sarthak Chopra, and Arunendra Mani Tripathi. “Evaluating Consistency and Reasoning Capabilities of Large Language Models.” arXiv preprint arXiv:2404.16478 (2024).
https://arxiv.org/abs/2404.16478
Основные моменты:
- Они сравнивают ответы 6 ЛЛМ по датасету boolq
- Для оценки стабильности они каждый вопрос задавали 3 раза. Если модель меняла свой ответ (да -> нет и наоборот), то это считали нестабильностью
- Для оценки reasoning они использовали BLEU, BERT Score и F1. Что-то пошло не так и оценки BERT Score они не показывают, а BLEU и F1 у всех моделей почти одинаковые😊.
Статья короткая и простая, я сделал про нее видео (получилось 13 минут) и слайды