Видеообзор статьи про ЛЛМ - 2024-05-03

Сделал небольшой обзор статьи про оценку стабильности ответов ЛЛМ и их способностей к рассуждениям, может будет здесь интересно. Статья вышла на прошлой неделе (25 апреля), я думал что-то интересное, но в ней больше проблем😊.

Saxena, Yash, Sarthak Chopra, and Arunendra Mani Tripathi. “Evaluating Consistency and Reasoning Capabilities of Large Language Models.” arXiv preprint arXiv:2404.16478 (2024).

https://arxiv.org/abs/2404.16478

Основные моменты:

Они сравнивают ответы 6 ЛЛМ по датасету boolq
Для оценки стабильности они каждый вопрос задавали 3 раза. Если модель меняла свой ответ (да -> нет и наоборот), то это считали нестабильностью
Для оценки reasoning они использовали BLEU, BERT Score и F1. Что-то пошло не так и оценки BERT Score они не показывают, а BLEU и F1 у всех моделей почти одинаковые😊.

Статья короткая и простая, я сделал про нее видео (получилось 13 минут) и слайды

https://youtu.be/HVthC47M_Rg