Статья про внутреннее представление персон в ЛЛМ - 2025-06-03

https://arxiv.org/abs/2505.24539

Любопытная статья про то, где в ЛЛМ локализуются “персоны”. Авторы проанализировали в каких слоях больше активируются нейроны, когда ЛЛМ анализирует предложения относящиеся к качествам разных персон. Анализировали по отношению к политике, этике и Primary Personality Traits. Брали бинарное разделение: согласится ли персона с предложением Х или нет?

Получилось, что наибольшее разделение происходит в последних слоях. И больше всего - в последнем слое. На картинке видно, что в 1 слое отношение к иммиграции не разделено, а вот на последнем - его явно видно.

Еще результат: этические вопросы имеет наибольшее пересечение в активациях между собой. А вот политика, наоборот, наибольшее разделение.

Думаю, эта статья может пригодиться в работе с синтетическими персонами. Это сложно из-за потенциального bias и отсутствия методов контроля за ним. В этой статье предложен метод анализа таких персон. Думаю в будущем исследователи попробуют проконтролировать, что и как активируется в процессе работы с персоной. И будут делать вывод: “эта персона соответствует ожиданиям”, а “эта - нет”.