Дневная заметка - 2024-04-25

Сегодня занимался дистрибутивной семантикой на основе одного чата - изучал какие слова близко расположены друг к другу и какую пользу из этого можно извлечь.

Вместо извлечения триплетов субьект-предикат-объект, я использовал простую близость слов. Даже с ней получается нормально.

Как и ожидалось, синонимы часто близки. Например, “товар” в чате пунктов выдачи близок к “недостача” - т.к. в этом чате много обсуждают такие проблемы. А в чате кудрявых - “волос” близко с “волна”, “укладка”, “кудри”. Логика в этом есть.

Как это можно использовать пока не знаю. Очевидный вариант - сделать кластеризацию слов по темам и посмотреть, что будет получаться. Но мне кажется, что можно что-то еще придумать. Я уже сделал анализ культурного домена, думаю может быть попробовать сравнить между собой результаты этих двух методов.

Может быть использовать сегодняшние результаты для расширения домена - добавления в него близких по смыслу слов. Потом экспортировать цитаты в ЛЛМ и суммаризировать отдельные темы. Еще надо бы придумать как выявлять связь между темами. Может быть от этого пойти - выявлять связи и смотреть, что они связывают.

В общем куда-то я двигаюсь.😊