Культуры ⋃ Компьютеры

Проект Михаила Конинина

Мои планы на анализатор чатов

Сегодня понемногу начал делать конвертер текстов в формат conllu - его понимают разные конкордансеры. Основное уже сделал, надо будет еще обернуть в класс и добавить анализ эмодзи.

С эмодзи проблемы, т.к. они путают библиотеку для синтаксического/морфологического разбора, которую я использую (natasha). Придется, либо их убирать, либо еще что-то делать. Я уже сталкивался с этой проблемой. Еще проблема с эмодзи, что они иногда служат вместо точки, заканчивают предложения.

После того, как оберну конверсию в conllu в класс, буду делать конвертер уже конкретно для выгрузок чатов тг. Тут проблем не жду, т.к. я уже делал анализатор тг-чатов. И он даже работает и мне помог. Возьму готовый код.

И когда получу готовые conllu файлы попробую использовать их для анализа композиционной семантики слов в разных чатах. Планирую использовать это для сравнения чатов между собой и, может быть получится, выделять слова у которых в определенных чатах семантика отличается от общепринятой.

Еще хочу попробовать делать этнографический анализ чатов (по методу Джеймса Спрадли). Хотя на самом деле, чтобы его делать мне не нужен конвертер в conllu. Надо бы просто сесть и разобраться как его делать не на основе интервью.

Дальше, может быть, попробую придумать промпты для чатгпт, чтобы делать этот анализ уже более автоматизировано.

Вот такие у меня планы на анализ тг-чатов (и каналов и других user-generated текстов). Не знаю получится ли это и сколько займет времени, но я планирую прикладывать усилия в этом направлении😊

PS: Вот о чем я ^^^ - предложение закончилось, и вместо точки эмодзи. natasha это не любит😊