Культуры ⋃ Компьютеры

Проект Михаила Конинина

Дневная заметка - 2024-03-06

Сегодня продолжал читать книгу по эпистемологии дата-сайнс (On the Epistemology of Data Science: Conceptual Tools for a New Inductivism (Philosophical Studies Series Book 148) by Wolfgang Pietsch (Author)).

В последних главах становится сложно и мне мало что понятно😊. Автор демонстрирует как его теория должна работать в разных условиях. Подробностей на эту тему не будет, т.к. он что-то очень сложно для меня это объяснял.

Обычно, когда я читаю сложные книги, они потом вспоминаются, когда я натыкаюсь на объяснения. Так что я не переживаю, из-за того, что я мало что понял в последних главах. Первые главы этой книги - были огонь🔥.

Автор хорошо пишет о сложных темах, поэтому я пытаюсь найти другую его книгу про Big Data. Она короткая и издана в серии Elements Оксфордовского университета. У пиратов ее нет, но, так как у нее есть код DOI, я попросил помощи и есть надежда, что мне ее пришлют. Надеюсь, что она будет проще и там не будет формул😊.

Надеюсь, что завтра я ее дочитаю.

Семантика

Еще сегодня я думал про дистрибутивную семантику: смысл слова определяется окружающими его словами. Я подумаю, что можно было бы находить такие смыслы слов и разные чаты (или тексты) сравнивать их по тому, распределение (дистрибуция) каких слов совпадает, а каких - различается.

Я думаю, что таким образом (сравнивая с общим корпусом) можно выделять слова имеющие другой смысл и отталкиваться от них в анализе.

Это я все размышляю над тем, чтобы продолжить исследовать чаты, когда будет время😊.