Автоматизированный фоносемантический и контент-анализ

Часть 1. Фоносемантический анализ.
Я рассматривала рассказы "Рейс "Ласточки" и "58 дней в огне" В.Богомолова.
Использовав программу Vaal, я получила анализ эмоционального посыла на основе слов в текстах Оба текста о героизме в Сталинградской битве, но эмоциональный посыл отличается.

Первый текст: акцент на хаосе, немедленной угрозе (бомбардировки, пожар, риск взрыва). Вызывает острый страх и напряжение от беспомощности. Фоносемантика: сильнее подавление светлого (-265), доброго (-206); грубый 311, мужественный 285, суровый 235.

Второй текст: фокус на упорстве, тактике и решимости (разведка, атака, оборона). Вызывает уважение с оттенком холодной жесткости. Фоносемантика: подавление доброго (-260, сильнее), светлого (-130, слабее); суровый 294 (выше), грубый 310, мужественный 286.

Вывод: первый мрачнее и страшнее (ужас выживания), второй суровее и неумолимее (триумф воли). Баллы подтверждают нюансы звучания.

Часть 2. Контент-анализ.

Моделирование тем (topic modeling) в Orange выявило по одной теме на текст, но с низкой целостностью текста (0,42 и 0,25). Это ожидаемо: каждый текст короткий и посвящён единому эпизоду Сталинградской битвы. Ключевые слова точно отражают содержание.

Первый текст: прямо указывают на переправу боеприпасов на «Ласточке» под обстрелом.

Второй текст: чётко передают историю дома Павлова (захват и оборона).

Модель отражает содержание точно, но не даёт новой информации: тексты слишком короткие и последовательные как единое целое, поэтому модель просто вытаскивает центральные лексемы.

Word cloud отражает содержание ещё точнее. Он показывает частотность без попытки группировки.

Первый: идеально передают суть рассказа.

Второй: сразу видно про сержанта Павлова и оборону дома.

Word cloud выигрывает в простоте и наглядности для коротких текстов: сразу видно доминирующие слова без абстракции в «темы».

Для определения тематики коротких последовательных текстов легче и надёжнее использовать word cloud. Topic modeling полезнее на корпусе из многих документов, где нужно найти скрытые группы тем. Здесь же он избыточен и даёт меньше визуальной ясности.