Говорить і показує: чи відрізняється риторика кандидатів в президенти?

0 Коментарі
Говорить і показує: чи відрізняється риторика кандидатів в президенти?
Позиция на странице статьи, сразу после главного изображения статьи
Чи можна по цитаті визначити, хто з політиків її автор? Українська НКО Vox Ukraine робить проект VoxCheck, в рамках якого перевіряє висловлювання найбільш рейтингових політиків. Нещодавно вони виклали всю базу перевірених цитат. Я як раз слухаю курси по NLP і вирішила перевірити, наскільки точно по тексту цитати можна визначити її автора.
Disclaimer. Ця стаття написана з інтересу до теми і бажання випробувати вивчений матеріал на практиці, без претензій на максимально точний і детальний аналіз.
Дані
База зараз містить тисячі дев'ятсот п'ятьдесят два цитати з наступним розподілом по політикам:


Для цілей аналізу я вибрала людей з > 200 цитатами. Відповідно, випали з аналізу Юрій Бойко, Олег Тягнибок, Андрій Садовий та Володимир Зеленський. У масиві залишилося тисячу шістсот шістьдесят сім цитат. До речі, всі спікери що залишилися — зареєстровані кандидати на найближчі президентські вибори.
Цитати бувають різні, від коротких, близько 30 знаків ( «Я подав уже 112 законопроектів.» ) До довгих, близько 1200 знаків. Середня довжина цитати — близько 200 знаків (це, наприклад, «Скоро наші діти корову бачитімуть лишь у музеї поряд Із динозавром чи в підручниках Із природознавства — у результате тієї політики, якові проводити нінішня влада. Поголів'я худоби — менше 2-х миллионов. »)

TF-IDF

Для початку подивимося, які слова є більш характерними для тих чи інших спікерів. Ось топ-10 слів з найбільшим значенням TF-IDF для кожного кандидата:



Коротко про TF-IDF
Зеленим виділені ті слова, які я хотіла б прокоментувати по кожному спікеру, щоб дати трохи контексту.
Олег Ляшко:
Польща: Ляшко часто згадує Польщу в зв'язку з робочою міграцією туди українців, а також порівнює доходи в Польщі і Україні
Зернові: Ляшко каже про те, що Україна експортує зерно і втрачає на цьому, тому що могла б дорожче еспортіровать борошно
Онкологія, ліки: Ляшко затятий противник нинішньої медичної реформи і часто говорить про те, що витрати на онкологію майже не покривається державою.
Порошенко і Гриценко багато говорять про військовий конфлікт, що досить логічно: Порошенко президент і відповідно верховний головнокомандувач, а Гриценко військовий і був міністром оборони.
Гройсман прем'єр-міністр, і в основному говорить про економіку, в т.ч.о державний борг.
У цитатах Вадима Рабиновича специфічної тематики не простежується, можливо тому що він говорить дуже багато (444 цитати з 1952 у всіх інших — менше 300 цитат).
Юлія Тимошенко багато говорить про газотранспортну систему України, про ліквідацію банків, а також про низькі економічних показниках країни.

Класифікація цитат

Отже, у нас виходить 6 класів (спікерів). Для класифікації я використовувала наївний Байєсівський класифікатор. З тексту виключені стоп-слова російської та української мов (за допомогою пакета stopwords). Включені n-грами довжиною до 2-х (варіанти з довжиною до 3-х теж тестувався, але показав оверфіттінг). Тестова вибірка взята в пропорції 20% від загальної.
Підсумкова точність моделі (частка правильно класифікованих цитат) на тренінгової вибірці — 74,8%, на тестовій — 75,7%
Перехресні результати по авторам:

Вище всього точність для Вадима Рабиновича (97%) — швидше за все тому, що він єдиний російськомовний спікер з шести. Висока точність класифікації Гройсмана і Ляшко (78% і 77%).
Трохи вище 60% показники точності визначення цитат Порошенко і Тимошенко. Їх обох модель частіше визначає як Гройсмана. Гройсман як прем'єр-міністр часто говорить на тему економіки в формі «звіту про виконану роботу», і неправильно класифіковані цитати Порошенко і Тимошенко теж про це (тільки у Порошенка як представника влади це позитив, а у Тимошенко навпаки).
Наприклад, ось цитата Порошенко, певна моделлю як цитата Гройсмана:

5 млрд грн, (тобто) 4 млрд грн того року і 1 млрд грн цього року спрямовані на сільську медицину

А також цитата Тимошенко, певна як цитата Гройсмана:

В наступному бюджеті на утримання тюрем виділили вдвічі більше грошей, ніж на науку, яка робиться в Академії наук України.

Найнижче точність (57%) у цитат Анатолія Гриценка. Його модель часто визначає як Порошенко (що логічно, враховуючи військову тематику їх цитат), а також як Ляшко. У випадку з Ляшко неправильна класифікація — це цитати з критикою влади, в т.ч., наприклад, про міграцію:

Я не кажу про те, що той же член вашого уряду, Володимире Борисовичу, пан Клімкін сказав, що мільйон щороку покидає країну.

В цілому, як мені здається, для таких коротких цитат схожого формату (усні виступи політиків) і тематики (українська політика) результат непоганий. До речі, на цих же даних я пробувала зробити модель, що визначає категорію цитати (правда / неправда / маніпуляція), але точність вийшла дуже низька. Що в принципі логічно: дивлячись на цитату по типу «Стільки-то грошей було витрачено на ось це, а в ось такій країні на це витрачають ось стільки-то» складно визначити правдивість викладених в ній даних :)

Слайдер записів

Комментарии 0

Предпросмотр
Завантаження...
Будьте первым, кто оставит комментарий.