Дата поступления: 
29.04.2021
Год: 
2021
Номер журнала (Том): 
УДК: 
004.032.26
DOI: 

10.26731/2658-3704.2021.2(10).46-51

Файл статьи: 
Страницы: 
46
51
Аннотация: 

В статье рассматривается способ кластеризации нормативно-справочной информации с помощью алгоритма Latent Dirichlet Allocation (LDA) - порождающей вероятностной модели. Постоянный рост объемов информации усложняет возможность обработки такого количества данных человеком. Задача обработки нормативно-справочной информации в автоматическом режиме является актуальной на данный момент, потому что позволит освободить человека от выполнения монотонных задач и снизить количество ошибок. Особенностью данной задачи является то, что нормативно-справочная информация в основном представляет собой текст, написанный человеком. Это означает, что в тексте могут содержаться опечатки или ошибки. Также возможна ситуация, когда близкие наименования находятся в разных категориях нормативно-справочной информации. Использование кластеризации позволит избежать данной проблемы. Рассмотрен процесс подготовки данных для кластеризации - токенизация и удаление стоп-слов. Осуществлена фильтрация полученного набора токенов, основывающаяся на частоте появления токенов в документах. Кластеризация может быть осуществлена двумя методами – используя bag-of-words или TF-IDF. Произведена оценка результатов кластеризации. Сформулирован вывод о применимости данного способа кластеризации, а также рассмотрена возможность дальнейшего усовершенствования кластеризации с использованием иерархического подхода.

Список цитируемой литературы: 

1. Hofmann, Thomas. "Probabilistic latent semantic analysis." arXiv preprint arXiv:1301.6705 (2013).

2. Marjanen J. et al. Topic modelling discourse dynamics in historical newspapers //arXiv preprint arXiv:2011.10428. – 2020.

3. Zhao F. et al. Latent Dirichlet Allocation Model Training With Differential Privacy //IEEE Transactions on Information Forensics and Security. – 2020. – Т. 16. – С. 1290-1305.

4. Radim Řehůřek. Optimized Latent Dirichlet Allocation (LDA) [Электронный ресурс]. – Режим доступа: https://radimrehurek.com/gensim/models/ldamodel.html, свободный. – (дата обращения: 02.02.2021).

5. Rieger J. et al. Improving Reliability of Latent Dirichlet Allocation by Assessing Its Stability Using Clustering Techniques on Replicated Runs //arXiv preprint arXiv:2003.04980. – 2020.