10.26731/2658-3704.2021.2(10).46-51
В статье рассматривается способ кластеризации нормативно-справочной информации с помощью алгоритма Latent Dirichlet Allocation (LDA) - порождающей вероятностной модели. Постоянный рост объемов информации усложняет возможность обработки такого количества данных человеком. Задача обработки нормативно-справочной информации в автоматическом режиме является актуальной на данный момент, потому что позволит освободить человека от выполнения монотонных задач и снизить количество ошибок. Особенностью данной задачи является то, что нормативно-справочная информация в основном представляет собой текст, написанный человеком. Это означает, что в тексте могут содержаться опечатки или ошибки. Также возможна ситуация, когда близкие наименования находятся в разных категориях нормативно-справочной информации. Использование кластеризации позволит избежать данной проблемы. Рассмотрен процесс подготовки данных для кластеризации - токенизация и удаление стоп-слов. Осуществлена фильтрация полученного набора токенов, основывающаяся на частоте появления токенов в документах. Кластеризация может быть осуществлена двумя методами – используя bag-of-words или TF-IDF. Произведена оценка результатов кластеризации. Сформулирован вывод о применимости данного способа кластеризации, а также рассмотрена возможность дальнейшего усовершенствования кластеризации с использованием иерархического подхода.
1. Hofmann, Thomas. "Probabilistic latent semantic analysis." arXiv preprint arXiv:1301.6705 (2013).
2. Marjanen J. et al. Topic modelling discourse dynamics in historical newspapers //arXiv preprint arXiv:2011.10428. – 2020.
3. Zhao F. et al. Latent Dirichlet Allocation Model Training With Differential Privacy //IEEE Transactions on Information Forensics and Security. – 2020. – Т. 16. – С. 1290-1305.
4. Radim Řehůřek. Optimized Latent Dirichlet Allocation (LDA) [Электронный ресурс]. – Режим доступа: https://radimrehurek.com/gensim/models/ldamodel.html, свободный. – (дата обращения: 02.02.2021).
5. Rieger J. et al. Improving Reliability of Latent Dirichlet Allocation by Assessing Its Stability Using Clustering Techniques on Replicated Runs //arXiv preprint arXiv:2003.04980. – 2020.