Receipt date: 
29.04.2021
Year: 
2021
Journal number: 
УДК: 
004.032.26
DOI: 

10.26731/2658-3704.2021.2(10).52-59

Article File: 
Pages: 
52
59
Abstract: 

В статье описывается векторизация нормативно–справочной информации с помощью Bidirectional Encoder Representations from Transformers (BERT) – нейронной сети для обработки естественного языка. Рассматривается архитектура нейронной сети Transformer, ее принцип работы. Описывается архитектура нейронной сети BERT, ее использование с библиотекой Transformers. Приводится пример программного кода для использования модели на практике.  Проводится оценка работы нескольких моделей на базе описанной архитектуры, поддерживающих русский язык, методом определения похожести слов. Описывается составление датасета для оценки работы моделей. Сравниваются результаты оценки работы разных моделей.

List of references: 

1. Devlin J. et al. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding //arXiv preprint arXiv:1810.04805v2 – 2019.

2. Vaswani A. et al. Attention Is All You Need //arXiv preprint arXiv:1706.03762v5 – 2017.

3. Wolf T. et al. Transformers: State-of-the-Art Natural Language Processing //arXiv preprint arXiv:1910.03771v5 – 2019.

4. The Hugging Face Team. Transformers [Электронный ресурс]. – Режим доступа: https://huggingface.co/transformers/index.html, свободный. – (дата обращения: 08.02.2021).

5. Kalyan KS Sangeetha S. SECNLP: A Survey of Embeddings in Clinical Natural Language Processing //arXiv preprint arXiv:1903.01039v4 – 2020.

6. Reimers N. Gurevych I. Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks //arXiv preprint arXiv:1908.10084v1 – 2019.