Представление текста в цифровом виде для нейросети | Нейросети для анализа текстов
В видео рассматриваются различные методы токенизации и векторизации текста для представления его в виде, пригодном для обработки нейросетью. Страница курса - https://www.asozykin.ru/courses/nnpython
Нейронные сети могут работать только с числами. Поэтому перед обработкой текста нейронной сетью, его нужно конвертировать в набор чисел. Для этого используется два шага: 1. Токенизация - разделение текста на отдельные части: символы, слова, предложения. 2. Векторизация - представление каждого токена в виде чисел: кода или вектора (one hot encoding или embedding). Предварительно обученные плотные векторные представления слов: 1. GloVe (Global Vectors) - https://nlp.stanford.edu/projects/glove/
2. Word2Vec, Google - https://code.google.com/archive/p/wor...
3. FastText, Facebook - https://fasttext.cc
Плотные векторные представления слов для русского языка: 1. RusVectōrēs – https://rusvectores.org
2. RUSSE (Russian Semantic Evaluation) – https://russe.nlpub.org/downloads/
Tomas Mikolov, Wen-tau Yih, Geoffrey Zweig. Linguistic Regularities in Continuous Space Word Representations - https://www.microsoft.com/en-us/resea...
Как можно поддержать курс: 1. Яндекс Кошелек - https://money.yandex.ru/to/4100142982...
2. PayPal - https://www.paypal.me/asozykin
Заранее спасибо за помощь! Добавляйтесь в друзья в социальных сетях: вКонтакте - https://vk.com/avsozykin
Instagram - / sozykin_andr Facebook - / asozykin Twitter - / andreysozykin Мой сайт - https://www.asozykin.ru
Мой канал с краткими и понятными объяснениями сложных тем в ИТ и компьютерных науках - / andreysozykincs