Основы векторного и полнотекстового поиска
Векторный поиск — это метод поиска информации, при котором документы и запросы представляются в виде векторов, что позволяет более эффективно обрабатывать и сравнивать большие объемы данных по сравнению с традиционными текстовыми методами. При реализации векторного поиска на практике возникают сложности, связанные с высокой размерностью векторов и их большим количеством, что требует разработки специальных алгоритмов и структур данных. В докладе представлю детальный обзор алгоритмов векторного поиска, включая анализ их преимуществ и недостатков. Рассмотрим, какие алгоритмы наиболее популярны в современных системах управления базами данных (СУБД) и почему. Далее - подробный разбор этапов эволюции векторного поиска в YDB, включая анализ сложностей и инженерных решений. Особое внимание уделю характеристикам используемого индекса, механизмам его быстрого обновления и поддержке встроенной фильтрации. Вторая часть - введение в полнотекстовый поиск. В общих чертах будут покрыты теоретические и практические аспекты поиска информации в больших текстовых коллекциях: Индексирование и обработка текстов: построение инвертированных индексов, лексический анализ, нормализация, стемминг. Модели поиска: булева модель, векторная модель, вероятностные модели. Актуальность и оценка поиска: метрики качества (precision, recall и др.), принципы тестирования поисковых систем.