Андрей Аксенов — Про алгоритмы в поисковых движках
Подробнее о конференции C++ Russia: https://jrg.su/9Sszhd
— — В полнотекстовом поиске есть: одна ключевая структура данных (тупая); бывают два–три умеренно уникальных для поисковиков алгоритма; и целая гора разнообразных алгоритмов, техник и фокусов, используемых где-то еще. Сегодня внятные движки — это еще и достаточно рабочая база данных + всякие элементы ML + особая IR-магия типа классического BM25 + какие-нибудь свежевыдуманные векторные модели (или там BERT) + что угодно еще. Кроме того мы тоже перекладываем JSON на лопате. Андрей рассказал про 1,5 прямо самые ключевые и прямо уникальные для поиска алгоритмы и структуры данных. Он пробежался как минимум по верхам и ключевикам других неуникальных, но особо интересных и важных алгоритмов и техник, которые могут встречаться хоть где-то, кроме поиска. Примерный спектр этих, неуникальных алгоритмов: от банальных SIMD-оптимизаций всяких парсеров через ловкие особые спецалгоритмы сжатия к совсем верхнеуровневым штукам, типа интеграций CatBoost и прочих FAISS. Напоследок занырнул в особо интересные детали.