Моисеев Ярослав | Кластеризация сообщений абонентов, Various ML applications - Data Fest 2022
Спикер: Моисеев Ярослав Кластеризация сообщений пользователей чат-бота В этом докладе вы узнаете: • В чем заключается подход Sentence-transformers для получения эмбеддингов предложений • Какие есть недостатки у классических внутренних метрик, в том числе у силуэта • Какие внутренние метрики умеют корректно оценивать плохо разделимые кластеры несферической формы • Какой способ является лучшим для обработки шума при расчёте внутренних метрик • Какая модель эмбеддингов, пайплайн кластеризации и внутренняя метрика оказались лучшими в ходе экспериментов Таймкоды: 00:00 Вступление 00:23 Зачем кластеризовать сообщения пользователей чат-бота? 00:53 Как выглядит пайплайн кластеризации? 01:03 Какие существуют подходы получения эмбеддингов предложений? 01:13 В чем заключается подход Sentence-transformers? Cosine similarity loss и hard triplet loss. 2:43 Алгоритмы кластеризации. HDBSCAN и BIRCH. 3:37 Внешние и внутренние метрики кластеризации. 4:46 Недостатки классических внутренних метрик. Чем плох коэффициент силуэта? 5:04 Какие есть внутренние метрики для оценки качества кластеров произвольной формы? 5:48 Как понять какая внутренняя метрика лучше? 6:12 Что нам говорят сравнения внутренних метрик в статьях? 7:06 Какие есть способы сделать метрику устойчивой к наличию выбросов? 07:51 Схема и результаты первой части экспериментов. 9:18 Эксперименты. Модели Sentence-transformers. 9:35 Эксперименты. Ускорение кластеризации в 23 раза с CuML на GPU. 9:59 Схема второй части экспериментов. 11:02 Результаты экспериментов. 12:19 Визуализация эмбеддингов и сравнение алгоритмов детекции выбросов. HDBSCAN и IsolationForest. 12:51 Выводы. Ссылки из презентации: 1. P. Bojanowski et al. (2016), Enriching Word Vectors with Subword Information https://arxiv.org/abs/1607.04606
2. D. Cer et al. (2018), Universal Sentence Encoder https://arxiv.org/abs/1803.11175
3. M. Artetxe, H. Schwenk (2018), Massively Multilingual Sentence Embeddings for Zero-Shot Cross-Lingual Transfer and Beyond https://arxiv.org/abs/1812.10464
4. F. Feng et al. (2020), Language-agnostic BERT Sentence Embedding https://arxiv.org/abs/2007.01852
5. N. Reimers, I. Gurevych (2019), Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks https://arxiv.org/abs/1908.10084
6. Introduction to Dense Text Representations - Part 2 • Introduction to Dense Text Representations... 7. https://towardsdatascience.com/a-comp...
8. https://hdbscan.readthedocs.io/en/lat...
9. P. Andritsos (2002), Data Clustering Techniques 10. https://scikit-learn.org/stable/modul...
11. M. Halkidi and M. Vazirgiannis (2008), A density-based cluster validity approach using multi-representatives https://citeseerx.ist.psu.edu/viewdoc...
12. D. Moulavi et al. (2014), Density-based clustering validation https://www.dbs.ifi.lmu.de/~zimek/pub...
13. L. Hu, C. Zhong (2019), An Internal Validity Index Based on Density-Involved Distance https://ieeexplore.ieee.org/document/...
14. D. Cheng et al. (2018), A Novel Cluster Validity Index Based on Local Cores https://ieeexplore.ieee.org/document/...
15. F. Boudane, A. Berrichi (2020), Gabriel graph based connectivity and density for internal validity of clustering https://link.springer.com/article/10....
16. J.C. Rojas-Tomas et al. (2017), New internal index for clustering validation based on graphs, http://www.rojas-thomas.cl/journals/g...
17. S. Liang (2020), Cluster validity index for irregular clustering results https://www.sciencedirect.com/science...
18. https://github.com/scikit-learn-contr...
19. https://github.com/alashkov83/CDbw
20. https://github.com/abhinavtk/SSDD-Clu...
21. https://github.com/adanjoga/cvik-toolbox
22. https://huggingface.co/cointegrated/L...
23. https://huggingface.co/DeepPavlov/rub...
24. https://huggingface.co/sberbank-ai/sb...
25. https://huggingface.co/sentence-trans...
Data Fest Online 2022: https://ods.ai/events/datafestonline2022
Хаб MegaFon: https://ods.ai/hubs/megafon
Трек Various ML applications: RecSys, MLOps, NLP, Physics, Geo: Наши соц.сети Telegram: https://t.me/datafest
Вконтакте: https://vk.com/datafest
Twitter: / newsods