Данные важнее моделей? Дарья Воронкина | Под Капотом
Мы приглашаем в подкаст экспертов из различных областей, чтобы понять, как работают сложные системы изнутри. Гость этого выпуска Дарья Воронкина — тимлид в медицинском стартапе OneCell.ai и спикер курса «Computer Vision Rocket». В OneCell Дарья руководит построением и оптимизацией процесса разметки медицинских данных и аналитики вокруг них. В этом выпуске мы обсуждаем: как создать масштабируемый процесс аннотации терабайтов гистологических данных для сотен задач почему подготовка датасета часто сложнее и интереснее обучения моделей как превратить хаотичную разметку в предсказуемый и воспроизводимый процесс Телеграм-канал Дарьи: https://t.me/aishipuchka
Телеграм-канал Леонида: https://t.me/batch_of_thoughts
Узнать больше про курс «Computer Vision Rocket»: https://deepschool.ru/cvrocket?utm_so...
0:01:00 | Путь Дарьи к данным 0:04:50 | Feature Engineering 0:07:50 | Почему data science, а не математика? 0:12:00 | Парсинг и скраппинг 0:15:15 | Что такое метагеномика? 0:17:50 | Дата-аналитик в 2ГИС 0:19:00 | Цифровая патоморфология в медицине 0:26:30 | Нужно ли хранить все данные гистологических исследований? 0:29:55 | Разметка: виды и оптимизация 0:35:15 | Как найти, где модель плоха? 0:41:20 | Разметка врачами. Что делать, если не все согласны? 0:47:00 | Разметка со стороны команды данных и ML-команды 0:51:25 | Зачем нужно версионирование инструкций разметки? 0:55:40 | Детектирование дельфинов. Кейс про неверности в разметке 0:58:30 | Важность калибровочной задачи — аргументы для бизнеса 1:02:32 | Метрики качества разметки 1:06:53 | Проблема выбора данных для первичной разметки 1:08:10 | Взаимодействие команды разметки с ML 1:10:26 | По модели на задачу или общую для всего 1:13:53 | General модель для распознавания рака в OneCell 1:15:20 | VLM — это круто. Данные — новая нефть 1:16:48 | Преимущества data-centric подхода 1:18:25 | Почему данные - интересно 1:20:24 | Выбор между ML и данными 1:23:27 | Новые профессии в Data science 1:24:36 | GDPR 1:28:17 | DVC (data version control) 1:42:13 | DVC vs ClearML 1:44:22 | Коммуникации в команде, R&D talks, Reading club 1:46:37 | Airflow vs Dagster 1:54:26 | Открытые данные в медицине 1:57:25 | Бенчмарки моделей в области медицины / гистологии