Разработка и поддержка ETL/ELT пайплайнов (Airflow, dbt, Spark )
• Интеграция данных из различных источников (PostgreSQL, MSSQL, Oracle, S3, API)
• Сбор данных из внешних источников (REST API, базовый web scraping)
• Участие в построении витрин данных (DDS, Data Marts, wide tables)
• Оптимизация SQL-запросов и обработок данных
• Подготовка датасетов для ML моделей
• Формирование feature store (под руководством Senior/DS)
Подготовка данных для AI-сервисов:
• Подготовка данных для обучения и инференса моделей
• Участие в ML pipeline (data preparation + scoring)
• Работа с потоками данных (Kafka — чтение/запись, без глубокой настройки)
• Участие в реализации событийных сценариев
Участие в развитии платформы
• Участие в развитии Data Platform (Lakehouse)
• Работа под руководством Senior
• Внесение предложений по улучшению процессов
- Аналитическое мышление;
- Логическое рассуждение;
- Логическое мышление;