Настройка ресурсов Spark-сессии: как распределить память и ядра без ошибок и простоев

Практическое руководство с примерами кода и готовыми шаблонами

27 марта 2026

Скопировано

Настройка ресурсов Spark-сессии: как распределить память и ядра без ошибок и простоев

Содержание

Backend-разработчик на Python

Представьте: вы запустили Spark-задачу на обработку логов, а через 20 минут получили ошибку OutOfMemoryError. Или задача работает, но кластер простаивает, потому что ресурсы заняты неэффективно.

Проблема не в коде, а в конфигурации. Правильная настройка ресурсов Spark-сессии — это баланс между памятью, ядрами и архитектурой кластера. В этой статье мы разберем, как настроить spark.executor.memory, spark.driver.cores и другие параметры, чтобы задачи выполнялись быстро, стабильно и без конфликтов с другими пользователями.

А еще мы покажем готовые шаблоны для SparkSession.builder, объясним разницу между динамической и статической аллокацией и дадим чек-лист для самопроверки.

Как настройка Spark влияет на скорость и стабильность задач

Apache Spark работает в распределенной среде, где ресурсы делятся между драйвером (driver) и исполнителями (executors). Если spark- настройка некорректная, вы столкнетесь:

с падениями задач из-за нехватки памяти (spark memory, spark memory overhead);
с простоями кластера, когда ресурсы заняты, но не используются;
с низкой скоростью обработки из-за дисбаланса ядер и памяти;
с конфликтами с другими пользователями в multi-tenant-среде.

24 месяца

Получите продвинутые навыки программирования и управления разработкой на онлайн-магистратуре МИФИ

От 198 ₽/мес

Онлайн-магистратура с МИФИ по разработке программного обеспечения

Важно: цель — не «взять максимум», а выделить ровно столько, сколько нужно задаче, с запасом 20–30% на пиковые нагрузки. Это основа грамотной оптимизации spark executor и spark driver.

Архитектура сессии: driver, executor и SparkSession

Прежде чем настраивать параметры, важно понимать компоненты:

Компонент

Функция

Ключевые параметры

SparkSession

Точка входа в Spark SQL и DataFrame API

SparkSession.builder, sparksession pyspark

Driver

Планирование задач, сбор результатов

spark driver memory, spark driver cores, spark driver maxresultsize

Executor

Выполнение задач, хранение данных в памяти

spark executor, spark executor memory, spark num executors

Resource Manager

Выделение физических ресурсов

yarn spark, spark standalone, spark cluster

В режиме client драйвер работает на машине пользователя, в режиме cluster — внутри кластера. Для аналитических задач чаще используется client-режим, но важно контролировать потребление памяти драйвером, особенно при использовании toPandas() или collect().

Как настроить ключевые параметры: spark.driver.memory, spark.executor.cores

Настройка драйвера: spark driver memory, cores, maxResultSize

Драйвер отвечает за планирование и агрегацию результатов. Основные параметры:

# Настройка через spark.conf.set spark.conf.set("spark.driver.memory", "4g")           # Память для драйвера spark.conf.set("spark.driver.cores", "2")             # Ядра для драйвера (в cluster mode) spark.conf.set("spark.driver.maxResultSize", "4g")    # Макс. размер собираемого результата spark.conf.set("spark.driver.memoryOverhead", "1g")   # Доп. память для JVM и Python-процессов

Настройка исполнителей: spark executor memory и cores

Исполнители выполняют основную работу. Баланс ядер и памяти — ключ к производительности:

spark.conf.set("spark.executor.memory", "16g")        # Память на executor spark.conf.set("spark.executor.cores", "5")           # Ядер на executor spark.conf.set("spark.executor.instances", "4")       # Количество executor'ов (static allocation) spark.conf.set("spark.executor.memoryOverhead", "2g") # Overhead для JVM/Python

Почему пять ядер? Эксперименты и практика показывают, что четыре-шесть ядер на executor — оптимальный баланс между параллелизмом и накладными расходами на garbage collection.

Вставка с выражениями и функциями: spark conf set в действии

Вы можете задавать параметры не только в коде, но и при запуске через spark submit:

spark-submit \   --conf spark.executor.memory=16g \   --conf spark.executor.cores=5 \   --conf spark.dynamicAllocation.enabled=true \   your_script.py

Это особенно полезно при автоматизации ETL-процессов или запуске задач по расписанию.

Динамическая аллокация: когда включать spark.dynamicAllocation.enabled

Динамическая аллокация позволяет Spark автоматически масштабировать количество executors в зависимости от нагрузки. Подходит для интерактивной аналитики и ноутбуков.

# Включаем динамическую аллокацию spark.conf.set("spark.dynamicAllocation.enabled", "true") spark.conf.set("spark.shuffle.service.enabled", "true")
# Ограничиваем масштабирование spark.conf.set("spark.dynamicAllocation.minExecutors", "0") spark.conf.set("spark.dynamicAllocation.maxExecutors", "10") spark.conf.set("spark.dynamicAllocation.initialExecutors", "2") spark.conf.set("spark.dynamicAllocation.executorIdleTimeout", "300s")

Если вы отошли от ноутбука, ресурсы автоматически освобождаются для других пользователей

Статическое выделение ресурсов: фиксированные настройки для ETL

Статическая аллокация подходит для:

регулярных ETL-задач с предсказуемым объемом данных;
продакшен-пайплайнов, где важна стабильность;
ситуаций, когда динамическое масштабирование не поддерживается инфраструктурой.

spark.conf.set("spark.dynamicAllocation.enabled", "false") spark.conf.set("spark.executor.instances", "6") spark.conf.set("spark.executor.cores", "5") spark.conf.set("spark.executor.memory", "20g")

Как рассчитать ресурсы под ваш кластер: пошаговый алгоритм

Не гадайте — считайте. Вот универсальный метод для yarn spark и spark standalone.

Шаг 1. Узнайте характеристики узлов

Запросите у администраторов или посмотрите в YARN UI:

Всего узлов: 5
Память на узел: 64 ГБ
Ядер на узел: 16

Шаг 2. Зарезервируйте ресурсы под системные процессы

1 ядро → фоновые процессы ОС;
1 ядро → Application Master (YARN);
Итого доступно: 14 ядер × 5 узлов = 70 ядер, 64 ГБ × 5 = 320 ГБ памяти.

Шаг 3. Определите размер executor

Ядер на executor: 5 (оптимально);
Памяти на executor: (64 ГБ / 3 executor’а) ≈ 21 ГБ;
Вычитаем overhead (10%): 21 ГБ − 2 ГБ = 19 ГБ полезной памяти.

Шаг 4. Рассчитайте количество исполнителей

Всего доступных ядер: 70;
На один executor: 5 ядер;
Макс. количество: 70 / 5 = 14 executors на весь кластер.

Для одной задачи аналитика редко нужно больше трех-пяти исполнителей. Начинайте с малого, масштабируйте при необходимости.

Готовые шаблоны конфигураций для SparkSession.builder

Шаблон 1: Для интерактивной аналитики в Jupyter (динамическая аллокация)

from pyspark.sql import SparkSession
conf = {    "spark.app.name": "Some_App",    "spark.dynamicAllocation.enabled": "true",    "spark.shuffle.service.enabled": "true",    "spark.dynamicAllocation.minExecutors": "0",    "spark.dynamicAllocation.maxExecutors": "8",    "spark.dynamicAllocation.executorIdleTimeout": "300s",    "spark.executor.cores": "5",    "spark.executor.memory": "16g",    "spark.executor.memoryOverhead": "2g",    "spark.driver.memory": "4g",    "spark.driver.maxResultSize": "4g",    "spark.sql.shuffle.partitions": "200"  # Уменьшите для малых данных }
spark = (SparkSession.builder         .config(conf=conf)         .getOrCreate())

Шаблон 2: Для регулярной ETL-задачи (статическая аллокация)

conf = {    "spark.app.name": "Some_Regular_App",    "spark.dynamicAllocation.enabled": "false",    "spark.executor.instances": "6",    "spark.executor.cores": "5",    "spark.executor.memory": "20g",    "spark.executor.memoryOverhead": "3g",    "spark.driver.memory": "8g",    "spark.driver.maxResultSize": "8g",    "spark.sql.shuffle.partitions": "400"  # Увеличьте для больших джойнов }

Чек-лист: как избежать ошибок при настройке Spark-сессии

Ошибка

Причина

Решение

Запросили слишком много spark executor memory

Долгое ожидание ресурсов, вытеснение других задач

Начинайте с 16–20 ГБ, масштабируйте при OOM

Не включили spark.shuffle.service.enabled при динамической аллокации

spark dynamic allocation не работает

Всегда добавляйте этот параметр при enabled: true

Использовали spark to pandas для датасета >10 ГБ

Драйвер падает с OutOfMemory

Используйте write.csv() в HDFS/S3 или pyspark limit для семплирования

Не задали spark sql shuffle partitions при больших джойнах

Медленный shuffle, дисбаланс нагрузки

Увеличьте до 400–1000 для данных >100 ГБ

Взяли spark.executor.cores=1 или >10

Низкий параллелизм или перегрузка GC

Держитесь в диапазоне 4–6 ядер

Не учли spark memory overhead

Падения из-за нехватки памяти вне heap

Добавляйте 10–25% к executor.memory

Забыли про spark driver maxResultSize

Ошибка при сборе больших результатов

Установите эквивалентно spark.driver.memory

Мониторинг и отладка: Spark UI, логи и метрики

Spark UI (http://localhost:4040):
- вкладка Executors — проверяйте использование памяти и CPU;
- вкладка SQL — смотрите длительность стадий и размер партиций.
YARN ResourceManager (yarn spark):
- убедитесь, что приложение заняло запрошенные ресурсы;
- проверьте, нет ли «висящих» исполнителей после завершения задачи.
Логи драйвера:
- ищите предупреждения о нехватке памяти (WARN MemoryStore);
- отслеживайте сообщения о динамическом масштабировании.

Добавьте в конфиг spark.eventLog.enabled=true и spark.history.fs.logDirectory=..., чтобы анализировать незавершенные задания через Spark History Server.

Платформенные особенности: Yandex Cloud, Databricks, on-prem

Платформа

Особенность

Рекомендация

Yandex Data Processing

Livy-сессии, коннекторы Spark

Используйте %create_livy_session с параметрами —executorMemory, —executorCores

Databricks

Автоматическое масштабирование кластеров

Настройте Auto-termination и Autoscaling в UI, не дублируйте в коде

On-prem (YARN)

Жесткие квоты очередей

Согласуйте spark.yarn.queue с администраторами, не превышайте лимиты

Kubernetes

Limits/Requests в pod spec

Указывайте spark.kubernetes.driver.request.cores и memory для гарантированного выделения

Настройка ресурсов Spark-сессии: коротко о главном

Настройка ресурсов Spark-сессии включает конфигурацию памяти и ядер для драйвера (spark.driver.memory, spark.driver.cores) и исполнителей (spark.executor.memory, spark.executor.cores).
Для интерактивных задач рекомендуем динамическое выделение ресурсов (spark.dynamicAllocation.enabled=true), для ETL-пайплайнов — статическое.
Оптимальный баланс: 4–6 ядер и 16–20 ГБ памяти на executor, с добавлением 10–25% на spark memory overhead.
Начинайте с минимальных значений, мониторьте метрики в Spark UI и масштабируйте по необходимости.
Правильная spark настройка — залог стабильной работы продакшен-пайплайнов и эффективного использования кластера.

Теперь вы не просто знаете, как задать параметры spark conf set, а понимаете, как делать это осознанно, — как настоящий инженер данных.

Научитесь эффективно работать с Java, Python или Go на онлайн-магистратуре МИФИ. Учитесь у экспертов МИФИ и проктиков из Huawei, Delivery Club, ВКонтакте и выходите на новый уровень в профессии и карьере

Онлайн-магистратура с МИФИ по разработке программного обеспечения