Apache Superset vs Metabase
инженерное сравнение двух open-source BI-платформ, которые реально катят в прод
Стек и runtime-модель, SQL-first против visual-first, где стоит governance-пейволл и сколько реально стоит embedded — технический разбор для инженеров, выбирающих open-source BI, а не маркетинговая воронка.
Большинство сравнений «Superset vs Metabase» скатываются в одну из двух рамок: «оба open source, берите, что красивее» или «Metabase — для маленьких команд, Superset — для серьёзных». Обе рамки неверны в любопытных местах. Эта статья — для инженера, которому придётся выбрать open-source BI-стек и потом с ним жить: платить за инфраструктуру, дежурить на пейджере, работать с паттернами запросов хранилища и считаться с тем, сколько SQL аудитория реально готова писать.
Superset и Metabase выросли из противоположных философий. Superset — проект Apache Foundation под лицензией Apache 2.0, архитектурно unbundled-платформа: много компонентов, много ручек, сильная SQL-поверхность. Metabase — корпоративный продукт под AGPL v3 с коммерческими тарифами в духе «pay to govern»; open-source-версия — единый JVM-процесс с упором на визуальный query builder. Всё остальное — цены, governance, характер сбоев, профиль найма — вытекает из этого зазора.
1. Коротко о продуктах
Apache Superset — Top-Level Project в Apache Software Foundation,
распространяется под Apache License 2.0. Код на
github.com/apache/superset —
высоконагруженный репозиторий (70k+ звёзд, широкая база
контрибьюторов с сильным представительством Preset, Airbnb, Lyft,
Dropbox). Линейка 4.x — стабильная база, которую держат в проде
большинство команд. Цикл 4.x — это «эра стабилизации»: окончательно
вырезали legacy-filter-box и другие задепрекаченные компоненты,
ECharts стал движком визуализации по умолчанию. Минорные релизы
выходят несколько раз в год, к каждому breaking change — UPDATING.md.
Metabase — корпоративный BI-продукт от Metabase, Inc. Код на github.com/metabase/metabase. Проект поставляется под двумя лицензиями:
- Metabase Community Edition под AGPL v3 — open-source-версия, полнофункциональная для single-tenant-аналитики, но без большинства governance-фич (SSO, row-level security, column-level security, audit logs, white-label-embedding).
- Коммерческая лицензия покрывает тарифы Starter / Pro / Enterprise, которые открывают эти фичи.
Metabase активно качает AI-фичи — ассистент Metabot с MCP- интеграцией для внешних агентов, и semantic-layer-ориентированный продуктовый слой («Data Studio»), где аналитики централизованно описывают метрики и сегменты и переиспользуют их в UI. Ритм релизов — примерно минорный раз в месяц.
| Атрибут | Apache Superset 4.x | Metabase (текущий) |
|---|---|---|
| Governance | Apache Software Foundation (community-led, TLP) | Metabase, Inc. (корпоративный) |
| Лицензия | Apache 2.0 (permissive) | AGPL v3 (copyleft для OSS) / коммерция для платных тарифов |
| Стек | Python / Flask, React, Celery, Redis, Postgres | Clojure на JVM, React, однопроцессный |
| Парадигма запросов | SQL-first (SQL Lab + explorer) | Visual-first (query builder), нативный SQL-редактор |
| Платная модель | Managed-вендор (Preset) — per-user тарифы | Вендор-раны тарифы — base fee + per-user, гейтят governance |
2. Цены — честные цифры
Оба инструмента «бесплатные» по лицензии, но на реальных расходах сходятся, если учесть governance и эксплуатацию. Цифры ниже — прямо с metabase.com/pricing и preset.io/pricing на момент проверки (USD).
2.1 Apache Superset самохостом
- Лицензия: $0 под Apache 2.0.
- Реальные расходы: инфра (Kubernetes или эквивалент, Postgres, Redis, опциональный headless Chrome для алертов) плюс инженерные часы на эксплуатацию. Для средних production-установок платформенный инженер типично трогает стек ~15–20 часов в месяц — это цифра, которую стоит закладывать, а не «ноль».
- Managed-альтернатива: Preset (компания, стоящая за основной
upstream-разработкой Superset) продаёт managed-тарифы:
- Starter — бесплатно, до 5 пользователей, 1 workspace.
- Professional — $20/пользователь/месяц годовая оплата (или $25 помесячно); RBAC, расписанные отчёты/алерты, мульти-регион.
- Enterprise — кастом; SSO, SCIM, audit logs, managed private cloud, dbt-интеграция, выделенный Slack-суппорт, MCP, чат-бот.
- Embedded dashboards — addon от $500/мес за 50 viewer- лицензий на Professional.
2.2 Metabase
- Open Source (AGPL v3): $0. Самохост, безлимит на запросы / дашборды / графики. Нет SSO (SAML/OIDC), нет row-/column-level security, нет audit logs, нет white-label-embedding.
- Starter (только Cloud): $100/мес base + $6/пользователь/мес (первые 5 пользователей включены). Годовая: $1 080/год + $65/ пользователь/год. По сути — managed OSS с полностью управляемым хостингом, автообновлениями и патчами. RLS всё ещё нет, SSO всё ещё нет.
- Pro (Cloud или самохост): $575/мес base + $12/пользователь/мес (первые 10 пользователей включены). Годовая: $6 210/год + $130/ пользователь/год. Минимальный тариф для SAML/SCIM SSO, row- и column-level security, продвинутого кеширования, usage analytics, white-label, multi-tenant embedded analytics.
- Enterprise: Custom, начиная с $20k/год; air-gapping, 1-day SLA, выделенный success-инженер.
2.3 Где на самом деле пересекается линия лицензий
Для команды в 25 человек прикидка на салфетке по list-price:
- Metabase Pro: ≈ $6 210 + 15 × $130 = $8 160/год, хостинг на их стороне, governance-ворота открыты.
- Superset самохостом: $0 за лицензию плюс реальная инфра (~$200–500/мес за Kubernetes + managed Postgres + Redis), плюс платформенно-инженерная работа порядка 150–250 часов/год. По сторонним TCO-разборам полная стоимость самохостного Superset для 25-пользовательской организации регулярно выходит $30–40k/год, в основном за счёт труда, а не хостинга.
Вывод неприятный, но честный: для команд меньше ~100 человек, которым нужны RLS / SSO, Metabase Pro часто дешевле, потому что «операционный налог» Superset доминирует в TCO. Баланс резко переворачивается, когда (а) Kubernetes-платформа у вас уже есть и маржинальная стоимость Superset мала, или (б) вы масштабируетесь за несколько сотен пользователей, где per-user-ценник Metabase или нижний порог Enterprise начинают доминировать.
3. Архитектура там, где это действительно важно
Пропускаем «у обоих есть дашборды». Ниже — то, что реально меняет инженерные решения.
3.1 Стек и runtime-модель
- Superset — unbundled Python/Flask веб-приложение с React- фронтом, пулом Celery-воркеров, Celery Beat для расписания, опциональным headless Chrome (через Playwright) для рендера алертов и stateful-зависимостями на Redis + Postgres/MySQL. Каждый компонент масштабируется отдельно — и ломается отдельно. Архитектура явно cloud-native: официальный Helm-чарт — референсный production-деплой.
- Metabase — одно Clojure-приложение на JVM. Можно поднять через
docker run -d -p 3000:3000 metabase/metabaseи получить рабочий BI-инструмент за минуты. Стейт живёт в application DB (по дефолту H2, в проде — Postgres/MySQL); нет внешней очереди, нет воркер- пула, нет дополнительных сервисов. Обновления — обычно «подменить JAR, перезапустить».
Следствие: Metabase выводит вас к «рабочему дашборду» за полдня. Superset — к production-grade платформе за неделю работы инженера, знающего Kubernetes. Именно эта дельта, а не feature-by-feature сравнение, объясняет, почему в одной организации эти инструменты обычно занимают разные слоты.
3.2 Парадигма запросов и моделирование
- Superset — SQL-first. SQL Lab — полноценный workbench:
multi-tab редактор, история запросов, просмотрщик метаданных, CTAS,
прямой путь от результата запроса к сохранённому датасету и
графику. Датасеты — либо физические таблицы, либо виртуальные
SQL-объекты; метрики и вычисляемые столбцы живут на датасете;
Jinja-шаблоны позволяют подставлять
{{ current_user_id() }}, URL-параметры, ролевые фильтры в SQL на рантайме. Не-SQL-аналитики пользуются chart explorer, но центр тяжести платформы всё равно SQL. - Metabase — visual-first. Query Builder закрывает джойны, фильтры, агрегации и кастомные колонки без SQL — реально полезно для не-технических пользователей. Нативный SQL-редактор есть, но по эргономике (нет multi-tab, слабее история, нет CTAS) заметно отстаёт от SQL Lab. Semantic-layer-слой («Data Studio») позволяет админам централизованно описать метрики и сегменты и переиспользовать их в UI.
Грубая эвристика: если «у нас аналитики пишут SQL каждый день» — Superset окупается. Если «большинство пользователей откроют дашборд и соберут один ad-hoc график» — visual-first-флоу Metabase даёт заметный выигрыш в продуктивности.
3.3 Визуализации
- Superset рендерит через Apache ECharts плюс горсть legacy- D3-чартов, и даёт плагин-систему для кастомных React-графиков. Каталог широкий — бары, линии, time series с прогнозом, pivot- таблицы, heatmaps, geo, Sankey, chord. Pixel-perfect-форматирование — не сильная сторона, зато потолок для кастомов очень высокий.
- Metabase поставляет более чистый, но узкий каталог — примерно те типы графиков, которыми продуктовые аналитики пользуются ежедневно, отполированные. Пользователи обычно описывают его как «широкий, но неглубокий на экзотике». Сопоставимой плагин-системы для кастомных визуалов нет.
3.4 Алерты и расписания
- Superset: Celery Beat планирует задания; headless Chrome (Playwright) рендерит графики/дашборды; доставка через SMTP или Slack. Поднять это чисто в проде — реальная работа: оркестрация headless-браузера — известное слабое место, а встроенный алертинг честно «базовый»: threshold-мониторинг минимальный, команды в итоге пишут свои Slack-флоу поверх Superset API для чего-то сложного.
- Metabase — первоклассные расписанные subscriptions и threshold- алерты на email / Slack, настраиваются из UI, никаких воркер-пулов подкручивать не надо. Это одно из мест, где разница в полировке видна острее всего.
3.5 Embedded analytics
- Superset:
@superset-ui/embedded-sdkс guest-токенами (JWT), iframe + postMessage, CSS-темы, полный контроль над host-app ↔ визуал взаимодействиями. Apache 2.0 означает, что можно встраивать в коммерческий продукт без per-end-user лицензионного счёта — но только на самохосте. В managed-варианте у Preset встраивание стартует от $500/мес за 50 viewer-лицензий, и это ломает экономику. - Metabase даёт Static embedding в OSS (подписанные URL, без per-user-интерактивности) и Interactive embedding на тарифе Pro, плюс white-label. «Data sandboxing» (термин Metabase для multi-tenant RLS) спроектирован специально под B2B SaaS, где каждый клиент видит свой срез одного дашборда. Это один из сильнейших сценариев Metabase.
Для embedding-а в масштабе решение диктуется лицензионной моделью и RLS. Если можете самостоятельно хостить Superset и у вас в хранилище уже есть tenant-scoped-контракты — Superset дешевле за viewer-а. Если нужен turnkey multi-tenant SaaS-embed без эксплуатации — Metabase Pro честный ответ.
3.6 Коннекторы к данным
- Superset коннектится через SQLAlchemy / DB-API диалекты: BigQuery, Snowflake, ClickHouse, Redshift, Databricks, Postgres, MySQL, Trino, Athena и десятки других — через PyPI-пакеты.
- Metabase поставляет курированный набор «официальных» драйверов (Snowflake, BigQuery, Redshift, Postgres, MySQL, MongoDB, SQL Server, Databricks и др.) и экосистему community-драйверов для всего остального (DuckDB, ClickHouse, CSV и т.д.). Community-драйверы — install-at-your-own-risk: Metabase не ручается за их безопасность или производительность, поломки при апгрейдах случаются регулярно.
Если хранилище на mainstream-диалекте облака — работает и то, и другое. Если у вас что-то необычное (ClickHouse, Trino, Presto, Druid, DuckDB, SingleStore) — SQLAlchemy-модель Superset обычно менее хрупкий путь.
4. Governance, безопасность, аутентификация
Именно тут лицензионная модель светит сильнее всего. Superset считает governance частью ядра; Metabase — апселлом.
4.1 Аутентификация
- Superset отдаёт аутентификацию Flask-AppBuilder (FAB). Из
коробки: БД-пользователи, OAuth2 / OIDC (с PKCE), LDAP, SAML (через
аддоны),
REMOTE_USERдля header-based интеграций. SSO — бесплатно. - Metabase OSS поддерживает только Google auth и LDAP. SAML, OIDC и SCIM требуют тариф Pro ($575/мес base). Для средних организаций на Okta, Azure AD/Entra или любом enterprise-IdP это фактически означает: «Metabase стартует от $575/мес».
4.2 Авторизация, row-level security, governance
- Superset даёт role-based access control через FAB (роли получают права на views / меню / датасеты) и Row-Level Security в виде SQL-фильтров, привязанных к ролям или атрибутам пользователя. Плюс есть флаг Dashboard RBAC — роль можно привязать напрямую к дашборду, переопределив права на уровне датасета (полезно для executive-дашбордов поверх чувствительных таблиц). Всё это — в OSS-редакции.
- Metabase OSS даёт базовые group-based права на просмотр / создание запросов. Row- и column-level security («data sandboxing») — только Pro. Audit logs — только Pro. Для любой организации с compliance-требованиями (SOC 2, HIPAA, любое «кто куда смотрел») — Metabase OSS фактически не вариант.
Грубая эвристика: если governance — жёсткое требование, а бюджет $0, Superset — единственный настоящий ответ. Если бюджет есть и важна простота governance-а, group-based RLS Metabase Pro эргономически куда проще настроить, чем SQL-filter-RLS Superset — ценой меньшей выразительности.
4.3 Аудит и lineage
- Superset логирует действия и запросы в метадатную БД; экспорт в ELK / Loki / Splunk — по месту. Lineage и каталог — внешние инструменты (DataHub, OpenMetadata, dbt docs).
- Metabase Pro поставляет usage analytics и audit logs как first-class-фичу. Lineage через внешние объекты — нативно нет.
5. Развёртывание и day-2 эксплуатация
Superset (самохост)
- Референсный вариант: официальный Helm-чарт на Kubernetes или Docker Compose для меньших установок.
- Runtime-компоненты: web, worker (Celery), beat (Celery Beat), опционально контейнер с headless Chrome, Redis, метадатный Postgres.
- Хардкодить
SECRET_KEYвsuperset_config.py— явный production- footgun: генерируйте черезopenssl rand -base64 42, храните в секрет-менеджере, ротируйте при компрометации. - Обновления: у каждого минорного релиза свой
UPDATING.mdс breaking changes, переименованиями конфигов и ручными миграциями. Читать его — не опция. - Честно: самохост Superset — это реальный инфра-проект, а не
вечерний
docker-compose up.
Metabase (самохост)
- Референсный вариант: один контейнер,
docker run -d -p 3000:3000 metabase/metabase. В проде application DB держите на Postgres/MySQL, а не на дефолтной H2. - Реальные операционные заботы:
- Тюнинг JVM-кучи. На масштабе большие result-set-ы и сложные
запросы неплохо бьют по памяти;
JAVA_OPTS(Xms / Xmx) иMB_JETTY_MAX_THREADS— основные ручки. Неправильно сконфигурированный heap — самый частый источник тормозов и крашей. - Обновления — обычно «swap JAR / новый образ, перезапуск», application DB мигрирует сама.
- Тюнинг JVM-кучи. На масштабе большие result-set-ы и сложные
запросы неплохо бьют по памяти;
- Serialization (экспорт/импорт дашбордов и настроек в YAML для git-based-промоушна окружений) — только в Pro. Важно, если хочется SDLC-процесс staging→prod для аналитики.
| Параметр | Apache Superset 4.x | Metabase |
|---|---|---|
| Время до первого дашборда | Часы (прод: дни) | Минуты (прод: часы) |
| Число runtime-компонентов | 5–6 (web, worker, beat, Redis, DB, опц. браузер) | 1–2 (app, DB) |
| Профиль апгрейдов | Ручной, migration-aware (UPDATING.md) | JAR swap / Cloud auto |
| Основной вид сбоя | Celery / headless Chrome; upgrade drift | JVM heap pressure на масштабе |
| Git-промоушн | Нативно через метадату и YAML-экспорт | Только в Pro (Serialization) |
6. Реальный масштаб — трейсаемые сигналы
Проверка реальностью, где сейчас работает каждый инструмент, по инженерным блогам, а не вендорским слайдам.
Apache Superset — кейс Airbnb
Airbnb — основная публичная референсная история, с конкретными цифрами для Superset-развёртывания в реальном масштабе:
- Тысячи еженедельных пользователей; десятки тысяч запросов SQL Lab в неделю; более ста тысяч просмотров графиков в неделю.
- Cache-warmup job на Apache Airflow, который программно прогревает популярные дашборды в off-peak часы и выходит на 86% cache hit rate для Presto-чартов.
- Domain sharding, обходящий browser-level лимиты соединений на origin: запросы графиков маршрутизируются через четыре поддомена, чтобы позволить больше одновременных запросов на дашборд.
Dropbox, Lyft и другие публично описывают схожие паттерны: Dropbox перенёс более десяти legacy-инструментов визуализации на Superset; Lyft гоняет его против Presto/Hive с плановым пересозданием нод для стабильной производительности; ASF указывает American Express, Nielsen и X/Twitter среди видных пользователей.
Metabase — embedded и SMB-кейс
На практике Metabase доминирует в двух сегментах:
- SMB и продуктовые команды, впервые внедряющие BI — история
«максимально быстрое время от
docker runдо шаренного дашборда» реальна, и она во многом объясняет кривую внедрений. - B2B SaaS embedded analytics. Multi-tenant data-sandboxing, Pro-флоу встраивания и white-label складываются в хорошо укатанный путь «отдать каждому клиенту свои дашборды». Публичные референсы склоняются именно к этому — product analytics внутри SaaS-продуктов, а не централизованный внутренний BI на тысячи сотрудников.
Ни один из инструментов уже не «слишком маленький для серьёзного использования». Просто референсные точки масштаба у них разной формы: масштаб Superset доказан инженерно-ведомыми внутренними развёртываниями на тысячи пользователей; масштаб Metabase — тысячами SaaS-продуктов, встроивших его для своих клиентов.
7. Честные слабости
Apache Superset
- Операционные накладные — реальность. Команды регулярно описывают эксплуатацию Superset как «подработку на полставки»: тюнинг Celery, квирки headless Chrome, миграции метадаты при минорных апгрейдах, ротация секретов.
- SQL-барьер для не-технических пользователей. Explorer помогает, но центр тяжести инструмента — SQL; не-SQL-аналитикам тут труднее, чем в Metabase.
- Встроенный алертинг — базовый. Threshold-мониторинг и гибкость уведомлений отстают и от встроенных алертов Metabase, и от выделенных observability-инструментов. Команды часто в итоге пишут свои Slack-флоу поверх API.
- Пробелы в полировке UI. Фильтры, интерактивность дашбордов и exec-ready-стиль заметно отстают от коммерческого BI — и от Metabase для не-технической аудитории.
- Долго не чинящиеся баги. Комьюнити-ветки регулярно отмечают, что давно висящим багам долго ждать фиксов — особенно в менее используемых типах графиков и нишевых интеграциях.
Metabase
- Governance-пейволл. SSO (SAML/OIDC), SCIM, row- и column-level security, audit logs, white-label-embedding — всё это за Pro ($575/мес base). Любая команда, которой «нужен всего-то SSO», платит за весь пакет.
- Управление JVM-памятью на масштабе. Жалоба #1 при росте:
большие запросы или большие result-set-ы разрывают heap, а
диагностика — это JVM-тулинг (GC-логи, heap-дампы,
MB_JETTY_MAX_THREADS). - Глубина визуализаций. Широкий-но-неглубокий каталог; сложные multi-join-отчёты и необычные типы графиков отваливаются быстрее, чем в Superset.
- Community-драйверы — install at your own risk. Если вашего хранилища нет в официальном списке, риск апгрейдов вы наследуете.
- AGPL v3. Нормально для внутреннего самохоста; потенциально проблемно, если хотите встроить Metabase в продукт, который распространяете, — коммерческая лицензия существует именно для этого случая, и ответ фактически «переходите на Pro или договаривайтесь о коммерческом соглашении».
8. Когда что выбирать
| Выбирайте Apache Superset, если… | Выбирайте Metabase, если… |
|---|---|
| Аудитория SQL-fluent — data-инженеры, аналитики, продуктовые команды. | Аудитория — не-технические бизнес-пользователи, которым важно самим собирать графики. |
| Нужны тысячи зрителей без per-seat-лицензий и вы готовы к самохосту. | Нужен BI-инструмент, поднятый за день, а не Kubernetes-проект на неделю. |
| Governance — жёсткое требование и бюджет $0: RLS, SSO, аудит. | Нужен multi-tenant embedded analytics для B2B SaaS-продукта. |
| Нужны глубокие кастомные визуализации (плагин-система, ECharts, кастомный React). | Нужен отполированный дефолтный UX с минимумом конфигов. |
| Дата-платформа уже SQL/warehouse-first и нужен first-class SQL Lab. | Есть бюджет на Pro и хочется turnkey SSO, RLS, audit, white-label. |
| Платформенная команда потянет операционную и upgrade-нагрузку. | Хочется managed Cloud с автообновлениями и бэкапами. |
| Встраиваете в продукт, который продаёте, и нужна Apache 2.0-лицензия. | Готовы к AGPL / берёте коммерческую лицензию и хотите RLS-модель Metabase. |
9. TL;DR для нетерпеливых
Оба инструмента честно хороши. Они оптимизируют разное.
- Superset — лучший ответ для SQL-first, engineering-led организаций, которым нужен настоящий governance на нулевом бюджете лицензий, глубокие кастомные дашборды в масштабе или встраивание OSS-аналитики в продукты, которые они продают. Цена — операционная сложность и менее отполированный UX для не-технической аудитории.
- Metabase — лучший ответ для команд, которым BI-инструмент нужен работающим к концу дня, обслуживающих не-техническую аудиторию или строящих multi-tenant embedded analytics в SaaS-продукт. Цена — governance-пейволл (практически всё, что нужно предприятию: SSO, RLS, аудит — за $575/мес Pro) и менее глубокий потолок по визуализациям.
Честные решающие вопросы: кто пишет основную часть анализа — инженеры или бизнес-пользователи?, бюджет на лицензии — нулевой или нет?, сколько операционной ёмкости у команды? Ответы довольно однозначно ведут к одному или другому инструменту, настоящего перекрытия в середине почти нет.
Ссылки
- Apache Superset — Официальная документация ·
GitHub-репозиторий ·
UPDATING.md· Helm-чарт · Embedded SDK · Security docs · Alerts & Reports - Preset (managed Superset) — Pricing
- Metabase — Pricing · GitHub-репозиторий · Row & column security · Community drivers · Условия лицензии
- Apache License 2.0 — полный текст
- AGPL v3 — полный текст
- Airbnb engineering — Supercharging Apache Superset
- Смежные посты — Superset vs Tableau · Superset vs Power BI · GitOps для Superset-датасетов