Apache Superset vs Microsoft Power BI
инженерное сравнение для команд, выбирающих BI-стек внутри — или вне — орбиты Microsoft
Где выполняются запросы, как на самом деле ведёт себя цена Fabric-капасити, что означает lock-in в Entra ID на практике и чем отличается лицензирование embedded — технический разбор для инженеров, а не маркетинговая воронка.
Большинство статей «Superset vs Power BI» в интернете относятся к одному из двух жанров: маркетинг вендоров с тонким слоем pros/cons или SEO-наполнение от людей, которые ни один из этих инструментов в проде не тащили. Эта — для инженера, которому придётся выбрать BI-стек и потом с ним жить: платить за лицензии, дежурить на пейджере, держать контракт с хранилищем и выдерживать уровень терпения стейкхолдеров.
Оба инструмента рисуют дашборды. На всём остальном они расходятся. Power BI — глубоко встроенная часть стека Microsoft: Entra ID для идентити, OneLake для хранения, Fabric для вычислений, Purview для governance. Apache Superset — тонкий open-source SQL-слой над хранилищем, которое у вас и так уже есть. Этот архитектурный зазор определяет всё остальное: стоимость, governance, профиль найма, характер сбоев.
1. Коротко о продуктах
Apache Superset — open-source платформа data exploration и
визуализации, Top-Level Project в Apache Software Foundation,
распространяется под лицензией Apache License 2.0. Кодовая база
лежит на github.com/apache/superset —
высоконагруженный репозиторий (70k+ звёзд, широкая база контрибьюторов
с сильным представительством Preset, Airbnb, Lyft, Dropbox). Линейка
4.x — стабильная база, которую держат в проде большинство команд;
проект выпускает минорные релизы несколько раз в год с обязательным
UPDATING.md для каждого breaking change.
Microsoft Power BI в 2026 году — это уже не самостоятельный продукт, а одна из «experiences» внутри Microsoft Fabric, единой SaaS-платформы, объединившей Power BI Premium-капасити, Synapse, Data Factory, Real-Time Analytics и OneLake под общим биллингом и governance. На практике вы потребляете:
- Power BI Desktop — бесплатный Windows-only инструмент авторинга.
- Power BI Service — SaaS-тенант на
powerbi.com, доступный по per-user лицензиям Pro / PPU или через запуск контента на Fabric-капасити. - Power BI Report Server — on-prem сервер для заказчиков, которые не могут вынести отчётность в облако.
- Power BI Mobile — нативные приложения iOS / Android.
Важный сдвиг: старых Premium P-SKU больше нет. Всё, что раньше требовало P1/P2/P3, теперь работает на Fabric F-SKU, которые билятся как Azure-ресурсы, а не как M365-подписка.
2. Цены — честные цифры
Power BI распадается на per-user лицензии для малых и средних
команд и Fabric-капасити для организационного масштаба. Цены ниже
взяты с microsoft.com/power-bi/pricing и
azure.microsoft.com/pricing/details/microsoft-fabric (USD,
pay-as-you-go, помесячно, если не указано иное).
2.1 Per-user лицензии
| Лицензия | Цена | Что получаете |
|---|---|---|
| Power BI Pro | $10 / юзер / мес | Авторинг + потребление в shared capacity. |
| Premium Per User | $20 / юзер / мес | Pro-фичи плюс paginated reports, модели до 100 GB, AI-фичи, deployment pipelines. |
| Fabric Free | $0 | Только просмотр — полезен только если у тенанта есть капасити F64+. |
2.2 Fabric-капасити (F-SKU)
F-SKU заменили старые P-SKU. Это Azure-ресурсы: вы платите посекундно, пока они запущены, и можете ставить на паузу / возобновлять из Azure-портала. Мощность измеряется в Capacity Units (CU); 1 CU ≈ 0.125 v-core в старой мерке Power BI.
| SKU | CU | Legacy-эквивалент | Месяц PAYG (≈) | Reserved (≈) |
|---|---|---|---|---|
| F2 | 2 | — | $262 | $156 |
| F8 | 8 | EM1 / A1 | $1 051 | $625 |
| F32 | 32 | EM3 / A3 | $4 205 | $2 501 |
| F64 | 64 | P1 / A4 | $8 410 | $5 003 |
| F128 | 128 | P2 / A5 | $16 819 | $10 005 |
| F256 | 256 | P3 / A6 | $33 638 | $20 011 |
| F512 | 512 | — | $67 277 | $40 021 |
| F1024 | 1024 | — | $134 554 | $80 043 |
Цены округлены. Обязательно сверяйтесь с Azure-прайсинг страницей на момент подписи — Microsoft меняет цены по регионам и reserved-скидки тоже сдвигаются.
Два порога F-SKU важнее всех остальных:
- F64 — это граница «бесплатных зрителей». На F64+ пользователь с бесплатной Fabric-лицензией (или ролью viewer) может потреблять Power BI-контент без Pro/PPU. Ниже F64 — каждому консьюмеру нужна платная лицензия. Именно в этот обрыв упирается каждый средний бизнес: где-то между 50 и 500 конечных пользователей приходится выбирать между оплатой per-user Pro/PPU и ~$8.4k/мес за F64.
- Power BI Embedded для внешних приложений исторически жил на A-SKU (почасовой биллинг, от ~$735/мес за A1). В новых развёртываниях Microsoft подталкивает заказчиков к F-SKU и для embedded-сценариев.
Для квалифицированных тенантов доступен 60-дневный Fabric-триал, эквивалентный F64, — достаточно, чтобы серьёзно обкатать платформу до покупки.
2.3 Apache Superset
Apache Superset — $0 за лицензию под Apache 2.0. Реальный TCO — это люди и инфраструктура:
- Compute: веб-серверы + Celery-воркеры + Celery Beat + опционально headless Chrome для алертов/отчётов.
- Stateful: метадатная БД (Postgres или MySQL), Redis (или другой Celery-брокер + backend для результатов).
- Ops: кто-то, кто умеет читать
UPDATING.md, запускать Alembic-миграции и разгребать Celery-бэклоги. Эта роль — реальная, заложите её в бюджет.
Если Superset хочется, но эксплуатировать его самим — нет, Preset и другие вендоры продают managed-варианты: часть людских затрат меняется на per-user подписку — вендор возвращается в контур, но уже на ваших условиях.
2.4 Где пересекается линия лицензий
История «Superset vs Power BI» по цене — это не «open source дешевле». Это: точка безразличия сильно сдвигается от числа зрителей и от того, кто владеет хранилищем.
- Сотня авторов и пара сотен зрителей в M365-нативной организации? Per-user Pro — нормально; самохост Superset не окупает headcount.
- Тысячи зрителей или external embedding? Per-user или F-капасити цена Power BI становится болезненной, а плоский инфра-CAPEX Superset превращается в разумный путь.
- Большие инвестиции в хранилище (Snowflake, BigQuery, Databricks SQL, ClickHouse)? Superset опирается на compute, который вы уже и так оплачиваете; Power BI в Import / Direct Lake дублирует его копию в Fabric.
3. Архитектура там, где это действительно важно
Пропускаем «у обоих есть дашборды». Ниже — то, что реально меняет инженерные решения.
3.1 Где на самом деле выполняются запросы
- Superset — тонкий слой над хранилищем. Каждый график — это SQL, уходящий через SQLAlchemy / DB-API в Snowflake, BigQuery, Databricks, ClickHouse, Postgres, Trino и т.д. Своего storage-движка у Superset нет. Производительность вашего хранилища и есть производительность Superset.
- У Power BI есть собственный колоночный in-memory движок —
VertiPaq — и над ним многомодельная история хранения:
- Import. Данные копируются в semantic-модель и сжимаются VertiPaq. Максимально быстрая интерактивность, но модель нужно обновлять по расписанию.
- DirectQuery. Каждый визуал идёт запросом в источник. Свежо, но медленнее, и упирается в хранилище / сеть.
- Direct Lake (только Fabric). VertiPaq читает Delta-Parquet файлы напрямую из OneLake через «framing» по метаданным. Фактически скорость Import без рефрешей — флагманская фича Fabric.
- Composite models. Миксование Import, DirectQuery и Direct Lake в одном отчёте; полезно на практике, сложно рассуждать.
Следствие: если организация уже относится к хранилищу как к источнику истины и вкладывается в него (dbt, материализации, правильный кластеринг), Superset бесплатно наследует эту работу. Гибкость Power BI стоит второго места, где живут данные — VertiPaq-модели — это отдельный объект для ваших data-инженеров: версионировать, обновлять, защищать.
3.2 Семантический / метрический слой
- Датасеты Superset — это либо физические таблицы, либо виртуальные
SQL-объекты. Метрики, вычисляемые столбцы и Jinja-шаблоны
(например
{{ current_user_id() }}) определяются на уровне датасета. Лёгкий слой — прост для понимания, легко кладётся под Git (см. наш GitOps-пост про один из воркфлоу). Трансформации — в dbt / хранилище; Superset в основном их не дублирует. - Семантическая модель Power BI — прямой потомок SQL Server Analysis Services. Получаете полноценную многомерную модель со связями, иерархиями и DAX-мерами, плюс Power Query (M) для трансформаций на этапе ingestion. Богато и проверено временем — но DAX — специализированный язык, и команды без выделенного Power-BI-архитектора регулярно делают меры неявно неправильно (time intelligence, filter context, row-level vs filter-level evaluation).
Если метрики должны лежать в Git с код-ревью — Superset (в связке с dbt в хранилище) куда меньше боли. Если нужно глубокое многомерное моделирование с parent-child иерархиями и не-SQL аналитиками, строящими сложные расчёты, DAX/M-мир Power BI даёт реальные возможности — ценой отдельного кадрового пайплайна.
3.3 Выполнение запросов, обновления, кеш
- Superset всё проталкивает в хранилище. Долгие запросы выполняются асинхронно через Celery, результаты ложатся в Redis-кеш, превьюшки — в отдельный кеш. Узкие места в двух местах: перегрузка хранилища и неправильный сайзинг Celery-воркеров.
- Power BI жонглирует тремя путями исполнения в зависимости от режима: VertiPaq обсчитывает Import и Direct Lake в памяти, DirectQuery уходит в источник, composite-модели маршрутизируются по таблицам. Мониторинг капасити идёт через Microsoft Fabric Capacity Metrics app — основной инструмент, чтобы заметить троттлинг, эвикшены и долгие рефреши.
Сбои выглядят по-разному. Superset обычно падает, потому что хранилище перегружено или воркер-пул недосайзирован. Power BI чаще падает на перегрузке капасити — тяжёлый рефреш съедает CU-бюджет, и интерактивные отчёты замедляются по всему тенанту. Autoscale есть; он же может незаметно удвоить счёт.
3.4 Визуализации
- Superset рендерит через Apache ECharts плюс горсть legacy D3-чартов, и даёт плагин-систему для кастомных React/TypeScript графиков. Каталог широкий — бары, линии, time series с прогнозом, pivot-таблицы, heatmaps, geo. Pixel-perfect-форматирование — не сильная сторона.
- Power BI поставляется с большим встроенным каталогом плюс AppSource для community/коммерческих визуалов и SDK для кастомов (R, Python, TypeScript). Drag-and-drop-форматирование до сих пор задаёт планку для не-технических авторов; «условное форматирование по мере» — это два клика, а не пятьдесят строк SQL.
3.5 SQL-редактор
- У Superset есть SQL Lab: multi-tab редактор, история запросов, просмотрщик метаданных, «Create Table As Select» и прямой путь от результата запроса к сохранённому датасету и графику. Это реальная причина, по которой инженеры мирятся с шероховатостями Superset в других местах.
- У Power BI нет полноценного SQL-редактора. DAX Query View позволяет запрашивать семантические модели на DAX; Power Query — визуальный M с текстовым fallback; глубокое ad-hoc-исследование на SQL живёт в SSMS / Azure Data Studio / Synapse / IDE вашего хранилища.
3.6 Алерты и расписания
- Superset: Celery Beat планирует задания; headless Chrome (через Playwright) рендерит графики/дашборды; доставка через SMTP или Slack. Поднять это чисто в проде — реальная работа; оркестрация headless-браузера — известное слабое место, а квирки с шрифтами и раскладкой — регулярный саппорт-канал.
- Power BI: первоклассные subscriptions, data-driven alerts и плотная интеграция с Power Automate для чего-то сложнее. Email- дайджесты, карточки в Teams, триггерные воркфлоу — всё укатанный путь, настраивается из UI.
3.7 Embedded analytics
- Superset:
@superset-ui/embedded-sdkс guest-токенами (JWT), iframe + postMessage, CSS-темы, полный контроль над взаимодействием host-app → визуализация. Apache 2.0 означает, что можно встраивать в коммерческий продукт без per-end-user лицензионного счёта. Для SaaS-вендоров это часто решает вопрос. - Power BI Embedded исторически жил на A-SKU с почасовой оплатой в Azure; новые развёртывания всё чаще заводят на Fabric F-SKU. «App owns data» со service principal работает чисто и хорошо задокументировано, но каждый конечный пользователь либо потребляет с вашего капасити (и вы платите за CU-бюджет), либо ему нужна Pro-лицензия — что в multi-tenant SaaS неприемлемо.
Если встраиваете в продукт, который перепродаёте, — модель лицензирования сама решает этот вопрос в подавляющем большинстве случаев.
3.8 Мобильные клиенты
- Superset: адаптивные дашборды в обычном браузере. Нативного мобильного приложения нет; «mobile BI» не является частью идентичности проекта. Команды пишут свои обёртки или смиряются с тем, что на телефоне — веб-вью.
- Power BI: отдельные приложения Power BI Mobile для iOS и Android с биометрией, офлайн-кешем, телефонными раскладками и push-уведомлениями. Плюс Microsoft Intune Mobile Application Management оборачивает приложение DLP-политиками — полезно в регулируемых средах.
4. Governance, безопасность, аутентификация
4.1 Идентити и аутентификация
- У Power BI жёсткая зависимость от Microsoft Entra ID (бывший Azure AD). Без Entra-тенанта Power BI просто не развернуть — все пользователи, группы, service principals, Conditional Access и MFA идут через него. В M365-организациях это бесшовно. В мульти-облачных или identity-federated средах — это несущая зависимость, о которой стоит говорить вслух.
- Superset отдаёт аутентификацию Flask-AppBuilder (FAB). Из
коробки: БД-юзеры, OAuth2 / OIDC (с PKCE), LDAP, SAML (через
аддоны),
REMOTE_USERдля header-based интеграций. Любой OIDC-совместимый IdP подключится — Okta, Keycloak, Auth0, тот же Entra ID, самописный IdP.
Если ваша identity-стратегия — не «всё в Entra», Superset — более нейтральный выбор.
4.2 Авторизация, row-level security, governance данных
- Superset даёт role-based access control через FAB (роли получают права на views / меню / датасеты) и Row-Level Security в виде SQL-фильтров, привязанных к ролям или атрибутам пользователя. Для embedded — guest-токены могут нести per-session RLS-правила. Глубже — data catalog, lineage, data contracts — уже в сторонних инструментах (DataHub, OpenMetadata, dbt docs).
- Power BI втаскивает богатый governance прямо в платформу: RLS и OLS (object-level security) через DAX-выражения в семантической модели; нативная интеграция с Microsoft Purview для каталога и lineage; sensitivity labels, которые сохраняются при экспорте в Excel/PDF и триггерят DLP в общем M365 compliance- стеке. Вместе с Intune MAM на мобильных — самая интегрированная governance-история на рынке; и работает она только при условии, что остальной стек тоже Microsoft.
Грубая эвристика: Superset заставляет быть честным о том, где живёт governance (обычно в хранилище и ваших инструментах). Power BI позволяет положить governance прямо в BI-инструмент — ценой обязательства по всей data/compliance-платформе Microsoft.
4.3 Аудит и lineage
- Superset логирует запросы и просмотры дашбордов в метадатную БД; экспорт в ELK / Splunk / Loki — по месту. Lineage и impact-анализ — внешние инструменты.
- Power BI / Fabric отдаёт activity logs через M365 compliance center; Purview даёт lineage поверх всех Fabric-объектов и Power-BI-артефактов на уровне тенанта.
5. Развёртывание и day-2 эксплуатация
Superset (самохост)
- Референсные варианты: официальный Helm-чарт на Kubernetes или Docker Compose для меньших установок.
- Runtime-компоненты: web, worker (Celery), beat (Celery Beat), опционально контейнер с headless Chrome для алертов/отчётов, Redis, метадатная БД.
- Обновления: у каждого минорного релиза есть свой
UPDATING.mdс breaking changes, переименованиями конфигов и ручными миграциями. Читать его — не опция. - Честно: самохост Superset — это реальный инфра-проект, а не
вечерний
docker-compose up. Заложите людей или купите managed.
Power BI / Fabric
- SaaS по умолчанию. Power BI Service и Fabric — консьюмерские продукты: серверы не патчить, Kubernetes не держать. Капасити — ручка в Azure-портале: пауза, возобновление, скейл, включение autoscale bursting — всё из веб-UI или ARM-шаблонов.
- On-premises Data Gateway — единственный кусок инфры, которым управляет заказчик: небольшой Windows-сервис (Personal или Enterprise mode), который мостит Power BI Service к источникам за файрволом.
- Power BI Report Server существует для организаций, которые физически не могут унести отчётность в облако (суверенные нагрузки, изолированные сети). Выходит примерно раз в год и сознательно отстаёт от Cloud по фичам.
- Day-2 ops крутится вокруг управления капасити, а не администрирования серверов. Fabric Capacity Metrics app — первая остановка, когда пользователи жалуются на медленные отчёты: троттлинг и CU-перерасход видно там сразу.
6. Реальный масштаб — трейсаемые сигналы
Небольшая проверка реальностью, где сейчас работают оба инструмента, на основе инженерных блогов и публичных раскрытий, а не вендорских слайдов.
Apache Superset
- Airbnb (прародители проекта) масштабировали Superset до тысяч пользователей и задокументировали стратегию прогрева кеша через Apache Airflow с 86% cache hit rate для Presto-чартов.
- Dropbox заменили 10+ legacy-инструментов визуализации на Superset и публично описали миграцию, выделив переиспользуемые метрики и SQL-first воркфлоу.
- Lyft гоняет Superset против Presto / Hive с пересозданием нод каждые 24 часа, чтобы держать стабильную производительность.
- Проект указан ASF как активно используемый в American Express, Nielsen, X/Twitter и других.
Microsoft Power BI / Fabric
- На Q2 FY2026 earnings call Microsoft сообщил, что Fabric пересёк отметку в $2 млрд annual recurring revenue за два года после GA, 31 000 клиентов, +60% YoY — самый быстро растущий продукт в аналитическом портфеле.
- Выручка Microsoft Cloud пересекла $51.5 млрд в Q2 FY2026 (+26% YoY) во многом за счёт Fabric / AI.
- Более 90% Fortune 500 используют M365 Copilot, где Power BI — основная аналитическая поверхность.
Обе цифры важны по-разному. Масштаб Superset подтверждён конкретными инженерными развёртываниями с трейсаемой архитектурой; масштаб Power BI — тем, что тысячи организаций раскатили его по всему предприятию, и большинство из них инженерные блоги не пишут.
7. Честные слабости
Apache Superset
- Обновления — не fire-and-forget. Миграции метадаты и переименования конфигов между минорами 4.x — регулярный операционный налог для команд, которые отстают на несколько релизов.
- Alerts & Reports (headless Chrome + Celery Beat) — частый источник инцидентов: квирки рендера, таймауты, шрифты.
- Фильтры и полировка дашбордов заметно отстают от Power BI для не-технических потребителей; команды, обслуживающие топов, иногда оставляют Superset для внутреннего исследования и отдельно рисуют витрину для руководства.
- Governance из коробки — тонкий. Lineage, каталог, sensitivity labels, DLP — всё снаружи, и всё надо проводом соединять.
- Нет нативного мобильного приложения. Только адаптивный веб.
Power BI / Fabric
- Авторинг только в Windows. Power BI Desktop не работает нативно на macOS/Linux. Инженерные команды с Mac/Linux живут в Parallels, VM или веб-моделировании — компромисс.
- Lock-in в Entra ID. Идентити тут не pluggable.
- Ценовой обрыв F64. Ниже F64 — платная лицензия каждому зрителю; на F64 — прыжок на ~$8.4k/мес. Для организаций с 50–500 потребителей оба края обрыва некомфортны.
- Подводные камни DirectQuery. Live-запросы маркетятся как ровный путь к real-time; на практике сложные отчёты упираются в производительные обрывы, и визуалы прибывают в слегка разное время — получаются «time-inconsistent» дашборды.
- Отказы по модели капасити. Плохо спроектированная семантическая модель сжигает CU-бюджет и замедляет весь тенант. Диагностика требует реального опыта Fabric-админа.
- Кривая изучения DAX. Специализированный язык; плохие меры выглядят правильно — пока не перестают.
- Связка с Fabric. Современные фичи Power BI (Direct Lake, часть governance) плотно завязаны на Fabric-капасити — то есть решение про BI-инструмент превращается в решение про дата-платформу.
8. Когда что выбирать
| Выбирайте Apache Superset, если… | Выбирайте Power BI, если… |
|---|---|
| Аудитория SQL-fluent — data-инженеры, аналитики, продуктовые команды. | Аудитория — бизнес-пользователи, аналитики, руководство. |
| Нужны тысячи зрителей без per-seat лицензий. | Уже живёте в M365 / Entra ID / Fabric и хотите бесшовный SSO и governance. |
| Встраиваете BI в SaaS-продукт, который перепродаёте. | Нужны из коробки RLS, sensitivity labels, Purview lineage, DLP. |
| Стратегия — warehouse-first с live-запросами, без дублирования данных. | Нужна скорость Direct Lake поверх Delta-Parquet в OneLake. |
| Метрики хотите в Git под код-ревью (через dbt + Superset). | Нужно глубокое DAX-моделирование со связями, иерархиями, time intelligence. |
| Есть платформенная команда, которая потянет Python + Celery + Redis стек. | Хотите, чтобы вендор владел инфрой, апгрейдами, мобильными приложениями и SLA. |
| Identity-стратегия — что угодно, кроме «всё в Entra ID». | Аудитория топов живёт на телефонах и требует отполированных отчётов. |
9. TL;DR для нетерпеливых
Оба работают. Superset оптимизирует по инженерному контролю, нулевой per-user цене и warehouse-first архитектуре ценой того, что его эксплуатируете вы. Power BI оптимизирует по полировке UX, мобильной истории, удобству для руководства и глубоко интегрированному Microsoft-governance ценой per-user / capacity лицензий, lock-in в Entra ID и модели данных, которая нередко дублирует ваше хранилище.
Если вы engineering-led, warehouse-heavy и встраиваете аналитику в продукты, которые продаёте, — ответ Superset, возможно на managed- вендоре, если эксплуатировать самим неохота. Если организация уже живёт внутри M365 / Entra / Fabric, а аудитория BI — бизнес- пользователи и руководство, потребляющие отполированные отчёты, — Power BI отрабатывает свою цену.
Честный ответ на «что выбрать» выпадает из двух вопросов: кто первичные потребители, и ваш identity/compliance-стек уже Microsoft-овский или нет? Остальное — детали.
Ссылки
- Apache Superset — Официальная документация ·
GitHub-репозиторий ·
UPDATING.md· Helm-чарт · Embedded SDK · Alerts & Reports - Power BI — Pricing · Fabric pricing · Fabric licensing guide · Direct Lake overview · DirectQuery · Embedded analytics
- Microsoft финансовая отчётность — FY26 Q2 press release
- Apache License 2.0 — полный текст
- Смежные посты — Superset vs Tableau · GitOps для Superset-датасетов