Kubeflow
Kubeflow是构建Kubernetes上AI平台的工具基础。AI平台团队可以部署单个子项目或完整的Kubeflow社区发行版,以在任何运行Kubernetes的环境中运行机器学习和生成式AI工作负载。它是一个在Cloud Native Computing Foundation下的开源项目,拥有超过33,000个GitHub star和3,000名贡献者。
该平台具有可组合和模块化的特点:每个子项目涵盖AI生命周期的不同阶段,从数据准备到模型服务。Kubeflow Pipelines协调可移植的ML工作流,Kubeflow Trainer处理跨PyTorch、DeepSpeed、JAX等框架的分布式训练和LLM微调,Katib自动化超参数调优和神经网络结构搜索。
平台工程师、ML工程师和数据科学团队使用Kubeflow来标准化模型从实验到在Kubernetes集群上部署的流程。采用者包括AWS、Oracle和Red Hat,这个项目还与生态系统中的工具集成,如用于推理的KServe、特征存储的Feast,以及用于大规模数据处理的Spark Operator。
Kubeflow Pipelines 构建可在任何 Kubernetes 集群上运行的可移植机器学习工作流
Trainer 使用 PyTorch、DeepSpeed、MLX 和 Megatron 在分布式规模上微调大型语言模型(LLMs)
Katib 运行超参数调优、早停和神经架构搜索任务
Notebooks 启动 Jupyter 和 VS Code 环境,支持交互式机器学习开发
Hub 在一个注册中心索引模型版本、工件和元数据
Spark Operator 运行分布式 Spark 任务,实现大规模数据预处理和嵌入
Central Dashboard 连接经过认证的 UI,将所有 Kubeflow 组件聚合在一个中心
模块化子项目让团队只需在现有 Kubernetes 基础设施上采用所需组件。
由 3000 多名贡献者支持,并被 AWS、Oracle 和 Red Hat 采纳用于生产级机器学习平台。
Kubeflow SDK 提供 Python API,无需深入的 Kubernetes 专业知识即可运行训练工作负载。
涵盖完整的 AI 生命周期,从数据准备到训练、调优、注册和服务。
CNCF 项目,拥有活跃的 Slack 频道、邮件列表和每周社区通话。
需要具备Kubernetes运维专业知识才能在生产环境中安装和维护。
项目本身没有托管的SaaS产品;团队需在自己的集群上自托管。
众多子项目的存在可能让新手在初始设置和组件选择时感到不知所措。
Kubeflow 是免费使用的吗?
是的。Kubeflow 是一个由云原生计算基金会(CNCF)托管的开源项目。您可以在任何 Kubernetes 集群上单独部署子项目或完整的 Kubeflow 社区发行版,无需支付许可费用。
Kubeflow 支持哪些 Kubernetes 平台?
Kubeflow 可以部署在任何运行 Kubernetes 的环境。安装文档涵盖了本地集群、云服务提供商以及 Kubeflow 社区发行版(版本1.0至26.03)。
Kubeflow 能对大型语言模型进行微调吗?
可以。Kubeflow Trainer 支持使用 PyTorch、DeepSpeed、MLX 和 BuiltinTrainers 蓝图进行大型语言模型(LLM)微调。GenAI 文档涵盖了监督微调、DPO、PPO、GRPO 和量化感知训练等工作流程。
Kubeflow 主要的子项目有哪些?
核心子项目包括用于工作流编排的 Kubeflow Pipelines,分布式训练的 Trainer,自动机器学习的 Katib,交互式开发的 Notebooks,模型注册的 Hub,数据处理的 Spark Operator,以及作为统一界面中心的 Central Dashboard。
我如何获得 Kubeflow 的支持?
Kubeflow 通过 CNCF Slack 频道、kubeflow-discuss Google 讨论组邮件列表、每周社区电话会议以及官方网站文档(kubeflow.org/docs/started/support/)提供社区支持。
Kubeflow 是否支持如 RAG 这样的 GenAI 用例?
支持。Kubeflow 有关 GenAI 的文档涵盖了检索增强生成(RAG)、合成数据生成、大型语言模型微调、超参数优化以及使用 Pipelines、Trainer、Katib 和 KServe 进行大规模推理的工作流。

