Cedana (YC S23) 正在招聘

Cedana 快速、可靠、可重复的 AI，带 GPU 实时迁移前向部署工程师：AI + HPC $140K - $180K • 0.10% - 0.25% • 美国/远程（美国）工作类型全职角色工程、后端经验 3 年以上 Visa 仅美国公民/签证直接与 YC 资助的最佳初创公司的创始人联系。申请职位 › Neel Master 创始人 Neel Master 创始人关于该职位 Cedana 简介问题 AI 和 HPC 基础设施缺乏且成本高昂，因此当发生故障时，时间和金钱成本高昂。集群生产力直接决定研究产出和收入。由于工作负载、硬件和操作的复杂性，实现高利用率和吞吐量变得越来越具有挑战性。 Cedana 的解决方案 Cedana 通过自动化 GPU 检查点基础设施最大限度地提高了 AI+HPC 集群的利用率和可靠性。我们支持跨实例透明、快速地迁移 GPU 工作负载，而不会丢失工作。工作负载自动迁移以实现新的可靠性和吞吐量水平，同时加快获得结果的时间。我们的系统位于内核/操作系统级别，无需更改代码或配置，并且可以与 Kubernetes、SLURM 和 NVIDIA Dynamo 无缝协作。今天，我们正在部署到领先的推理平台、neoclouds、企业和研究集群。 Cedana 团队的创始团队花费了十多年的时间，让 AI 计算运行快速、高效且可靠。我们的研究发表在 NeurIPS 和 CVPR 上。我们发布了一些最早的形式化方法来保证分布式训练的收敛。在 Shopify，我们部署了仓库自动化和机器人车队，构建了行为树、车队控制平面和 OTA 基础设施，这些基础设施可在受限网络上可靠地运行。我们带来了创建和退出医疗保健人工智能公司的重复创始人经验。您将拥有的角色作为 Cedana 的前沿部署工程师，您将领导并负责端到端的技术参与。您将与客户互动，了解并在他们的环境中进行部署：从大学的生产 SLURM、推理提供商的裸机 Kubernetes、财富 100 强制药企业的混合设置。您将快速了解他们的关键痛点，并使用 Cedana 解决他们的问题。对于每个客户，您拥有从操作系统开始的所有内容：SLURM 插件、Kubernetes 运算符、节点配置、网络和可观察性。该职位将使您接触最先进的人工智能和高性能计算基础设施，与世界领先的研究和商业客户合作，提供突破性的解决方案。您将做什么在客户站点设计解决方案：领导客户集成。在 SLURM、Kubernetes 和 Dynamo 环境中安装、配置和部署 Cedana。从现场推动产品创新：在与客户合作的同时确定技术差距，然后为成为核心产品功能的新功能提供产品反馈。衡量和优化平台性能：使用我们的内部工具衡量可靠性、吞吐量和性能。设计和实施基于策略的迁移自动化，以优化可靠性、吞吐量和性能自己的关键部署：确保我们的平台能够可靠地执行客户的关键操作，调试整个堆栈中的问题。针对不熟悉的客户基础设施调试安装问题，必要时升级为工程人员。提高可扩展性：构建内部安装手册，以便每个细分中的第二个客户比第一个客户更快。尊重我们的客户：了解如何让他们的生活更轻松，最大限度地减少他们的时间和开销。我们正在寻找 3-10 年的软件工程经验，并具有配置和管理 SLURM 部署的跟踪记录。您端到端领导的为期数月的企业或研究部署，从范围界定到签核。您编写有效的状态更新，以使您的团队保持最新状态并按计划进行。在客户或研究环境中支持 SLURM 的生产经验。您已配置 slurmctld、slurmdbd、会计、cgroup 集成和 GPU 资源选择。强大的 Linux 基础知识，包括 systemd、cgroups v2、命名空间、网络、文件系统、内核模块加载、PAM 会话模块。您阅读 strace 和 dmesg 输出并形成假设。有效的 Kubernetes 操作包括操作符、CRD、设备插件、节点级调试。即使您没有从头开始编写控制器，您也已经在生产中调试了控制器。如果您有 HPC 集成商现场团队的经验，则额外奖励直接与客户合作的面向客户的技术经验。具有国家实验室用户服务或大学研究计算背景您已经开发了 SLURM 插件，并了解其架构以及它们如何融入整个平台。熟悉 CRIU、容器运行时、GPU 驱动程序内部结构、分布式训练堆栈亲身实践 NVIDIA Dynamo、Determine、Ray、Kueue、KServe 或类似的 AI 编排

订阅66必读