OpenAI 系统设计电面挂经复盘：GitHub CI 从 YAML 到资源调度的高分答法（附 2026 上岸案例）

Mar 5

Written By Gabby Fox

这是一道高频且杀伤力很强的系统设计题：设计 GitHub Continuous Integration（CI）系统。很多候选人日常在用 CI，却在面试里讲不清“它到底怎么跑起来”，最终失分。

一、原题还原

题目核心是：给定一个 YAML，定义多个 step、依赖关系和每步资源需求，设计一套 CI 系统执行这些任务。

你需要覆盖的不是“跑脚本”，而是完整链路：

YAML 解析与校验
依赖建图（DAG）
资源约束下的调度
执行隔离与安全
失败重试、日志、可观测性

二、为什么这题容易挂

常见失分点只有三个：

只讲“Runner 拉代码后执行”，没有控制面（Control Plane）视角。
没把 YAML 转成 DAG，无法解释并行、阻塞、循环依赖。
没有资源调度策略，只会“先进先出”。

面试官判断的是：你能不能设计一套可扩展、可运维、可恢复的工程系统。

三、面试官想听到的高分架构

建议你按下面 7 个组件讲，结构清晰、命中率高：

API/Webhook Ingress：接收 push/PR 事件，创建 workflow run。
Workflow Parser：解析 YAML，做 schema 校验与默认值填充。
DAG Planner：构建步骤依赖图，检测环，生成可执行批次。
Scheduler：按 CPU/内存/队列优先级分配任务到 Runner 池。
Runner Fleet：容器或轻量 VM 隔离执行，限制权限与网络。
Artifact/Cache Store：构建产物、缓存、日志持久化。
State Store + Observability：状态机、重试、指标、追踪与告警。

一句话总结：这是“工作流编排 + 分布式调度 + 隔离执行”的组合系统。

四、可直接复述的答题框架

你可以在面试里直接说这 5 句：

我先把 YAML 编译成 DAG，保证依赖正确且可并行。
调度层做资源感知分配，优先满足关键路径步骤。
执行层使用容器/微 VM 隔离，控制权限、网络与密钥注入。
每个 step 有幂等状态机，失败支持指数退避重试与断点续跑。
全链路暴露日志、指标和 trace，支持定位瓶颈与失败根因。

五、Python：资源感知调度器雏形

from collections import defaultdict, deque
from dataclasses import dataclass
from typing import Dict, List

@dataclass
class Step:
    name: str
    needs: List[str]
    cpu: int
    mem: int

def schedule(steps: List[Step], total_cpu: int, total_mem: int) -> List[List[str]]:
    graph: Dict[str, List[str]] = defaultdict(list)
    indeg: Dict[str, int] = defaultdict(int)
    by_name = {s.name: s for s in steps}

    for s in steps:
        indeg.setdefault(s.name, 0)
        for pre in s.needs:
            graph[pre].append(s.name)
            indeg[s.name] += 1

    ready = deque([name for name, d in indeg.items() if d == 0])
    waves: List[List[str]] = []
    done = 0

    while ready:
        wave: List[str] = []
        free_cpu, free_mem = total_cpu, total_mem
        remain = deque()

        while ready:
            name = ready.popleft()
            step = by_name[name]
            if step.cpu <= free_cpu and step.mem <= free_mem:
                wave.append(name)
                free_cpu -= step.cpu
                free_mem -= step.mem
            else:
                remain.append(name)

        if not wave:
            raise RuntimeError("资源不足：当前 Runner 池无法容纳任一可执行步骤")

        waves.append(wave)
        done += len(wave)

        for name in wave:
            for nxt in graph[name]:
                indeg[nxt] -= 1
                if indeg[nxt] == 0:
                    remain.append(nxt)

        ready = remain

    if done != len(steps):
        raise RuntimeError("DAG 非法：存在循环依赖")
    return waves

这段代码对应面试里的关键表达：先拓扑排序，再做资源约束下的批次调度。

六、2026 上岸案例（我们服务）

2026 年 2 月，杭州后端工程师 L 同学（6 年经验）找到我们时，连续两次卡在系统设计电面。我们用 3 次 1v1 复盘，重点打磨了 CI/CD、任务编排、限流与故障恢复表达。第 17 天，他在一家头部 AI 基础设施团队的终面中抽到“设计 CI 工作流平台”，按上述框架完成回答并拿到 Offer，薪资较原包提升 41%。

七、CTA：预约 1v1 复盘

立即预约 30 分钟系统设计诊断

你会拿到：

你的薄弱项雷达图（知识、表达、节奏）
一套可复用的系统设计答题骨架
下一场面试可直接使用的个性化提纲

面试救急

明天就要电面？临时抱佛脚也可以有方法。我们提供「面试救急」加急服务：24 小时内完成岗位定制题库、1 次高压模拟、1 次逐句纠偏，让你在最短时间把答案从“会做”升级到“会讲、讲清、讲到点子上”。

Gabby Fox