Nextdoor MLE 电面失败复盘：1 小时 ML Coding + 语义版本排序，如何把挂面经变成 Offer 剧本

Mar 5

Written By Gabby Fox

这是一场典型的北美 MLE 电面组合题：ML Coding + General Coding。候选人挂在“思路完整性”和“规则澄清”上，不是单纯代码能力问题。下面给你一套可直接复用的过面框架。

面试全貌与评分逻辑

面试信息（来源面经）：

公司：Nextdoor
轮次：MLE Phone Screen
时长：两段各约 1 hour
题型 1：通知点击率预测（从数据到特征到训练到评估）
题型 2：语义化版本排序（含 pre-release follow-up）

面试官真实关注点：

你能不能快速拿到第一个可用 Baseline。
你是否会主动定义指标并解释取舍。
你写代码时是否可读、可测、可扩展。
你遇到模糊规则是否先澄清，而不是“闷头写”。

ML Coding：60 分钟拿到可讲清的 Baseline

建议节奏：

先确认目标：CTR prediction，主指标通常选 AUC + LogLoss。
10 分钟完成最小可训练管线。
10 分钟完成验证与错误分析。
剩余时间讲优化路线，不要盲改模型。

可复用 Python Baseline（面试可手写简化版）：

import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import OneHotEncoder
from sklearn.pipeline import Pipeline
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import roc_auc_score, log_loss

def train_ctr_baseline(df: pd.DataFrame):
    y = df["clicked"].astype(int)
    X = df.drop(columns=["clicked"])

    cat_cols = X.select_dtypes(include=["object", "category"]).columns.tolist()
    num_cols = [c for c in X.columns if c not in cat_cols]

    preprocess = ColumnTransformer(
        transformers=[
            ("cat", OneHotEncoder(handle_unknown="ignore"), cat_cols),
            ("num", "passthrough", num_cols),
        ]
    )

    model = Pipeline(
        steps=[
            ("prep", preprocess),
            ("clf", LogisticRegression(max_iter=500)),
        ]
    )

    X_train, X_valid, y_train, y_valid = train_test_split(
        X, y, test_size=0.2, random_state=42, stratify=y
    )

    model.fit(X_train, y_train)
    prob = model.predict_proba(X_valid)[:, 1]

    return {
        "auc": roc_auc_score(y_valid, prob),
        "logloss": log_loss(y_valid, prob),
    }

高频失分点：

只写模型，不讲特征与评估闭环。
忽略类别不平衡和数据泄漏。
没有“下一步优化优先级”说明（如时间特征、负采样、树模型对比）。

General Coding：语义化版本排序 Python 解法

这题本质是“解析 + 自定义排序键”，不是手写排序算法。

先澄清三件事：

patch 缺失如何处理（如 1.0 vs 1.0.0）。
pre-release 与正式版的优先级。
升序/降序如何切换。

可复用实现：

import re
from typing import List, Tuple

SEMVER_RE = re.compile(r"^(\d+)\.(\d+)(?:\.(\d+))?(?:-([0-9A-Za-z.-]+))?$")

def _key(v: str) -> Tuple[int, int, int, int, str]:
    m = SEMVER_RE.match(v)
    if not m:
        raise ValueError(f"Invalid version: {v}")

    major, minor, patch, prerelease = m.groups()
    patch_num = int(patch) if patch is not None else -1

    # 升序下：pre-release < stable（同核心版本时）
    pre_rank = 0 if prerelease is not None else 1
    pre_text = prerelease or ""

    return (int(major), int(minor), patch_num, pre_rank, pre_text)

def sort_versions(versions: List[str], order: str = "asc") -> List[str]:
    if order not in {"asc", "desc"}:
        raise ValueError("order must be 'asc' or 'desc'")
    return sorted(versions, key=_key, reverse=(order == "desc"))

面试表达模板：

“我先把规则写成排序键，后面改规则只改 key，不改主流程。”
“如果样例与规则冲突，我会先口头确认业务优先级再落代码。”

2026 上岸案例（脱敏复盘）

候选人：L 同学，上海，3 年推荐系统经验，目标北美 MLE。时间线：

2026-01-11：第一次模拟，ML 轮能写模型但讲不清评估闭环。
2026-01-19：补齐“Baseline 讲解模板”+“语义版本排序澄清话术”。
2026-02-06：拿到 Nextdoor 同类型电面，通过 phone screen。
2026-03-02：拿到中大厂 MLE Offer（年包较原岗位提升 41%）。

关键变化只有两点：

从“写题”切到“先定义评分目标，再写题”。
每题先做规则澄清，避免因题意偏差直接挂轮。

一页式备战清单

准备一个 15 分钟可讲完的 CTR Baseline 模板。
准备 3 句指标话术：AUC、LogLoss、业务阈值。
准备 1 套“规则不清先澄清”的英文表达。
刷 5 道“字符串解析 + 自定义排序 key”题。
每次 mock 录音复盘“我是否在引导面试官理解我的思路”。

立即预约 1v1 诊断

预约 45 分钟 MLE 电面诊断

你将拿到：

你的简历与目标岗位差距清单。
一份可直接背诵的 ML Coding 结构化回答模板。
一次现场 coding 纠错 + 沟通评分反馈。

面试救急

面试救急｜48 小时冲刺包
下周就要电面？我们提供 2 次高压模拟 + 逐题复盘 + 岗位定制题单，重点修复“会写但讲不清、题意没澄清、时间分配失控”三大挂点。名额按周开放，先到先排期。

Gabby Fox