2025国赛C题题目思路和模型讲解

川川菜鸟

1738人浏览 · 2025-09-05 01:06:48

川川菜鸟 · 2025-09-05 01:06:48 发布

一、题目理解

C 题的核心围绕 无创产前检测（NIPT），它利用孕妇外周血中的胎儿游离 DNA，判断胎儿性别和染色体异常。题目分成两部分：

男胎：通过 Y 染色体浓度来判定。若浓度 ≥4%，说明样本中有足够胎儿 DNA，可以准确判断。
- 难点：Y 浓度随孕周上升、随 BMI 增大而下降 → 什么时候抽血才能“一次就达标”？
女胎：没有 Y 染色体，只能依赖 13/18/21 号染色体的 Z 值来判定是否有非整倍体。
- 难点：Z 值方法简单，但漏检率高 → 如何设计一个召回率高、误报率可控的判定规则？

题目要求我们既要 建立统计学模型解释机理，又要 设计分组方案推荐检测时点，最后还要 提出判定规则。

二、数据理解

总体来看，男胎数据具有“同一孕妇多次抽血、部分右删失”的特点，因此在建模时需考虑重复测量和删失问题；女胎数据则是“类别极度不平衡”（异常≈11%），所以在分类建模时必须使用加权或采样方法以保证召回率。同时，测序质量项可能会干扰判定，需在模型中作为协变量控制。

（1）男胎检测数据（1082 条记录，267 位孕妇）

变量：
- 孕妇代码：同一孕妇会多次抽血检测。
- 检测孕周：格式如“11w+6”，需要转化成连续周数 $\frac{6}{7}$ 。
- 孕妇BMI：体重/身高²，影响胎儿 DNA 浓度。
- Y染色体浓度：关键变量，≥0.04 即达标。
- 测序质量指标：在参考基因组上比对的比例、被过滤掉读段数的比例、GC含量 等。
预处理：
- 对每位孕妇，找到第一次 Y 浓度≥4% 的孕周 → 记为 最早达标孕周 T。
- 如果从头到尾都没达标 → 记为缺失。

（2）女胎检测数据（605 条记录）

变量：
- 13号/18号/21号染色体的Z值：若 |Z| ≥ 3，则提示异常。
- X染色体Z值：辅助变量。
- 染色体的非整倍体：标签（阳性 67 例，约占 11%）。
- 体格与质量指标：BMI、年龄、身高、体重、GC含量 等。
预处理：
- 将 非整倍体 非空记为 1，否则为 0，得到标签列。
- 输入特征 = Z 值 + 质量项。

（3）数据整体理解

身份/时间/体格

B 孕妇代码（个体ID）；I 检测时间；J 检测抽血次数；K 孕周（周+天/7）；C 孕妇年龄；D 身高(cm)；E 体重(kg)；L 孕妇BMI（题面已给，若缺可以体重/身高²计算，身高单位需转 m）。
F 末次月经时间（只用于核对孕周合理性）；G IVF妊娠方式（可做分层/协变量）。

测序规模与质量

L 原始读段数；O 唯一比对读段数；M 在参考基因组上比对的比例；N 重复读段比例；AA 被过滤比例；P GC含量（整体）；
X/Y/Z 13/18/21号染色体GC含量（分染色体 GC）。

男胎关键信号

U X染色体的Z值（男胎也有，但信息量次级）；V Y染色体浓度（游离DNA中 Y 片段占比，男胎关键指标）；W X染色体浓度（可用于质量/性别一致性校验）。

女胎关键信号

Q/R/S 13/18/21号染色体的Z值；T X染色体Z值；AB 染色体的非整倍体（标签，空=阴性，T13/T18/T21=阳性）。

结局与辅助

AC 怀孕次数；AD 生产次数；AE 婴儿是否健康（出生后结局，只能用于事后验证，不能在临床前置判定里泄漏）。

（4）数据清洗

时间标准化

把 “ $11w+611\mathrm{w}+6$ ” 解析为 $11 + 6/7 = 11.857$ 周，生成连续变量 $w$ 。
以 检测时间 排序，同一 孕妇代码 可能多次抽血（重复测量）。

男胎“事件时间”抽取**

设阈值 $τ=0.04\tau=0.04$ （4%），构造二值标签 $\mathbb{1}[\,V \ge \tau\,]$ 。
对每名孕妇取：

$\;=\; \min\{\,w:\ V(w)\ge \tau\,\}\quad(\text{若不存在，记为右删失})$

这就是“最早达标孕周”。

质量门限

先做守门：若 M 比对比例<0.75 或 AA 被过滤比例>0.04 或 P GC∉[0.40,0.60]，标记为“可疑批次”；这些记录用于分析但在单次临床判读时要谨慎（Q2/Q3 推荐时点加 0.5–1 周缓冲）。
统一缺失处理：数值缺失用同孕妇中位数或全体分组中位数填补；分类变量用“未知”类。

训练/验证切分**

必须按孕妇ID分层切分（例如 8:2），杜绝同一孕妇进入不同集合导致信息泄露。

三、模型思路与公式

1. 问题一：Y 浓度与孕周、BMI 的关系* **

Q1 机理解释（男胎）****：建立 $Y$ 染色体浓度与孕周 $w$ **、BMI 的定量关系；回答“为什么越晚越容易达标、为什么 BMI 高要更晚”。

目标：解释方向与效应量，给出显著性与可解释图（偏效/分布）

因为同一孕妇多次抽血 → 随机截距（必要时随机斜率），吸收个体差异。
响应 (Y 浓度是 (0,1) 的比例型变量) → 做 logit 变换： $\in(0,1)$ 做 logit 变换：

$y=\operatorname{logit}(p)=\ln\frac{p}{1-p}$
固定效应（主效）：孕周 $w$ 、BMI；可增添平滑项 $s (w)$ 检查非线性：

$y=\beta_0+\beta_1 w+\beta_2 \text{BMI}+u_{\text{ID}}+\varepsilon \quad\text{或}\quad y=\beta_0+s(w)+\beta_2\text{BMI}+u_{\text{ID}}+\varepsilon$
解释： $exp⁡(β1)\exp(\beta_1)$ 是每增加 1 周达到更高 $p$ 的相对胜算比； $exp⁡(β2)\exp(\beta_2)$ 是 BMI 每+1 的胜算比。

需要输出

系数、95%CI、p 值；
偏效曲线： $w$ 对 $p$ 的影响（把 BMI 固定在分位数）；
残差诊断：检查在阈值区间附近的波动（提醒 Q2/Q3 加缓冲）。

若 GAMM/LMM 在你环境难以稳定拟合，可先用 OLS(+聚类稳健方差，聚类=ID) 近似固定效应，论文里交代“个体相关性已用聚类稳健校正”。

小结：本部分模型通过 logit 转换保证了比例型数据的可线性化，混合效应框架又吸收了孕妇个体差异。这样得到的结果既能量化孕周和 BMI 的作用方向，也能作为后续分组与预测的理论依据。

2. 问题二：BMI 分组与最佳检测时点

Q2 分组策略（男胎）：仅用 BMI 给出“一次到位成功率 $≥90%\ge 90\%$ 的最早检测周数”。
定义：
- 最早达标孕周： $T_i$ 。
- 在孕周 $t$ 检测，一次成功率：
  
  $P(\text{成功}) = \Pr(T_i \le t)$

分组方法：

回归树找切点（CART-Regression）：以 $T$ 为目标、以 BMI 为自变量，约束 min_samples_leaf≥30、max_leaf_nodes=4，自动给出 3 个分割点 → 4 组（如 ≤30, (30,32], (32,35.5], >35.5）
或者分位回归（Quantile Regression）：直接拟合 $Q0.90(T∣BMI)=α0+α1BMIQ_{0.90}(T\mid\text{BMI})=\alpha_0+\alpha_1\text{BMI}$ ，再把连续函数分段常数化（等频分组或最优断点）。
在每组内，算 $T$ 的 90% 分位数（保证 90% 孕妇一次检测就成功）。
结果形式：给出每个 BMI 组对应的最佳检测周数。

时点计算与策略函数

在每组 $g$ 内计算经验分布 $Fg(t)=Pr⁡(T≤t)F_g(t)=\Pr(T\le t)$ ，取

$t_g^\star=\min\{t:\ F_g(t)\ge 0.90\}$
临床化处理：对 $tg⋆t_g^\star$ 四舍五入到 0.5 周；若样本质量“可疑批次”，统一**+0.5 周缓冲**；若追求更稳（减少复测），改用 0.95 分位。

**小结：**通过 BMI 分组计算 90% 分位数，能够在不同 BMI 水平下给出“至少 90% 孕妇一次成功”的最早检测时点。这种分组方案不仅简洁直观，而且便于临床推广应用，为后续的个性化推荐提供基线参考。

3. 问题三：多因素个性化推荐

Q3 个性化推荐（男胎）：在 BMI 基础上引入年龄/身高/体重/测序质量（比对比例、被过滤比例、GC、重复率、唯一比对读段数等），输出更早但可靠的时点。

方法一：事件时间模型（推荐）

定义离散时间风险：

$h(t\mid \boldsymbol{x})=\Pr(T=t\mid T\ge t,\boldsymbol{x})$
用离散时间logistic/comploglog回归建模 $log⁡h1−h=γt+β⊤x\log\frac{h}{1-h}=\gamma_t+\boldsymbol{\beta}^\top\boldsymbol{x}$ 。
由 $h^\hat h$ 得到累计成功率 $S(t)=Pr⁡(T≤t∣x)S(t)=\Pr(T\le t\mid \boldsymbol{x})$ ，再取

$t^\star(\boldsymbol{x})=\min\{t:\ S(t)\ge 0.90\}.$
优点：自然处理“右删失”（从未达标者）、时间网格清晰、可解释。

方法二：直接回归（比较容易）：

输入特征：BMI + 年龄 + 身高 + 体重 + 测序质量项。
方法：梯度提升回归（GBR），预测每个孕妇的 $T^\hat{T}$ 。
策略：在预测结果里取分位数，得到“成功率≥90%”的个性化检测时点。
公式形式：

$T^=f(BMI,年龄,身高,体重,GC,比对率,…) \hat{T} = f(\text{BMI}, \text{年龄}, \text{身高}, \text{体重}, \text{GC}, \text{比对率}, \ldots)$

约束型“最优时点”

形式化为：

$\min_{t} \; t \quad \text{s.t.}\quad \Pr(T\le t\mid \boldsymbol{x})\ge q,\ \ q\in\{0.90,0.95\}.$
工程化：给出基准 $q = 0.90$ ，若质量项落入“可疑批次”，使用 $q = 0.95$ 或 $+0.5∼1.0+0.5\sim 1.0$ 周缓冲。

输出特征重要度（GBR 的 Gini/Permutation），解释“被过滤比例↑ → 达标更晚”、“比对比例↑ → 更早”。
给出个体化雷达图/瀑布图（可选），帮助临床理解为什么该人应提早/延后。

**小结：**相比单一 BMI 分组，多因素模型能够识别“质量好、可提前”的孕妇和“质量差、需延后”的孕妇，从而提高整体检测效率。这样不仅能降低复测率，也能使推荐时点更加个性化和动态化。

4. 问题四：女胎异常判定

Q4 异常判定（女胎）：用 Z 值 + 质量项构建高召回、可解释的判定器，并给出落地规则。

依据附录 Z 定义 $Z=(X−μ)/σZ=(X-\mu)/\sigma$ ，单用“ $∣Z∣≥3|Z|\ge 3$ ”高特异、低召回。我们用“模型概率 + 规则阈值”。

基础模型（加权逻辑回归 / 轻量树模型）

标签 $Y∈{0,1}Y\in\{0,1\}$ 来自 AB（空=0，T13/T18/T21=1）。
特征： ${Z13,Z18,Z21,ZX,M,AA,P,N,O,BMI,年龄,身高,体重}\{Z_{13},Z_{18},Z_{21},Z_X, M,AA,P,N,O, \text{BMI},\text{年龄},\text{身高},\text{体重}\}$ 。
类别不平衡：class_weight="balanced"；同时报告 PR-AUC、Recall@高阈值。

二级判定规则（落地可讲的流程图）

硬阈值直判：若 任一 $∣Z∣≥3|Z|\ge 3$ ⇒ 异常/转诊；
概率阈值筛查：计算模型概率 $s$ ：
- 若 $s≥0.25s\ge 0.25$ 且任一 $∣Z∣∈[2.5,3)|Z|\in[2.5,3)$ 且质量项合格 ⇒ 高度可疑（建议确证性检查）；
- 若 $s≥0.25s\ge 0.25$ 且质量项不合格 ⇒ 复核/重测（先排除技术干扰）；
其余 ⇒ 无异常（随访）。