PHT-CAD论文阅读笔记

发表于 2025-12-05 更新于 2026-03-04 分类于 AI 阅读次数：本文字数： 1.8k 阅读时长 ≈ 7 分钟

仓库里暂时没有开源代码，作者在Issues里表示模型后续会开源。评论区表示数据集解压后有245GB，很大。期待作者开源模型。

PHT-CAD简介

术语简称

PHT: 渐进性分层调优 / Progressive Hierarchical Tuning
CAD: 计算机辅助设计 / Computer-Aided Design
PPA: 参数图元分析 / Parametric Primitive Analysis
EHP: 高效混合参数化 / Efficient Hybrid Parametrization
VLMs: 视觉语言模型 / Vision-Language Models
ViT: 视觉Transformer模型 / Vision Transformer
P-MSE: 参数均方误差 / Parametric Mean Squared Error
MLP: 多层感知器 / Multi-Layer Perceptron

PPA构成

几何图元
注释层

PPA两大挑战

结构约束推理：工程图通过几何约束（例如平行、相切、重合）固定编码，图元之间有复杂的相互依赖性
高级语义理解：除了识别几何图元之外，PPA还需要深入理解标注、隐式约束和图元之间的层次关系

PHT-CAD框架

标准VLM架构
- 构成
  - 视觉编码器
  - VLM 视觉语言模型
- 目的：多模态理解
EHP 高效混合参数化
4个专有回归头预测头
- 目的
  - 预测相关原子组件
  - 辅助VLM的精确数值预测（减少VLM的局限性）
P-MSE 参数均方误差
- 目的：监督数值预测
PHT 渐进性分层调优
- 3个渐进阶段
  - 图元感知调优
  - 结构感知调优
  - 注释几何对齐

ParaCAD

原始数据来自两个大数据集
用Draw Param方法为两个大数据集的所有样本生成参数化注释
500 0000 图纸
上色+额外注释+3000张真实工业图纸

ParaCAD：有标记的2D PPA

ParaCAD的数据集

该数据集解决两个问题

缺乏标注层
更高的结构复杂性和现实世界的约束（例如：完全封闭）

数据集 = 有注释的训练集 + 现实的工业图纸的评估集（更复杂）

训练集有3个子集

单个图元识别数据
草图结构感知数据
标注尺寸的绘图数据

训练集步骤：

数据预处理和DXF生成，获取圆弧arc、圆circle、直线line和点point（数量<6的太简单了，排除）
尺寸标注和多格式转换，DXF→JSON
几何约束提取和JSON结构化
- JSON = 图元信息（基本几何实体） + 约束信息（图元之间的关系） + 尺寸标注信息（提取的尺寸标签和数值）

ParaCAD的评估指标

传统评估指标 = 图元指标 + 基于视觉的指标

新的度量维度精度(DA, Dimension Accuracy)
三个验证功能：类型正确性、数值一致性和几何元素对齐

$T(P_i, \hat{P}_i) = \mathbb{I} \left( \operatorname{Type}(\hat{P}_i) = \operatorname{Type}(P_i) \right)\\ V(P_i, \hat{P}_i) = \mathbb{I} \left( \left| \hat{V}_i - V_i \right| \leq \tau_v \right)\\ E(P_i, \hat{P}_i) = \mathbb{I} \left( \sum_{k=1}^{N_i} \mathbb{I} \left( \left| \hat{E}_{i,k} - E_{i,k} \right| \leq \tau_e \right) = N_i \right)\\ DA = \frac{1}{T} \sum_{i=1}^{M} T(P_i, \hat{P}_i) \cdot V(P_i, \hat{P}_i) \cdot E(P_i, \hat{P}_i)$

公式中是指示函数，当括号内的式子为真时，指示函数返回1；当括号内的式子为假时，返回0。

：图元的基本事实
：图元的基本结果
分量：确保预测的标注类型与地面真实情况匹配，从而标识其是长度、直径、半径还是角度
分量：检查预测尺寸值是否在内偏离
分量：确保几何元素在位置公差内对齐
尺寸精度(DA)衡量正确预测的比率

PHT-CAD 方法论

EHP 高效混合参数化

参数化策略三种类型：

隐式策略：利用几何图元的标准化和相对表示，通过方向向量、参考点和参数约束来编码其空间属性。
基于点的策略：采用标准化的绝对表示，通过显式关键点而不是相对约束来编码几何图元。
过参数化策略：结合了以上两种策略的参数，旨在通过加入相对约束和显式关键点来丰富模型的几何信息。

EHP：基于点的策略和隐式策略相结合，同时消除冗余信息，以提高效率和一致性。

EHP的3个关键修改：

删除了方向向量，仅通过直线和圆弧的起点和终点坐标表示直线和圆弧。
使用圆和圆弧的中心坐标、半径和起点/终点角度重新定义圆和圆弧的表示法，不再使用基于离散点的表示法。（PS：和我们的表示法是一致的）
将坐标归一化到[0,1000]的范围，提供了一个相对坐标系，确保在不同分辨率的图像之间进行一致的空间缩放（有助于模型学习位置关系，并提高其对输入维度变化的稳健性）

所以论文的定义：

$\begin{array}{ll} \textbf{Point:} & p = (x_p, y_p) \\ \textbf{Line:} & l = (x_\text{start}, y_\text{start}, x_\text{end}, y_\text{end}, v) \\ \textbf{Circle:} & c = (x_c, y_c, r) \\ \textbf{Arc:} & a = (x_a, y_a, r, \theta_\text{start}, \theta_\text{end}) \end{array}$

其中是一个表示有效性的二进制数 (e.g. 实线或虚线)

整体架构

PHT-CAD框架集成了

基于VIT的视觉编码器
从Qwen2.5派生的文本编码器

该模型通过提出的渐进性分层调优(PHT)策略进行训练。

损失函数

引入了一种新的参数均方误差损失(P-MSE)，提高了原始参数的精度
由四个专用回归头生成的数值预测
现有的视觉语言模型(VLM)通常采用交叉熵(CE)损失进行优化。没有显式地解释预测值和基本真实值之间的数值差异，不适合于2D-PPA任务中的细粒度参数估计
均方误差(MSE)损失对偏差进行二次惩罚，确保即使是几何参数中的微小数值差异也能被有效捕获和优化

P-MSE公式

$\mathcal{L}_{\text{CE}} = - \sum_{i=1}^{N} t_i \log \hat{t}_i\\ \mathcal{L}_{\text{P-MSE}} = \frac{1}{N} \sum_{i=1}^{N} \left| f_{\theta_i} (h_i) - p_i \right|^2\\ \mathcal{L} = \lambda_{\text{CE}} \mathcal{L}_{\text{CE}} + \lambda_{\text{P-MSE}} \mathcal{L}_{\text{P-MSE}}$

基本事实
预测的概率分布
基于多层感知器（MLP）回归头，应用于从对应于每个图元的特殊令牌中提取的隐藏表示 (没理解？)
基本事实参数
预测令牌的数量
和平衡分类和回归目标的两个超参数

PHT 渐进性参数调优

图元感知调优：识别和分类单个几何图元，并以结构化、参数格式输出其参数
结构感知调优：感知工程图纸中的所有图元，并理解它们之间的相互依赖和约束
注释几何对齐：增强模型处理包括尺寸标注的工程图纸的能力，同时预测图元、约束和尺寸信息