PHT-CAD论文阅读笔记

论文:PHT-CAD: Efficient CAD Parametric Primitive Analysis with Progressive Hierarchical Tuning

PHT-CAD github仓库

ParaCAD 数据集

仓库里暂时没有开源代码,作者在Issues里表示模型后续会开源。评论区表示数据集解压后有245GB,很大。期待作者开源模型。

PHT-CAD简介

术语简称

  • PHT: 渐进性分层调优 / Progressive Hierarchical Tuning
  • CAD: 计算机辅助设计 / Computer-Aided Design
  • PPA: 参数图元分析 / Parametric Primitive Analysis
  • EHP: 高效混合参数化 / Efficient Hybrid Parametrization
  • VLMs: 视觉语言模型 / Vision-Language Models
  • ViT: 视觉Transformer模型 / Vision Transformer
  • P-MSE: 参数均方误差 / Parametric Mean Squared Error
  • MLP: 多层感知器 / Multi-Layer Perceptron

PPA构成

  1. 几何图元
  2. 注释层

PPA两大挑战

  1. 结构约束推理:工程图通过几何约束(例如平行、相切、重合)固定编码,图元之间有复杂的相互依赖性
  2. 高级语义理解:除了识别几何图元之外,PPA还需要深入理解标注、隐式约束和图元之间的层次关系

PHT-CAD框架

  • 标准VLM架构
    • 构成
      • 视觉编码器
      • VLM 视觉语言模型
    • 目的:多模态理解
  • EHP 高效混合参数化
  • 4个专有回归头预测头
    • 目的
      • 预测相关原子组件
      • 辅助VLM的精确数值预测(减少VLM的局限性)
  • P-MSE 参数均方误差
    • 目的:监督数值预测
  • PHT 渐进性分层调优
    • 3个渐进阶段
      • 图元感知调优
      • 结构感知调优
      • 注释几何对齐

ParaCAD

  • 原始数据来自两个大数据集
  • 用Draw Param方法为两个大数据集的所有样本生成参数化注释
  • 500 0000 图纸
  • 上色+额外注释+3000张真实工业图纸

ParaCAD:有标记的2D PPA

ParaCAD的数据集

该数据集解决两个问题

  1. 缺乏标注层
  2. 更高的结构复杂性和现实世界的约束(例如:完全封闭)

数据集 = 有注释的训练集 + 现实的工业图纸的评估集(更复杂)

训练集有3个子集

  1. 单个图元识别数据
  2. 草图结构感知数据
  3. 标注尺寸的绘图数据

训练集步骤:

  1. 数据预处理和DXF生成,获取圆弧arc、圆circle、直线line和点point(数量<6的太简单了,排除)
  2. 尺寸标注和多格式转换,DXF→JSON
  3. 几何约束提取和JSON结构化
    • JSON = 图元信息(基本几何实体) + 约束信息(图元之间的关系) + 尺寸标注信息(提取的尺寸标签和数值)

ParaCAD的评估指标

传统评估指标 = 图元指标 + 基于视觉的指标

新的度量维度精度(DA, Dimension Accuracy)
三个验证功能:类型正确性、数值一致性和几何元素对齐

公式中 是指示函数,当括号内的式子为真时,指示函数返回1;当括号内的式子为假时,返回0。

  • :图元的基本事实
  • :图元的基本结果
  • 分量 :确保预测的标注类型与地面真实情况匹配,从而标识其是长度、直径、半径还是角度
  • 分量 :检查预测尺寸值是否在内偏离
  • 分量 :确保几何元素在位置公差 内对齐
  • 尺寸精度(DA)衡量正确预测的比率

PHT-CAD 方法论

EHP 高效混合参数化

参数化策略三种类型:

  1. 隐式策略:利用几何图元的标准化和相对表示,通过方向向量、参考点和参数约束来编码其空间属性。
  2. 基于点的策略:采用标准化的绝对表示,通过显式关键点而不是相对约束来编码几何图元。
  3. 过参数化策略:结合了以上两种策略的参数,旨在通过加入相对约束和显式关键点来丰富模型的几何信息。

EHP:基于点的策略和隐式策略相结合,同时消除冗余信息,以提高效率和一致性。

EHP的3个关键修改:

  1. 删除了方向向量,仅通过直线和圆弧的起点和终点坐标表示直线和圆弧。
  2. 使用圆和圆弧的中心坐标、半径和起点/终点角度重新定义圆和圆弧的表示法,不再使用基于离散点的表示法。(PS:和我们的表示法是一致的)
  3. 将坐标归一化到[0,1000]的范围,提供了一个相对坐标系,确保在不同分辨率的图像之间进行一致的空间缩放(有助于模型学习位置关系,并提高其对输入维度变化的稳健性)

所以论文的定义:

其中 是一个表示有效性的二进制数 (e.g. 实线或虚线)

整体架构

PHT-CAD框架集成了

  • 基于VIT的视觉编码器
  • 从Qwen2.5派生的文本编码器

该模型通过提出的渐进性分层调优(PHT)策略进行训练。

损失函数

  • 引入了一种新的参数均方误差损失(P-MSE),提高了原始参数的精度
  • 由四个专用回归头生成的数值预测
  • 现有的视觉语言模型(VLM)通常采用交叉熵(CE)损失进行优化。没有显式地解释预测值和基本真实值之间的数值差异,不适合于2D-PPA任务中的细粒度参数估计
  • 均方误差(MSE)损失对偏差进行二次惩罚,确保即使是几何参数中的微小数值差异也能被有效捕获和优化

P-MSE公式

基本事实
预测的概率分布
基于多层感知器(MLP)回归头,应用于从对应于每个图元的特殊令牌中提取的隐藏表示 (没理解?)
基本事实参数
预测令牌的数量
平衡分类和回归目标的两个超参数

PHT 渐进性参数调优

  1. 图元感知调优:识别和分类单个几何图元,并以结构化、参数格式输出其参数
  2. 结构感知调优:感知工程图纸中的所有图元,并理解它们之间的相互依赖和约束
  3. 注释几何对齐:增强模型处理包括尺寸标注的工程图纸的能力,同时预测图元、约束和尺寸信息