PHT-CAD论文阅读笔记
论文:PHT-CAD: Efficient CAD Parametric Primitive Analysis with Progressive Hierarchical Tuning
仓库里暂时没有开源代码,作者在Issues里表示模型后续会开源。评论区表示数据集解压后有245GB,很大。期待作者开源模型。
PHT-CAD简介
术语简称
- PHT: 渐进性分层调优 / Progressive Hierarchical Tuning
- CAD: 计算机辅助设计 / Computer-Aided Design
- PPA: 参数图元分析 / Parametric Primitive Analysis
- EHP: 高效混合参数化 / Efficient Hybrid Parametrization
- VLMs: 视觉语言模型 / Vision-Language Models
- ViT: 视觉Transformer模型 / Vision Transformer
- P-MSE: 参数均方误差 / Parametric Mean Squared Error
- MLP: 多层感知器 / Multi-Layer Perceptron
PPA构成
- 几何图元
- 注释层
PPA两大挑战
- 结构约束推理:工程图通过几何约束(例如平行、相切、重合)固定编码,图元之间有复杂的相互依赖性
- 高级语义理解:除了识别几何图元之外,PPA还需要深入理解标注、隐式约束和图元之间的层次关系
PHT-CAD框架
- 标准VLM架构
- 构成
- 视觉编码器
- VLM 视觉语言模型
- 目的:多模态理解
- 构成
- EHP 高效混合参数化
- 4个专有回归头预测头
- 目的
- 预测相关原子组件
- 辅助VLM的精确数值预测(减少VLM的局限性)
- 目的
- P-MSE 参数均方误差
- 目的:监督数值预测
- PHT 渐进性分层调优
- 3个渐进阶段
- 图元感知调优
- 结构感知调优
- 注释几何对齐
- 3个渐进阶段
ParaCAD
- 原始数据来自两个大数据集
- 用Draw Param方法为两个大数据集的所有样本生成参数化注释
- 500 0000 图纸
- 上色+额外注释+3000张真实工业图纸
ParaCAD:有标记的2D PPA
ParaCAD的数据集
该数据集解决两个问题
- 缺乏标注层
- 更高的结构复杂性和现实世界的约束(例如:完全封闭)
数据集 = 有注释的训练集 + 现实的工业图纸的评估集(更复杂)
训练集有3个子集
- 单个图元识别数据
- 草图结构感知数据
- 标注尺寸的绘图数据
训练集步骤:
- 数据预处理和DXF生成,获取圆弧arc、圆circle、直线line和点point(数量<6的太简单了,排除)
- 尺寸标注和多格式转换,DXF→JSON
- 几何约束提取和JSON结构化
- JSON = 图元信息(基本几何实体) + 约束信息(图元之间的关系) + 尺寸标注信息(提取的尺寸标签和数值)
ParaCAD的评估指标
传统评估指标 = 图元指标 + 基于视觉的指标
新的度量维度精度(DA, Dimension Accuracy)
三个验证功能:类型正确性、数值一致性和几何元素对齐
公式中
是指示函数,当括号内的式子为真时,指示函数返回1;当括号内的式子为假时,返回0。
:图元的基本事实 :图元的基本结果 - 分量
:确保预测的标注类型与地面真实情况匹配,从而标识其是长度、直径、半径还是角度 - 分量
:检查预测尺寸值是否在 内偏离 - 分量
:确保几何元素在位置公差 内对齐 - 尺寸精度(DA)衡量正确预测的比率
PHT-CAD 方法论
EHP 高效混合参数化
参数化策略三种类型:
- 隐式策略:利用几何图元的标准化和相对表示,通过方向向量、参考点和参数约束来编码其空间属性。
- 基于点的策略:采用标准化的绝对表示,通过显式关键点而不是相对约束来编码几何图元。
- 过参数化策略:结合了以上两种策略的参数,旨在通过加入相对约束和显式关键点来丰富模型的几何信息。
EHP:基于点的策略和隐式策略相结合,同时消除冗余信息,以提高效率和一致性。
EHP的3个关键修改:
- 删除了方向向量,仅通过直线和圆弧的起点和终点坐标表示直线和圆弧。
- 使用圆和圆弧的中心坐标、半径和起点/终点角度重新定义圆和圆弧的表示法,不再使用基于离散点的表示法。(PS:和我们的表示法是一致的)
- 将坐标归一化到[0,1000]的范围,提供了一个相对坐标系,确保在不同分辨率的图像之间进行一致的空间缩放(有助于模型学习位置关系,并提高其对输入维度变化的稳健性)
所以论文的定义:
其中
整体架构
PHT-CAD框架集成了
- 基于VIT的视觉编码器
- 从Qwen2.5派生的文本编码器
该模型通过提出的渐进性分层调优(PHT)策略进行训练。
损失函数
- 引入了一种新的参数均方误差损失(P-MSE),提高了原始参数的精度
- 由四个专用回归头生成的数值预测
- 现有的视觉语言模型(VLM)通常采用交叉熵(CE)损失进行优化。没有显式地解释预测值和基本真实值之间的数值差异,不适合于2D-PPA任务中的细粒度参数估计
- 均方误差(MSE)损失对偏差进行二次惩罚,确保即使是几何参数中的微小数值差异也能被有效捕获和优化
P-MSE公式
PHT 渐进性参数调优
- 图元感知调优:识别和分类单个几何图元,并以结构化、参数格式输出其参数
- 结构感知调优:感知工程图纸中的所有图元,并理解它们之间的相互依赖和约束
- 注释几何对齐:增强模型处理包括尺寸标注的工程图纸的能力,同时预测图元、约束和尺寸信息