概念词典
模仿学习与 LeRobot 工作流里常见的 16 个术语,可按类别检索。
ACT
Action Chunking Transformer
Stanford 提出的模仿学习算法。用 Transformer + CVAE 一次性预测多步动作 (action chunk),显著降低复合误差与抖动。LeRobot 默认就是 ACT 实现。
CVAE
Conditional Variational Autoencoder
条件变分自编码器。ACT 用它建模演示的多模态分布——同一个状态可能有多种合理动作,CVAE 通过 latent z 让模型不至于把它们平均到一起。
遥操作
Teleoperation
Leader 臂被人手动操作,Follower 臂实时跟随它的关节角度。这是 SO101 采集训练数据的基本方式。
LeRobot
LeRobot
HuggingFace 推出的机器人学习框架,整合了数据采集、训练、推理三大环节,支持 SO100/SO101、Aloha、Koch、Stretch 等多种机械臂。
SO101 / SO-ARM100
SO-100 Arm
TheRobotStudio 推出的低成本 6 自由度机械臂方案,BOM 大约 100 美元,是入门具身智能与 LeRobot 模仿学习的最佳硬件之一。
校准
Calibration
记录机械臂在已知姿态下每个电机的读数,作为零点参考。校准不准会导致 Leader/Follower 跟随发生明显偏差,也会让训练数据失真。
LeRobot Dataset
LeRobot Dataset Format
基于 parquet + 视频 + meta/info.json 的数据格式。包含每集 (episode) 的关节状态、动作、相机帧、时间戳,可直接被 LeRobotDataset 类加载。
HuggingFace Hub
HuggingFace Hub
托管模型、数据集、Space 的中心仓库。LeRobot 数据集可以 push 到 Hub,方便分享与复现。
复合误差
Compounding Error
行为克隆的核心问题——每一步预测偏差会让下一步的输入更偏离训练分布,错误像滚雪球一样累积。Action Chunking 与时间集成是缓解手段。
EMA 平滑
Exponential Moving Average Smoothing
推理时常用的滤波技巧:把当前动作与上一时刻动作按权重融合 (例如 0.7 / 0.3),抑制高频抖动。
CUDA / AMP
CUDA / Automatic Mixed Precision
NVIDIA GPU 通用计算 API;AMP 是 PyTorch 提供的自动混合精度训练,可显著降低显存占用并加速训练。
Hydra 配置
Hydra Config
Facebook 推出的配置框架,LeRobot 用它管理训练参数。你可以在命令行用 policy=act env=so100 的方式覆写配置。