Part III: 학습과 전이

Chapter 9: Sim-to-Real 전이 — 가상에서 현실로

집필일: 2026-04-01 최종수정일: 2026-04-07

개요

시뮬레이션에서 학습한 정책을 실제 로봇에 전이하는 Sim-to-Real 전이는 촉각 기반 조작의 핵심 도전입니다. 시각 sim-to-real보다 촉각 sim-to-real이 본질적으로 더 어렵습니다 — 젤 변형, 다중 물리(multi-physics) 결합, 접촉 모델의 충실도 한계 때문입니다. 이 챕터에서는 시뮬레이션 엔진, 도메인 랜덤화, 촉각 sim-to-real, Real-Sim-Real 루프를 다룹니다.

이 챕터를 읽고 나면... - 주요 촉각 시뮬레이션 엔진(Isaac Gym, MuJoCo, Tacto, DiffTactile)을 비교할 수 있습니다. - DeXtreme의 ADR(자동 도메인 랜덤화) 접근을 설명할 수 있습니다. - 촉각 sim-to-real의 고유한 도전을 이해합니다. - Real-Sim-Real 루프의 개념과 대표 사례를 파악합니다.

9.1 시뮬레이션 엔진: Isaac Gym/Lab, MuJoCo, Tacto, DiffTactile

Isaac Gym / Isaac Lab

NVIDIA의 Isaac 생태계는 GPU 가속 물리 시뮬레이션의 표준입니다:

  • GPU 병렬 시뮬레이션: 수천 환경을 동시 실행
  • Isaac Sim/Lab: 시뮬레이션 + 학습 통합 플랫폼
  • Newton 물리 엔진: 높은 충실도 접촉 모델
  • Omniverse: 디지털 트윈
  • DeXtreme[1], GR00T[12]의 핵심 플랫폼

MuJoCo

DeepMind의 MuJoCo는 접촉이 풍부한 시뮬레이션에 강점을 가집니다:

  • 효율적 접촉 솔버(contact solver)
  • ExoStart[6] [#9]의 dynamics filtering에 사용
  • OpenAI Dactyl [2]의 초기 시뮬레이션 플랫폼

Tacto (2022)

Meta FAIR의 Tacto [3]는 비전 기반 촉각 센서 시뮬레이터입니다:

  • PyRender + PyBullet 기반
  • GelSight, DIGIT 등 비전 기반 센서의 합성 촉각 이미지 생성
  • Sim-to-real 촉각 학습 가능
  • 150회+ 인용

DiffTactile (2024)

미분 가능한 촉각 시뮬레이터:

  • 기울기 기반 최적화(gradient-based optimization) 지원
  • 접촉이 풍부한 조작의 미분 가능 시뮬레이션
  • FEM 기반 변형 모델링

TacEx (2024)

TacEx는 GelSight 시뮬레이션을 Isaac Sim에 통합하여, 연구 워크플로우 전체(센서 시뮬레이션 → 정책 학습 → 전이)를 하나의 플랫폼에서 수행할 수 있게 합니다 (→ Chapter 11.2 참조).

Figure 9.1: 촉각 시뮬레이션 엔진 비교.
Figure 9.1: 촉각 시뮬레이션 엔진 비교.
엔진 GPU 가속 촉각 지원 미분 가능 주요 용도 대표 사례
Isaac Gym/Lab 간접 (센서 모델) 아니오 RL 대규모 학습 DeXtreme, GR00T
MuJoCo 아니오 간접 아니오 접촉 풍부 시뮬레이션 ExoStart, Dactyl
Tacto 아니오 예 (비전 기반) 아니오 촉각 이미지 생성 DIGIT sim-to-real
DiffTactile 부분적 기울기 최적화 접촉 최적화
TacEx 예 (GelSight) 아니오 통합 워크플로우 연구 파이프라인

9.2 도메인 랜덤화: DeXtreme의 ADR

Sim-to-real 격차를 극복하는 가장 널리 사용되는 전략은 도메인 랜덤화(Domain Randomization, DR)입니다 — 시뮬레이션의 물리 파라미터를 랜덤으로 변화시켜 정책이 다양한 조건에 견고해지도록 합니다.

DeXtreme (2023)

Handa et al. [2023, NVIDIA]의 DeXtreme은 DR의 최선 사례입니다:

  • 자동 도메인 랜덤화(ADR): 물리 + 비물리 파라미터 동시 랜덤화
  • 물리: 마찰, 질량, 관절 강성, 중력
  • 비물리: 조명, 카메라 위치, 텍스처, 배경
  • Allegro Hand + Isaac Gym
  • Omniverse Replicator로 합성 시각 데이터 생성
  • 시각 기반 정책이 기존 문헌 능가
핵심 논문: Handa, A., et al. (2023). "DeXtreme: Transfer of Agile In-hand Manipulation from Simulation to Reality." ICRA 2023. Allegro Hand + Isaac Gym에서 ADR로 sim-to-real 다지 조작 달성. 물리/비물리 파라미터의 동시 랜덤화가 핵심입니다.
Figure 9.2: DeXtreme의 ADR. Source: DeXtreme (ICRA 2023).
Figure 9.2: DeXtreme의 ADR. Source: DeXtreme (ICRA 2023).

9.3 촉각 Sim-to-Real: 이진 촉각 피부 모델, 제로샷 전이

촉각 sim-to-real은 시각 sim-to-real보다 본질적으로 어렵습니다:

  • 젤 변형의 정확한 모델링 어려움
  • 다중 물리 결합 (광학 + 변형 + 접촉)
  • 센서 노이즈 프로파일의 시뮬레이션/현실 차이

Yin et al.[4]의 이진 3축 촉각 피부(binary 3-axis tactile skin [#13]) 모델은 이 문제의 실용적 해법입니다:

  • 단순화: 연속 힘 → 이진 접촉 (접촉 여부 + 3축 방향)
  • 5,000 FPS 시뮬레이션 속도
  • 제로샷 sim-to-real 전이 성공
  • OOD 물체에서 93% 성공률

이 연구의 핵심 교훈: 정밀한 촉각 시뮬레이션보다 단순화된 모델 + 넓은 커버리지가 sim-to-real 전이에 더 효과적일 수 있습니다.

Sim-to-Real RL for Humanoid Dexterous Manipulation[6]은 환경 모델링, 보상 설계, 정책 학습, 전이의 실용적 레시피를 제공합니다.

Figure 9.3: 촉각 sim-to-real의 도전.
Figure 9.3: 촉각 sim-to-real의 도전.

9.4 Real-Sim-Real: RoboPaint [#15], X-Sim, ExoStart

Real-Sim-Real은 실제 데이터를 시뮬레이션에 통합한 후 다시 현실로 전이하는 루프입니다.

RoboPaint (2025)

3D Gaussian Splatting(3DGS)으로 실제 장면을 시뮬레이션에 재구성하여, 시뮬레이션의 시각적 충실도를 높입니다. 이는 시각적 sim-to-real 격차를 줄이는 데 기여합니다.

X-Sim (2025)

Dan et al.[6]의 X-Sim은 Real-to-Sim-to-Real 파이프라인입니다:

  • 실제 인간 데이터를 시뮬레이션으로 전이
  • 시뮬레이션에서 정책 학습
  • 학습된 정책을 다시 현실로 전이
  • 세미나 1에서 핵심 사례로 논의

ExoStart (2025)

Si et al.[6]의 ExoStart는 Real-Sim-Real의 가장 데이터 효율적인 사례입니다:

  1. ~10회 외골격 시연 (현실)
  2. MuJoCo dynamics filtering (시뮬레이션)
  3. Auto-curriculum RL (시뮬레이션)
  4. ACT vision student (증류)
  5. 제로샷 현실 전이

7개 태스크 중 6개에서 >50% 성공률을 달성합니다.

핵심 논문: Si, Z., et al. (2025). "ExoStart: From 10 Exoskeleton Demos to Dexterous Robot Manipulation." Various. 10회 외골격 시연 → MuJoCo dynamics filtering → auto-curriculum RL → zero-shot real 전이. 데이터 효율적 Real-Sim-Real의 대표 사례.
Figure 9.4: Real-Sim-Real 루프 — ExoStart의 파이프라인. Source: ExoStart (2025).
Figure 9.4: Real-Sim-Real 루프 — ExoStart의 파이프라인. Source: ExoStart (2025).

DexWM (2025)

Meta FAIR의 DexWM [arXiv Dec 2025]은 인간 비디오로부터 world model을 학습하는 접근입니다:

  • 829시간의 인간 비디오 + 로봇 데이터를 결합하여 world model 학습
  • 학습된 world model로 정책을 시뮬레이션 없이 직접 학습
  • 83% real grasping 성공률 (zero-shot)
  • 기존 Real-Sim-Real과 달리, 명시적 시뮬레이션 엔진 없이 데이터에서 직접 dynamics를 학습
  • Chapter 10.6의 co-training 접근과 Chapter 10.7의 teleop-free 접근의 중간에 위치하는 방법론

9.5 Sim-to-Real 격차 분석: 동역학, 인지, 접촉 모델

Sim-to-real 격차의 세 가지 근원:

9.5.1 동역학 격차 (Dynamics Gap)

관절 마찰(joint friction), 정마찰(stiction), 접촉 동역학, 변형 물질 거동의 충실한 모델링이 어렵습니다. DeXtreme의 ADR은 이 격차를 "강건성(robustness)"으로 극복하지만, 모든 격차를 해소할 수는 없습니다.

9.5.2 인지 격차 (Perception Gap)

카메라 이미지, 깊이 맵, 촉각 이미지의 시뮬레이션/현실 차이입니다. Omniverse Replicator의 합성 시각 데이터, RoboPaint의 3DGS 재구성이 이를 줄입니다.

9.5.3 접촉 모델 격차 (Contact Model Gap)

촉각 sim-to-real의 가장 어려운 부분입니다. FEM은 정밀하지만 계산 비용이 높고, 해석적 모델은 근사가 거칩니다. DiffTactile은 미분 가능한 접촉 모델로 이 격차를 줄이려 하지만, 실시간 시뮬레이션에는 아직 부족합니다.

Human-in-the-Loop RL [2025, Science Robotics]는 인간 직관과 자율 정책 최적화를 결합하여, sim-to-real 격차가 클 때에도 정밀 조작을 달성합니다.

Figure 9.5: Sim-to-Real 격차의 세 근원.
Figure 9.5: Sim-to-Real 격차의 세 근원.

9.6 합성 데이터의 위력과 한계

NVIDIA의 합성 데이터 파이프라인은 현재 가장 강력한 데이터 생성 접근입니다:

  • 780K 궤적 (6,500시간 상당) → 11시간에 생성
  • 실제 성능 40% 향상
  • Isaac Sim + Omniverse Replicator

그러나 합성 데이터의 한계도 명확합니다:

  • Sim-to-real 격차가 합성 데이터의 효과를 제한
  • 촉각 합성 데이터는 시각보다 격차가 크다
  • 물성(material property) 다양성의 시뮬레이션이 어려움
Figure 9.6: 합성 데이터의 위력과 한계.
Figure 9.6: 합성 데이터의 위력과 한계.

요약 및 전망

Sim-to-real 전이는 촉각 기반 조작의 가장 큰 병목 중 하나이며, 동시에 가장 빠르게 진보하는 영역입니다. DeXtreme의 ADR, Yin et al.의 단순화된 촉각 모델, ExoStart의 데이터 효율적 Real-Sim-Real이 현재의 최전선입니다. NVIDIA의 합성 데이터 파이프라인은 규모 문제를 해결하지만, 촉각 sim-to-real 격차는 시각보다 근본적으로 크며, DiffTactile/TacEx 방향의 발전이 필요합니다.

다음 챕터에서는 인간에서 로봇으로의 Embodiment Retargeting을 다룹니다 (→ Chapter 10 참조).


참고문헌

  1. Handa, A., et al. (2023). DeXtreme: Transfer of agile in-hand manipulation from simulation to reality. ICRA 2023. arXiv:2210.13702. scholar
  2. Various. (2020). OpenAI Dactyl: Solving Rubik's Cube with a robot hand. IJRR. scholar
  3. Wang, S., Lambeta, M., et al. (2022). Tacto: A fast, flexible, and open-source simulator for vision-based tactile sensors. IEEE RA-L. scholar
  4. Si, Z., Zhang, G., Ben, Q., Romero, B., Xian, Z., Liu, C., & Gan, C. (2024). DiffTactile: A physics-based differentiable tactile simulator for contact-rich robotic manipulation. ICLR 2024. arXiv:2403.08716. scholar
  5. Yin, Z.-H., et al. (2024). Learning in-hand translation using a binary 3-axis tactile skin. arXiv preprint. #13 scholar
  6. Si, Z., Qian, K., Sontakke, N., et al. (2025). ExoStart: Efficient learning for dexterous manipulation with sensorized exoskeleton demonstrations. arXiv preprint. arXiv:2506.11775. #9 scholar
  7. Dan, P., et al. (2025). X-Sim: Cross-embodiment learning via real-to-sim-to-real. arXiv preprint. scholar
  8. Various. (2026). RoboPaint: From human demonstration to any robot and any view. arXiv preprint. #15 scholar
  9. Various. (2024). TacEx: GelSight tactile simulation in Isaac Sim. arXiv preprint. arXiv:2411.04776. scholar
  10. Various. (2025). Sim-to-real reinforcement learning for vision-based dexterous manipulation on humanoids. arXiv preprint. arXiv:2502.20396. scholar
  11. Various. (2025). Human-in-the-loop RL for precise dexterous manipulation. Science Robotics. https://doi.org/10.1126/scirobotics.ads5033. scholar
  12. NVIDIA. (2025). GR00T N1: An open foundation model for generalist humanoid robots. arXiv preprint. arXiv:2503.14734. scholar
  13. NVIDIA. (2026). Synthetic data pipeline: 780K trajectories in 11 hours. GTC 2026 Keynote. scholar
  14. Various. (2025). Tactile Robotics: Past and Future. arXiv:2512.01106. scholar
  15. Lipman, Y., et al. (2023). Flow matching for generative modeling. ICLR 2023. scholar
  16. Various. (2025). DexWM: Dexterous world models from human video. arXiv preprint. Meta FAIR. scholar