Chapter 14: Sim-to-Real 전이 — 가상에서 현실로

개요

시뮬레이션에서 학습한 정책을 실제 로봇에 전이하는 Sim-to-Real 전이는 촉각 기반 조작의 핵심 도전입니다. 시각 sim-to-real보다 촉각 sim-to-real이 본질적으로 더 어렵습니다 — 젤 변형, 다중 물리(multi-physics) 결합, 접촉 모델의 충실도 한계 때문입니다. 이 챕터에서는 시뮬레이션 엔진, 도메인 랜덤화, 촉각 sim-to-real, Real-Sim-Real 루프를 다룹니다.

이 챕터를 읽고 나면... - 주요 촉각 시뮬레이션 엔진(Isaac Gym, MuJoCo, Tacto, DiffTactile)을 비교할 수 있습니다. - DeXtreme의 ADR(자동 도메인 랜덤화) 접근을 설명할 수 있습니다. - 촉각 sim-to-real의 고유한 도전을 이해합니다. - Real-Sim-Real 루프의 개념과 대표 사례를 파악합니다.

14.1 시뮬레이션 엔진: Isaac Gym/Lab, MuJoCo, Tacto, DiffTactile

Isaac Gym / Isaac Lab

NVIDIA의 Isaac 생태계는 GPU 가속 물리 시뮬레이션의 표준입니다:

GPU 병렬 시뮬레이션: 수천 환경을 동시 실행
Isaac Sim/Lab: 시뮬레이션 + 학습 통합 플랫폼
Newton 물리 엔진: 높은 충실도 접촉 모델
Omniverse: 디지털 트윈
DeXtreme^[1], GR00T^[12]의 핵심 플랫폼

Figure 14.1: Isaac Gym의 고성능 학습을 보여주는 8개 표준 환경 — (상단) Ant, Humanoid, Franka Cube-Stack, Ingenuity, (하단) Shadow Hand, ANYmal, Allegro, TriFinger. 단일 GPU에서 수천 개 환경을 병렬 시뮬레이션하여 CPU 기반 RL 대비 2–3 orders of magnitude 속도 향상을 달성한다. 출처: Makoviychuk et al. (2021), Fig. 1.

MuJoCo

DeepMind의 MuJoCo는 접촉이 풍부한 시뮬레이션에 강점을 가집니다:

효율적 접촉 솔버(contact solver)
ExoStart^[6] [#9]의 dynamics filtering에 사용
OpenAI Dactyl ^[2]의 초기 시뮬레이션 플랫폼

Tacto (2022)

Meta FAIR의 Tacto ^[3]는 비전 기반 촉각 센서 시뮬레이터입니다:

PyRender + PyBullet 기반
GelSight, DIGIT 등 비전 기반 센서의 합성 촉각 이미지 생성
Sim-to-real 촉각 학습 가능
150회+ 인용

Figure 14.2: TACTO는 비전 기반 촉각 센서의 합성 판독을 >100 Hz로 생성한다. 모듈식 구조 덕에 GelSight, DIGIT 등 서로 다른 센서를 하나의 시뮬레이터에서 모델링할 수 있으며, 다양한 물리 엔진과 통합 가능하다. 출처: Wang, Lambeta et al. (2022), Fig. 1.

DiffTactile (2024)

미분 가능한 촉각 시뮬레이터:

기울기 기반 최적화(gradient-based optimization) 지원
접촉이 풍부한 조작의 미분 가능 시뮬레이션
FEM 기반 변형 모델링

TacEx (2024)

TacEx는 GelSight 시뮬레이션을 Isaac Sim에 통합하여, 연구 워크플로우 전체(센서 시뮬레이션 → 정책 학습 → 전이)를 하나의 플랫폼에서 수행할 수 있게 합니다 (→ Chapter 16.2 참조).

엔진	GPU 가속	촉각 지원	미분 가능	주요 용도	대표 사례
Isaac Gym/Lab	예	간접 (센서 모델)	아니오	RL 대규모 학습	DeXtreme, GR00T
MuJoCo	아니오	간접	아니오	접촉 풍부 시뮬레이션	ExoStart, Dactyl
Tacto	아니오	예 (비전 기반)	아니오	촉각 이미지 생성	DIGIT sim-to-real
DiffTactile	부분적	예	예	기울기 최적화	접촉 최적화
TacEx	예	예 (GelSight)	아니오	통합 워크플로우	연구 파이프라인

14.2 도메인 랜덤화: DeXtreme의 ADR

Sim-to-real 격차를 극복하는 가장 널리 사용되는 전략은 도메인 랜덤화(Domain Randomization, DR)입니다 — 시뮬레이션의 물리 파라미터를 랜덤으로 변화시켜 정책이 다양한 조건에 견고해지도록 합니다.

DeXtreme (2023)

Handa et al. [2023, NVIDIA]의 DeXtreme은 DR의 최선 사례입니다:

자동 도메인 랜덤화(ADR): 물리 + 비물리 파라미터 동시 랜덤화
물리: 마찰, 질량, 관절 강성, 중력
비물리: 조명, 카메라 위치, 텍스처, 배경
Allegro Hand + Isaac Gym
Omniverse Replicator로 합성 시각 데이터 생성
시각 기반 정책이 기존 문헌 능가

핵심 논문: Handa et al. 2023. "DeXtreme: Transfer of Agile In-hand Manipulation from Simulation to Reality." ICRA 2023. Allegro Hand + Isaac Gym에서 ADR로 sim-to-real 다지 조작 달성. 물리/비물리 파라미터의 동시 랜덤화가 핵심입니다.

Figure 14.3: DeXtreme 시스템이 실세계에서 Allegro Hand로 큐브를 재배치하는 연속 프레임. 시뮬레이션 내 ADR(자동 도메인 랜덤화)로 학습된 정책이 제로샷으로 실제 하드웨어에서 견고한 in-hand 재배치를 수행한다. 출처: Handa et al. (2023), Fig. 1.

14.3 촉각 Sim-to-Real: 이진 촉각 피부 모델, 제로샷 전이

촉각 sim-to-real은 시각 sim-to-real보다 본질적으로 어렵습니다:

젤 변형의 정확한 모델링 어려움
다중 물리 결합 (광학 + 변형 + 접촉)
센서 노이즈 프로파일의 시뮬레이션/현실 차이

Yin et al.^[4]의 이진 3축 촉각 피부(binary 3-axis tactile skin [#13]) 모델은 이 문제의 실용적 해법입니다:

단순화: 연속 힘 → 이진 접촉 (접촉 여부 + 3축 방향)
5,000 FPS 시뮬레이션 속도
제로샷 sim-to-real 전이 성공
OOD 물체에서 93% 성공률

이 연구의 핵심 교훈: 정밀한 촉각 시뮬레이션보다 단순화된 모델 + 넓은 커버리지가 sim-to-real 전이에 더 효과적일 수 있습니다.

Sim-to-Real RL for Humanoid Dexterous Manipulation^[6]은 환경 모델링, 보상 설계, 정책 학습, 전이의 실용적 레시피를 제공합니다.

Figure 14.4: Yin et al.의 이진 3축 촉각 피부 모델이 가능케 하는 제로샷 sim-to-real 전이. 시뮬레이션에서 학습한 RL 정책이 (실세계 적응 단계에서) 미지 객체 형상과 새로운 손 자세·객체 동역학에 그대로 일반화된다. 출처: Yin et al. (2024), Fig. 1.

14.4 Real-Sim-Real: RoboPaint [#15], X-Sim, ExoStart

Real-Sim-Real은 실제 데이터를 시뮬레이션에 통합한 후 다시 현실로 전이하는 루프입니다.

RoboPaint (2025)

3D Gaussian Splatting(3DGS)으로 실제 장면을 시뮬레이션에 재구성하여, 시뮬레이션의 시각적 충실도를 높입니다. 이는 시각적 sim-to-real 격차를 줄이는 데 기여합니다.

X-Sim (2025)

Dan et al.^[6]의 X-Sim은 Real-to-Sim-to-Real 파이프라인입니다:

실제 인간 데이터를 시뮬레이션으로 전이
시뮬레이션에서 정책 학습
학습된 정책을 다시 현실로 전이
세미나 1에서 핵심 사례로 논의

ExoStart (2025)

Si et al.^[6]의 ExoStart는 Real-Sim-Real의 가장 데이터 효율적인 사례입니다:

~10회 외골격 시연 (현실)
MuJoCo dynamics filtering (시뮬레이션)
Auto-curriculum RL (시뮬레이션)
ACT vision student (증류)
제로샷 현실 전이

7개 태스크 중 6개에서 >50% 성공률을 달성합니다.

핵심 논문: Si, Z., et al. (2025). "ExoStart: From 10 Exoskeleton Demos to Dexterous Robot Manipulation." Various. 10회 외골격 시연 → MuJoCo dynamics filtering → auto-curriculum RL → zero-shot real 전이. 데이터 효율적 Real-Sim-Real의 대표 사례.

Figure 14.5: ExoStart 프레임워크 개요. (a) 외골격을 통한 인간 시연 수집, (b) Dynamics filtering — 궤적 최적화로 로봇 동역학에 맞춘 궤적 복원, (c) Auto-curriculum RL + 비전 기반 정책 증류. 소수(약 10회)의 시연을 시뮬레이션에서 수천 배로 증폭한 뒤 제로샷 현실 전이한다. 출처: Si et al. (2025), Fig. 1.

DexWM (2025)

Meta FAIR의 DexWM [arXiv Dec 2025]은 인간 비디오로부터 world model을 학습하는 접근입니다:

829시간의 인간 비디오 + 로봇 데이터를 결합하여 world model 학습
학습된 world model로 정책을 시뮬레이션 없이 직접 학습
83% real grasping 성공률 (zero-shot)
기존 Real-Sim-Real과 달리, 명시적 시뮬레이션 엔진 없이 데이터에서 직접 dynamics를 학습
Chapter 15.6의 co-training 접근과 Chapter 15.7의 teleop-free 접근의 중간에 위치하는 방법론

14.5 Sim-to-Real 격차 분석: 동역학, 인지, 접촉 모델

Sim-to-real 격차의 세 가지 근원:

14.5.1 동역학 격차 (Dynamics Gap)

관절 마찰(joint friction), 정마찰(stiction), 접촉 동역학, 변형 물질 거동의 충실한 모델링이 어렵습니다. DeXtreme의 ADR은 이 격차를 "강건성(robustness)"으로 극복하지만, 모든 격차를 해소할 수는 없습니다.

14.5.2 인지 격차 (Perception Gap)

카메라 이미지, 깊이 맵, 촉각 이미지의 시뮬레이션/현실 차이입니다. Omniverse Replicator의 합성 시각 데이터, RoboPaint의 3DGS 재구성이 이를 줄입니다.

14.5.3 접촉 모델 격차 (Contact Model Gap)

촉각 sim-to-real의 가장 어려운 부분입니다. FEM은 정밀하지만 계산 비용이 높고, 해석적 모델은 근사가 거칩니다. DiffTactile은 미분 가능한 접촉 모델로 이 격차를 줄이려 하지만, 실시간 시뮬레이션에는 아직 부족합니다.

Human-in-the-Loop RL [2025, Science Robotics]는 인간 직관과 자율 정책 최적화를 결합하여, sim-to-real 격차가 클 때에도 정밀 조작을 달성합니다.

14.6 합성 데이터의 위력과 한계

NVIDIA의 합성 데이터 파이프라인은 현재 가장 강력한 데이터 생성 접근입니다:

780K 궤적 (6,500시간 상당) → 11시간에 생성
실제 성능 40% 향상
Isaac Sim + Omniverse Replicator

그러나 합성 데이터의 한계도 명확합니다:

Sim-to-real 격차가 합성 데이터의 효과를 제한
촉각 합성 데이터는 시각보다 격차가 크다
물성(material property) 다양성의 시뮬레이션이 어려움

Figure 14.6: DiffTactile의 변형 물체 파지 — 실세계(좌)와 미분 가능 시뮬레이션(우)의 직접 비교. FEM + MPM + Position-Based Dynamics + penalty-based 접촉 모델을 통해 light-elastic, elastoplastic, cable 물체를 미분 가능하게 모델링하고, 시뮬레이션에서 얻은 gradient로 접촉 풍부 조작 정책을 최적화할 수 있다. 출처: Si et al. (2024), Fig. 1.

요약 및 전망

Sim-to-real 전이는 촉각 기반 조작의 가장 큰 병목 중 하나이며, 동시에 가장 빠르게 진보하는 영역입니다. DeXtreme의 ADR, Yin et al.의 단순화된 촉각 모델, ExoStart의 데이터 효율적 Real-Sim-Real이 현재의 최전선입니다. NVIDIA의 합성 데이터 파이프라인은 규모 문제를 해결하지만, 촉각 sim-to-real 격차는 시각보다 근본적으로 크며, DiffTactile/TacEx 방향의 발전이 필요합니다.

다음 챕터에서는 인간에서 로봇으로의 Embodiment Retargeting을 다룹니다 (→ Chapter 15 참조).

제조 셀 적용 체크포인트

촉각 sim-to-real은 geometry만 맞추는 문제가 아닙니다. 실제 손에서는 젤 마모, 패드 오염, 케이블 장력, 손가락 compliance, 온도 변화, 물체 표면 처리까지 contact signal을 바꿉니다. 따라서 시뮬레이터는 taxel image를 예쁘게 렌더링하는 것만으로 충분하지 않고, force range, shear response, slip onset, sensor noise, calibration drift를 태스크 수준에서 검증해야 합니다.

실전에서는 시뮬레이션을 세 용도로 나누는 것이 좋습니다. 첫째, 위험한 contact transition을 사전에 탐색하는 planner sandbox. 둘째, tactile policy가 다양한 friction과 compliance에서 무너지지 않는지 보는 robustness test. 셋째, 실제 실패 로그를 replay해 같은 failure signature가 재현되는지 확인하는 diagnosis tool. 이 세 용도가 분리되어야 Isaac/TacEx/DiffTactile류 도구가 단순 데모가 아니라 제조 개선 루프에 연결됩니다.

실전 적용 메모

이 장의 핵심은 촉각 sim-to-real을 하나의 연구 키워드로만 보지 않고, 실제 로봇핸드 시스템에서 어떤 결정을 바꾸는지 묻는 데 있습니다. 실험을 설계할 때는 먼저 관측 가능한 상태를 정해야 합니다. 어떤 센서 값이 contact state, slip margin, force limit, object pose, operator override 중 무엇을 설명하는지 명확하지 않으면, 성공률이 높아도 다음 개선 루프가 막힙니다.

두 번째는 기록 단위입니다. 논문 데모는 성공 장면을 보여주지만, 제조형 연구는 실패를 재현 가능한 record로 남겨야 합니다. attempt id, task phase, hardware configuration, calibration version, tactile summary, policy output, human intervention을 함께 저장해야 다른 장에서 설명한 데이터 표현, 제어, 학습, 전이가 서로 연결됩니다.

마지막으로 이 장의 내용을 적용할 때는 "가장 성능이 좋은 방법"보다 "어떤 실패를 줄이는 방법인가"를 먼저 물어야 합니다. 촉각 로봇핸드의 실용성은 센서, 핸드, 정책, 시뮬레이터가 각각 좋은지보다, 실패 원인을 나누고 다음 실험을 더 싸게 만드는지에서 드러납니다.

장별 구현 프레임워크

촉각 sim-to-real을 실제 시스템으로 옮길 때 첫 단계는 상태 정의입니다. 이 장에서 다루는 개념은 추상적인 성능 지표가 아니라, controller와 logger가 함께 읽을 수 있는 state variable이어야 합니다. 예를 들어 contact state, normal force, shear vector, slip margin, object pose, task phase, operator override, product-damage flag가 각각 어느 좌표계와 어느 시간 해상도에서 저장되는지 정해야 합니다. 이 정의가 없으면 정책이 성공하더라도 왜 성공했는지 알기 어렵고, 실패했을 때도 planner, controller, sensor, hardware, operator workflow 중 어느 부분을 고쳐야 하는지 분리할 수 없습니다.

두 번째 단계는 제어 루프를 시간 규모별로 나누는 것입니다. 빠른 루프는 200-1000 Hz에서 force derivative, shear spike, motor current, joint torque를 처리합니다. 중간 루프는 20-100 Hz에서 contact pose, grasp phase, reference finger motion을 갱신합니다. 느린 루프는 1-10 Hz에서 task instruction, object identity, SKU, fixture state, next grasp candidate를 판단합니다. 촉각 sim-to-real이 어느 루프에 들어가는지 명확해야 VLA, MPC, tactile reflex, residual policy가 서로 다른 일을 하면서도 같은 목표를 향해 작동합니다. 모든 정보를 하나의 거대 정책에 넣는 방식은 구현은 단순해 보이지만, latency와 failure diagnosis에서 약합니다.

세 번째 단계는 record schema입니다. 최소한 attempt id, robot hand model, sensor layout, calibration version, task phase, object/SKU id, selected grasp, measured contact patch, normal/shear force summary, slip event, action output, safety intervention, final outcome을 저장해야 합니다. 제조 셀에서는 이 record가 곧 QA trace입니다. 연구실에서는 한 번의 성공 영상이 설득력을 가질 수 있지만, 생산 라인에서는 실패가 반복될 때 원인을 좁히는 능력이 더 중요합니다. 따라서 촉각 sim-to-real 실험의 결과표는 success rate 하나가 아니라 failure type distribution, retry count, damage rate, cycle time variance, operator intervention frequency를 함께 보여야 합니다.

네 번째 단계는 작은 테스트 프로토콜입니다. 처음부터 모든 물체와 모든 손 동작을 다루면 실패 원인을 해석하기 어렵습니다. 먼저 single contact acquisition, stable hold, controlled release, contact switch, recovery after slip 같은 원자 태스크를 정의합니다. 그 다음 두세 개의 원자 태스크를 묶어 sequential manipulation을 만들고, 마지막에 Cosmax형 first grasp -> in-hand rearrangement -> second grasp 시나리오로 확장합니다. 이렇게 해야 촉각 sim-to-real이 실제로 어떤 failure mode를 줄였는지 확인할 수 있습니다. 특히 손안 조작과 다물체 파지는 성공/실패가 한 순간에 결정되지 않고, 여러 contact transition의 누적으로 결정됩니다.

다섯 번째 단계는 하드웨어와 유지보수 조건을 실험 변수로 포함하는 것입니다. 같은 알고리즘도 젤 표면 마모, 패드 오염, 케이블 장력, 센서 교체 후 calibration, 손가락 backlash, 온도, 표면 습도에 따라 다르게 작동합니다. 따라서 실험 로그에는 software version뿐 아니라 pad age, cleaning state, calibration time, replacement event, fault code를 기록해야 합니다. 이 정보가 있어야 모델 성능 저하와 센서/기구 열화를 분리할 수 있습니다. 제조용 tactile robotics는 policy benchmark가 아니라 운영 시스템이기 때문에, maintenance variable은 주변 정보가 아니라 핵심 state입니다.

마지막 단계는 의사결정 기준입니다. 촉각 sim-to-real을 도입했을 때 성공률이 올라가는지만 보지 말고, 어떤 실패가 줄었는지를 확인해야 합니다. perception failure가 줄었는지, contact acquisition failure가 줄었는지, force closure 부족이 줄었는지, execution-time slip이 줄었는지, 아니면 operator override가 줄었는지 분리해야 합니다. 이 분해가 가능해야 다음 투자가 정해집니다. 센서를 바꿀지, 손을 바꿀지, controller를 바꿀지, simulator를 보강할지, 데이터 수집을 늘릴지가 명확해집니다.

구현 질문	확인할 로그	통과 기준
상태가 관측되는가	sensor packet, calibrated value, contact frame	controller와 QA가 같은 값을 읽음
제어 루프가 분리되는가	fast reflex, mid-level planner, slow policy timestamp	빠른 slip 사건과 느린 task decision이 충돌하지 않음
실패가 분류되는가	failure type, phase, intervention note	실패 원인이 3개 이하 후보로 좁혀짐
유지보수가 기록되는가	pad age, calibration version, replacement event	성능 저하와 hardware drift를 분리 가능
제조 KPI와 연결되는가	cycle time, damage rate, retry count, downtime	연구 성공률이 운영 지표로 번역됨

검증 프로토콜: 데모에서 반복 가능한 실험으로

이 장의 방법을 검증할 때는 한 번의 성공 장면보다 반복 가능한 실험 단위가 중요합니다. 첫 단계는 reset condition을 고정하는 것입니다. 물체의 시작 위치, 손의 초기 자세, 센서 calibration, 패드 상태, 주변 조명, fixture 상태가 매 trial마다 다르면 tactile feedback의 효과를 분리할 수 없습니다. 두 번째 단계는 disturbance를 의도적으로 넣는 것입니다. 물체를 조금 회전시키거나, 표면 마찰을 바꾸거나, 손가락 하나의 초기 접촉을 늦추면 controller가 진짜로 접촉 정보를 쓰는지 드러납니다.

세 번째 단계는 ablation입니다. tactile 없이, normal force만, shear까지 포함, slip event까지 포함, full tactile summary까지 포함하는 순서로 비교해야 합니다. 이렇게 해야 성능 향상이 taxel 수 때문인지, 전단력 때문인지, 시간 해상도 때문인지, 단순히 더 큰 policy 때문인지 구분할 수 있습니다. 네 번째 단계는 recovery metric입니다. 실패를 완전히 막지 못하더라도, slip 이후 회복 시간이 줄거나 operator override가 줄면 제조 관점에서는 의미 있는 개선입니다.

마지막 단계는 deployment rehearsal입니다. 연구자가 직접 조정하는 실험과 작업자가 절차서대로 수행하는 실험은 다릅니다. 작업자가 센서를 교체하고 calibration을 실행한 뒤 같은 KPI가 유지되는지 봐야 합니다. 이 단계에서 cycle time, damage rate, retry count, downtime, intervention frequency가 함께 유지되어야 제조 적용 가능성을 말할 수 있습니다.

참고문헌

Handa et al. 2023. DeXtreme: Transfer of agile in-hand manipulation from simulation to reality. ICRA 2023. arXiv:2210.13702. scholar
Various. (2020). OpenAI Dactyl: Solving Rubik's Cube with a robot hand. IJRR. scholar
Wang, S., Lambeta, M., et al. (2022). Tacto: A fast, flexible, and open-source simulator for vision-based tactile sensors. IEEE RA-L. scholar
Si, Z., Zhang, G., Ben, Q., Romero, B., Xian, Z., Liu, C., & Gan, C. (2024). DiffTactile: A physics-based differentiable tactile simulator for contact-rich robotic manipulation. ICLR 2024. arXiv:2403.08716. scholar
Yin, J., Qi, H., Malik, J., Pikul, J., Yim, M., & Hellebrekers, T. (2024). Learning in-hand translation using tactile skin with shear and normal force sensing. arXiv:2407.07885. #13 scholar
Si, Z., Qian, K., Sontakke, N., et al. (2025). ExoStart: Efficient learning for dexterous manipulation with sensorized exoskeleton demonstrations. arXiv preprint. arXiv:2506.11775. #9 scholar
Dan, P., et al. (2025). X-Sim: Cross-embodiment learning via real-to-sim-to-real. arXiv preprint. scholar
Various. (2026). RoboPaint: From human demonstration to any robot and any view. arXiv preprint. #15 scholar
Various. (2024). TacEx: GelSight tactile simulation in Isaac Sim. arXiv preprint. arXiv:2411.04776. scholar
Various. (2025). Sim-to-real reinforcement learning for vision-based dexterous manipulation on humanoids. arXiv preprint. arXiv:2502.20396. scholar
Various. (2025). Human-in-the-loop RL for precise dexterous manipulation. Science Robotics. https://doi.org/10.1126/scirobotics.ads5033. scholar
NVIDIA. (2025). GR00T N1: An open foundation model for generalist humanoid robots. arXiv preprint. arXiv:2503.14734. scholar
NVIDIA 2026. Synthetic data pipeline: 780K trajectories in 11 hours. GTC 2026 Keynote. scholar
Various. (2025). Tactile Robotics: Past and Future. arXiv:2512.01106. scholar
Lipman, Y., et al. (2023). Flow matching for generative modeling. ICLR 2023. scholar
Various. (2025). DexWM: Dexterous world models from human video. arXiv preprint. Meta FAIR. scholar