Chapter 16: 시스템 통합 — 연구적 관점
개요
앞선 10개 챕터에서 개별 구성 요소 — 센서, 데이터, 핸드, 학습, 전이 — 를 다뤘다면, 이 챕터에서는 이들이 하나의 시스템으로 통합되는 과정을 다룹니다. 다중 모달 융합 아키텍처, End-to-End 시스템 사례, 오픈소스 생태계, 벤치마크와 표준화를 통해 연구의 현 위치를 조망합니다.
이 챕터를 읽고 나면... - 시각-촉각 융합의 주요 아키텍처(early/late/MoE)를 비교할 수 있습니다. - Mobile ALOHA, PP-Tac [#12], 세미나 3 통합 그리퍼의 시스템적 의의를 설명할 수 있습니다. - 오픈소스 하드웨어/소프트웨어/데이터의 연구 가속화 효과를 이해합니다. - RGMC 등 벤치마크의 현황과 표준화 필요성을 파악합니다.
16.1 다중 모달 통합 아키텍처
시각-촉각 융합
Robot Synesthesia [1]: 포인트 클라우드 기반 촉각과 시각의 융합. PointNet 인코더로 촉각 포인트 클라우드 처리, 새로운 물체에 일반화 (→ Chapter 3.1.4).
NeuralFeels [2]: 신경장(neural field) 기반 시각-촉각 인지. 손 안에서 물체의 자세와 형상을 동시에 추정. Science Robotics (→ Chapter 1.3.4).
3D-ViTac [3]: 3mm² 밀도 촉각 + 시각의 통합 3D 표현. Diffusion Policy로 85-90% 양손 성공률 (시각만 45-50%) (→ Chapter 2.4).
힘-시각-언어 융합
ForceVLA [12] [#1]: FVLMoE(4 expert MoE)로 힘-시각-언어 동적 라우팅. +23.2%p, 시각 가림 시 90% (→ Chapter 12.4, 8.4).
Tactile-VLA[5]: VLA의 사전학습 물리 지식을 촉각으로 해방 (→ Chapter 13.4).
표현 정렬
UniTouch [6]: 대조 학습으로 촉각-시각-언어-오디오 정렬. 제로샷 분류 (→ Chapter 3.6).
Sparsh [7]: 460K+ 이미지 자기지도 촉각 Foundation Model (→ Chapter 3.6).
VTV-LLM[8]: 접촉 전 물리 속성(마찰, 유연성) 추론. 시각-촉각 비디오 + LLM으로 물성 예측.
융합 아키텍처 비교
| 아키텍처 | 장점 | 단점 | 대표 사례 |
|---|---|---|---|
| Early fusion | 저수준 특징 결합 | 모달리티 간 간섭 | 3D-ViTac |
| Late fusion | 모달리티 독립 학습 | 교차 모달 상호작용 제한 | NeuralFeels |
| MoE (동적 라우팅) | 태스크별 최적 융합 | 학습 복잡도 | ForceVLA |
| Attention 기반 | 유연한 가중치 | 계산 비용 | Transformer 기반 VLA |
16.2 End-to-End 시스템 사례
Mobile ALOHA (2024)
Fu, Zhao, Finn [2024, Stanford]: 저비용 이동 양손 조작 시스템:
- ACT 기반 정책 학습
- 모바일 베이스 + 양손 조작 통합
- ~200회 인용
- 연구에서 가장 영향력 있는 end-to-end 시스템
TacEx (2024)
Isaac Sim에서 GelSight 시뮬레이션을 통합:
- 센서 시뮬레이션 → 정책 학습 → sim-to-real 전이를 하나의 플랫폼에서
- 연구 워크플로우 통합의 모범 사례
PP-Tac (2025)
R-Tac + 미끄러짐 감지 + Diffusion Policy → 87.5% 얇은 물체 파지:
- 센서(R-Tac) + 인지(slip CNN) + 제어(force control) + 학습(Diffusion Policy) 통합
- 실용적 문제 해결 지향 시스템
세미나 3 통합 그리퍼
Underactuation + VSA + Active Belt → 공장 자동화 end-effector:
- 메커니즘(Chapter 5) + 센싱 + 제어의 물리적 통합
- 얇은 물체, 복수 물체, 재배치를 하나의 그리퍼로
16.3 오픈소스 생태계와 연구 가속화
촉각 로봇 연구의 가속화는 오픈소스 생태계에 크게 의존합니다.
하드웨어 오픈소스
- LEAP Hand ($2K): 3D 프린팅 다지 핸드
- ORCA (17-DoF): 건 구동 + 촉각 통합
- ISyHand ($1.3K): 관절 손바닥
- OSMO 글로브: 12개 3축 촉각 센서
소프트웨어 오픈소스
- OpenVLA: 7B VLA 모델 (가중치 + 코드)
- Octo: 범용 로봇 정책
- Diffusion Policy: 행동 확산 정책
- ACT/ALOHA: 행동 청킹
데이터 오픈소스
- Open X-Embodiment: 1M+ 궤적, 22 체현
- Touch-and-Go: 3M+ 촉각 접촉
- Touch100k: 100K+ 촉각 이미지
- VTDexManip: 10 태스크, 182 물체
오픈소스가 재현성(reproducibility)과 연구 속도에 미친 영향은 혁명적입니다. 2023년 이전에는 다지 조작 연구에 $16K-100K의 하드웨어가 필요했지만, 현재는 $2K로 시작할 수 있습니다.
16.4 벤치마크와 표준화 동향
RGMC (Robotic Grasping and Manipulation Competition)
ICRA에서 매년 개최되는 RGMC는 촉각 조작의 가장 공인된 벤치마크입니다. 2025년 RGMC Champion [12]은 학습 없는 최적화 접근으로 우승하여, 방법론적 다양성의 중요성을 보여주었습니다 (→ Chapter 12.5).
촉각 센서 벤치마크의 부재
시각 인지(perception)에는 ImageNet, COCO 등 표준 벤치마크가 존재하지만, 촉각 센서에는 공인 벤치마크가 없습니다. 이는 센서 간 성능 비교를 어렵게 하며, 연구 재현성을 저해합니다.
데이터 포맷 표준화
Albini et al.[12]의 6가지 데이터 구조(Chapter 3)가 de facto 표준 후보입니다. 촉각 데이터의 표준 포맷이 확립되면, 교차 센서/교차 연구실 데이터 공유가 가능해집니다.
교차 체현 평가 프레임워크
Open X-Embodiment[14]가 제시한 교차 체현 평가 프레임워크는 다양한 로봇에서의 일관된 성능 비교를 가능하게 합니다.
Multimodal Tactile-Vision for Housekeeping [Nature Communications, 2024]은 가사 환경에서 압력, 온도, 질감, 미끄러짐 + 시각의 다중 모달 통합을 구현한 end-to-end 사례입니다.
16.9 제조 수작업과 로봇핸드 중심 보강
S6 physical-ai-manufacturing과 S9 nvidia-physical-ai-robotics의 핵심 논지는 이 챕터에도 그대로 적용됩니다. 제조 피지컬AI는 휴머노이드를 구매하는 일이 아니라, bounded cell에서 공정 데이터, 평가 harness, 실패 로그, QA trace를 축적하는 운영 루프입니다 [19]. 로봇핸드는 이 루프의 말단 부품이지만, 가장 많은 불확실성을 만나는 부품이기도 합니다.
Cosmax형 화장품 제조 라인을 기준으로 보면 우선순위는 다음과 같습니다.
- rigid pick/place보다 sequential multi-object grasping과 cluttered manipulation이 빨리 병목이 됩니다.
- 비전으로 가려지는 순간 tactile force와 slip margin이 안전 gate가 됩니다.
- 손가락 수와 DoF보다 센서 교체성, calibration drift, cleaning, cycle time, operator override가 배치성을 좌우합니다.
- Isaac/GR00T/EgoScale 같은 스택은 완제품 해법이 아니라 task schema, USD/CAD asset, synthetic/real evaluation, failure replay를 묶는 데이터 공장으로 써야 합니다.
따라서 통합 전망의 결론은 단순합니다. 2026년의 로봇핸드는 더 많은 손가락을 가진 말단장치가 아니라, tactile sensing, teleoperation, simulation, VLA, 제조 QA loop에 연결되는 process sensor + actuator로 재정의되고 있습니다.
요약 및 전망
시스템 통합은 개별 구성 요소의 발전만큼이나 중요합니다. ForceVLA의 MoE 융합, Mobile ALOHA의 저비용 양손 시스템, PP-Tac의 실용적 문제 해결, 그리고 세미나 3의 메커니즘 통합이 각각 다른 관점에서 "전체는 부분의 합보다 크다"를 보여줍니다. 오픈소스 생태계는 이 통합을 가속화하는 핵심 동력이며, 표준화된 벤치마크의 확립이 다음 단계의 과제입니다.
다음 챕터에서는 이 연구적 성과가 산업으로 전환되는 Physical AI와 산업 전망을 다룹니다 (→ Chapter 17 참조).
제조 셀 적용 체크포인트
시스템 통합의 핵심은 손, 센서, 정책, 시뮬레이터, 운영 로그를 하나의 평가 루프로 묶는 것입니다. 제조 셀에서는 로봇핸드가 actuator인 동시에 process sensor가 됩니다. 손가락 힘, slip event, contact patch, cycle time, operator override, 제품 손상 flag가 같은 attempt id로 묶여야 planner와 policy가 실제로 개선될 수 있습니다.
배치 전에는 세 가지 gate를 권장합니다. 첫째, safety gate: force limit, collision, product-damage threshold를 넘으면 즉시 멈추거나 compliant mode로 전환하는가. 둘째, diagnosis gate: 실패를 perception, contact acquisition, force closure, execution slip, hardware fault로 분류할 수 있는가. 셋째, maintenance gate: 센서 교체와 재교정이 현장 작업자 절차 안에 들어오는가. 이 gate가 없으면 좋은 tactile policy도 생산 라인에서는 운영 리스크가 됩니다.
실전 적용 메모
이 장의 핵심은 시스템 통합을 하나의 연구 키워드로만 보지 않고, 실제 로봇핸드 시스템에서 어떤 결정을 바꾸는지 묻는 데 있습니다. 실험을 설계할 때는 먼저 관측 가능한 상태를 정해야 합니다. 어떤 센서 값이 contact state, slip margin, force limit, object pose, operator override 중 무엇을 설명하는지 명확하지 않으면, 성공률이 높아도 다음 개선 루프가 막힙니다.
두 번째는 기록 단위입니다. 논문 데모는 성공 장면을 보여주지만, 제조형 연구는 실패를 재현 가능한 record로 남겨야 합니다. attempt id, task phase, hardware configuration, calibration version, tactile summary, policy output, human intervention을 함께 저장해야 다른 장에서 설명한 데이터 표현, 제어, 학습, 전이가 서로 연결됩니다.
마지막으로 이 장의 내용을 적용할 때는 "가장 성능이 좋은 방법"보다 "어떤 실패를 줄이는 방법인가"를 먼저 물어야 합니다. 촉각 로봇핸드의 실용성은 센서, 핸드, 정책, 시뮬레이터가 각각 좋은지보다, 실패 원인을 나누고 다음 실험을 더 싸게 만드는지에서 드러납니다.
장별 구현 프레임워크
시스템 통합을 실제 시스템으로 옮길 때 첫 단계는 상태 정의입니다. 이 장에서 다루는 개념은 추상적인 성능 지표가 아니라, controller와 logger가 함께 읽을 수 있는 state variable이어야 합니다. 예를 들어 contact state, normal force, shear vector, slip margin, object pose, task phase, operator override, product-damage flag가 각각 어느 좌표계와 어느 시간 해상도에서 저장되는지 정해야 합니다. 이 정의가 없으면 정책이 성공하더라도 왜 성공했는지 알기 어렵고, 실패했을 때도 planner, controller, sensor, hardware, operator workflow 중 어느 부분을 고쳐야 하는지 분리할 수 없습니다.
두 번째 단계는 제어 루프를 시간 규모별로 나누는 것입니다. 빠른 루프는 200-1000 Hz에서 force derivative, shear spike, motor current, joint torque를 처리합니다. 중간 루프는 20-100 Hz에서 contact pose, grasp phase, reference finger motion을 갱신합니다. 느린 루프는 1-10 Hz에서 task instruction, object identity, SKU, fixture state, next grasp candidate를 판단합니다. 시스템 통합이 어느 루프에 들어가는지 명확해야 VLA, MPC, tactile reflex, residual policy가 서로 다른 일을 하면서도 같은 목표를 향해 작동합니다. 모든 정보를 하나의 거대 정책에 넣는 방식은 구현은 단순해 보이지만, latency와 failure diagnosis에서 약합니다.
세 번째 단계는 record schema입니다. 최소한 attempt id, robot hand model, sensor layout, calibration version, task phase, object/SKU id, selected grasp, measured contact patch, normal/shear force summary, slip event, action output, safety intervention, final outcome을 저장해야 합니다. 제조 셀에서는 이 record가 곧 QA trace입니다. 연구실에서는 한 번의 성공 영상이 설득력을 가질 수 있지만, 생산 라인에서는 실패가 반복될 때 원인을 좁히는 능력이 더 중요합니다. 따라서 시스템 통합 실험의 결과표는 success rate 하나가 아니라 failure type distribution, retry count, damage rate, cycle time variance, operator intervention frequency를 함께 보여야 합니다.
네 번째 단계는 작은 테스트 프로토콜입니다. 처음부터 모든 물체와 모든 손 동작을 다루면 실패 원인을 해석하기 어렵습니다. 먼저 single contact acquisition, stable hold, controlled release, contact switch, recovery after slip 같은 원자 태스크를 정의합니다. 그 다음 두세 개의 원자 태스크를 묶어 sequential manipulation을 만들고, 마지막에 Cosmax형 first grasp -> in-hand rearrangement -> second grasp 시나리오로 확장합니다. 이렇게 해야 시스템 통합이 실제로 어떤 failure mode를 줄였는지 확인할 수 있습니다. 특히 손안 조작과 다물체 파지는 성공/실패가 한 순간에 결정되지 않고, 여러 contact transition의 누적으로 결정됩니다.
다섯 번째 단계는 하드웨어와 유지보수 조건을 실험 변수로 포함하는 것입니다. 같은 알고리즘도 젤 표면 마모, 패드 오염, 케이블 장력, 센서 교체 후 calibration, 손가락 backlash, 온도, 표면 습도에 따라 다르게 작동합니다. 따라서 실험 로그에는 software version뿐 아니라 pad age, cleaning state, calibration time, replacement event, fault code를 기록해야 합니다. 이 정보가 있어야 모델 성능 저하와 센서/기구 열화를 분리할 수 있습니다. 제조용 tactile robotics는 policy benchmark가 아니라 운영 시스템이기 때문에, maintenance variable은 주변 정보가 아니라 핵심 state입니다.
마지막 단계는 의사결정 기준입니다. 시스템 통합을 도입했을 때 성공률이 올라가는지만 보지 말고, 어떤 실패가 줄었는지를 확인해야 합니다. perception failure가 줄었는지, contact acquisition failure가 줄었는지, force closure 부족이 줄었는지, execution-time slip이 줄었는지, 아니면 operator override가 줄었는지 분리해야 합니다. 이 분해가 가능해야 다음 투자가 정해집니다. 센서를 바꿀지, 손을 바꿀지, controller를 바꿀지, simulator를 보강할지, 데이터 수집을 늘릴지가 명확해집니다.
| 구현 질문 | 확인할 로그 | 통과 기준 |
|---|---|---|
| 상태가 관측되는가 | sensor packet, calibrated value, contact frame | controller와 QA가 같은 값을 읽음 |
| 제어 루프가 분리되는가 | fast reflex, mid-level planner, slow policy timestamp | 빠른 slip 사건과 느린 task decision이 충돌하지 않음 |
| 실패가 분류되는가 | failure type, phase, intervention note | 실패 원인이 3개 이하 후보로 좁혀짐 |
| 유지보수가 기록되는가 | pad age, calibration version, replacement event | 성능 저하와 hardware drift를 분리 가능 |
| 제조 KPI와 연결되는가 | cycle time, damage rate, retry count, downtime | 연구 성공률이 운영 지표로 번역됨 |
검증 프로토콜: 데모에서 반복 가능한 실험으로
이 장의 방법을 검증할 때는 한 번의 성공 장면보다 반복 가능한 실험 단위가 중요합니다. 첫 단계는 reset condition을 고정하는 것입니다. 물체의 시작 위치, 손의 초기 자세, 센서 calibration, 패드 상태, 주변 조명, fixture 상태가 매 trial마다 다르면 tactile feedback의 효과를 분리할 수 없습니다. 두 번째 단계는 disturbance를 의도적으로 넣는 것입니다. 물체를 조금 회전시키거나, 표면 마찰을 바꾸거나, 손가락 하나의 초기 접촉을 늦추면 controller가 진짜로 접촉 정보를 쓰는지 드러납니다.
세 번째 단계는 ablation입니다. tactile 없이, normal force만, shear까지 포함, slip event까지 포함, full tactile summary까지 포함하는 순서로 비교해야 합니다. 이렇게 해야 성능 향상이 taxel 수 때문인지, 전단력 때문인지, 시간 해상도 때문인지, 단순히 더 큰 policy 때문인지 구분할 수 있습니다. 네 번째 단계는 recovery metric입니다. 실패를 완전히 막지 못하더라도, slip 이후 회복 시간이 줄거나 operator override가 줄면 제조 관점에서는 의미 있는 개선입니다.
마지막 단계는 deployment rehearsal입니다. 연구자가 직접 조정하는 실험과 작업자가 절차서대로 수행하는 실험은 다릅니다. 작업자가 센서를 교체하고 calibration을 실행한 뒤 같은 KPI가 유지되는지 봐야 합니다. 이 단계에서 cycle time, damage rate, retry count, downtime, intervention frequency가 함께 유지되어야 제조 적용 가능성을 말할 수 있습니다.
참고문헌
- Yuan, Y., et al. (2024). Robot Synesthesia: In-hand manipulation with visuotactile sensing. ICRA 2024. scholar
- Suresh, S., et al. (2024). NeuralFeels: Neural fields for visuotactile perception. Science Robotics, 9(86). scholar
- Huang, B., et al. (2024). 3D-ViTac: Learning fine-grained manipulation with visuo-tactile sensing. CoRL 2024. scholar
- Yu, J., Liu, H., Yu, Q., Ren, J., Hao, C., Ding, H., Huang, G., Huang, G., Song, Y., Cai, P., Lu, C., & Zhang, W. (2025). ForceVLA: Enhancing VLA models with a force-aware MoE for contact-rich manipulation. NeurIPS 2025. arXiv:2505.22159. #1 scholar
- Huang, J., Wang, S., Lin, F., Hu, Y., Wen, C., & Gao, Y. (2025). Tactile-VLA: Unlocking vision-language-action model's physical knowledge for tactile generalization. OpenReview. scholar
- Yang, F., et al. (2024). UniTouch: Binding touch to everything. CVPR 2024. scholar
- Higuera, C., et al. (2024). Sparsh: Self-supervised touch representations. CoRL 2024. scholar
- Liu, K., et al. (2025). VTV-LLM: Robotic perception with a large tactile-vision-language model. arXiv preprint. arXiv:2506.19303. scholar
- Fu, Z., Zhao, T. Z., & Finn, C. (2024). Mobile ALOHA: Learning bimanual mobile manipulation with low-cost whole-body teleoperation. arXiv preprint. arXiv:2401.02117. scholar
- Various. (2024). TacEx: GelSight tactile simulation in Isaac Sim. arXiv preprint. arXiv:2411.04776. scholar
- Lin, P., Huang, Y., Li, W., Ma, J., Xiao, C., & Jiao, Z. (2025). PP-Tac: Paper picking using omnidirectional tactile feedback in dexterous robotic hands. RSS 2025. #12 scholar
- Yu, M., et al. (2025). RGMC Champion: Kinematic trajectory optimization. IEEE RA-L. scholar
- Albini, A., et al. (2025). Representing data in robotic tactile perception. arXiv (IEEE T-RO). scholar
- Open X-Embodiment Collaboration. (2024). Open X-Embodiment. ICRA 2024. scholar
- Mao, Q., Liao, Z., Yuan, J., & Zhu, R. (2024). Multimodal tactile sensing fused with vision for dexterous robotic housekeeping. Nature Communications, 15, 6871. https://doi.org/10.1038/s41467-024-51261-5 scholar
- Various. (2025). Simultaneous tactile-visual perception for learning multimodal robot manipulation. arXiv preprint. arXiv:2512.09851. scholar
- Various. (2025). Multimodal fusion and vision-language models: A survey for robot vision. Information Fusion (Elsevier). arXiv:2504.02477. scholar
- Various. (2025). Tactile Robotics: An outlook. arXiv preprint. arXiv:2508.11261. scholar
- Um, T. (2026). S6 Physical AI Manufacturing and S9 NVIDIA Physical AI Robotics survey notes. Terry Surveys. [Um, 2026] source