Chapter 18: 한계와 미래 — Manufacturing Physical AI를 향해
개요
이 책을 통해 촉각 센서에서 VLA 모델까지, 로봇 핸드에서 산업 배치까지의 전체 그림을 그렸습니다. 이 마지막 챕터에서는 131편의 문헌을 기반으로 기존 연구의 공통 한계점 TOP 10을 체계적으로 정리하고, 5개 그룹의 미래 연구 방향, 10개의 제조업 특화 과제, 그리고 우리의 연구 방향 제안을 다룹니다.
이 챕터를 읽고 나면... - 촉각 기반 조작 연구의 공통 한계점 10가지를 열거할 수 있습니다. - 5개 연구 그룹(센싱, 학습, 하드웨어, 데이터, 배치)의 미래 방향을 설명할 수 있습니다. - 연구 시연과 제조 현장의 격차(3-5년)를 이해합니다. - 메커니즘 + 촉각 + 학습 삼각 통합의 연구 방향을 설명할 수 있습니다.
18.1 기존 연구의 공통 한계점 TOP 10
| 순위 | 한계점 | 빈도 | 핵심 이슈 | 관련 챕터 |
|---|---|---|---|---|
| 1 | Sim-to-Real Gap | 20+ | 촉각 sim-to-real이 시각보다 어려움 | Ch14 |
| 2 | Novel Object Generalization | 15+ | 물성(material) 미반영 | Ch12, Ch13 |
| 3 | Sensor Durability | 12+ | 젤 마모, 교정 소실 | Ch2 |
| 4 | Data Scarcity | 12+ | ~10 demos/hr, 촉각 특히 어려움. 단, EgoScale (NVIDIA, 2026) [21]은 20,854시간 egocentric human video에서 validation loss의 log-linear scaling과 downstream 성능 상관을 보였습니다. 이는 대규모 인간 데이터 수집의 근거를 강화하지만, tactile/force가 없는 vision/action-labeled 데이터이므로 contact-rich 제조 태스크에는 별도 촉각 데이터가 필요합니다 | Ch3, Ch6 |
| 5 | Hardware Cost/Fragility | 10+ | MTBF 데이터 부재 | Ch4 |
| 6 | Cross-Embodiment Transfer | 10+ | 촉각 전이: UniTacHand 1편뿐. 단, 운동학적/시각적 도메인에서는 2024-2026년 급속한 진전 — EgoMimic (Georgia Tech, 2024) [22]: 1시간 인간 데이터 > 2시간 로봇 데이터 (+34-228%); X-Sim (Cornell, CoRL 2025 Oral) [23]: 로봇 데이터 0건으로 실제 태스크 성공; VidBot (TU Munich, CVPR 2025) [24]: 인터넷 비디오만으로 +20% zero-shot 성능; EgoZero (2025) [25]: 스마트글래스만으로 7개 태스크 70% 성공. 촉각 도메인의 일반적 해법은 여전히 부재하나, 교차 체현 전이의 가능성은 빠르게 확장 중 | Ch15 |
| 7 | Multi-Modal Fusion Timing | 8+ | 시각 30Hz vs 촉각 1000Hz | Ch13, Ch16 |
| 8 | Safety in Human Proximity | 7+ | ISO/TS 15066 미충족 | Ch5 |
| 9 | Long-Horizon Task | 7+ | 5-30초 이상 error compounding | Ch13 |
| 10 | Evaluation Standardization | 6+ | 공인 벤치마크 부재 | Ch16 |
18.2 미래 연구 방향 (5개 그룹)
A. 센싱과 인지 (Sensing & Perception)
- 촉각 Foundation Model 확장: Sparsh 460K → 10x 이상 데이터 필요 (→ Ch3.6)
- 신경형태학적 센서: 스파이크 기반 인코딩, 이벤트 구동 (NRE-skin, Nature Comm. 2026) (→ Ch2.6)
- 자가 치유/자가 교정 센서: 산업 장기 운용 (→ Ch2.6)
- 센서 무관 표현: AnyTouch, Sensor-Invariant 방향 (→ Ch3.3)
- 전체 손 고밀도 촉각 커버리지: F-TAC Hand 방향의 표준화 (→ Ch2.4)
- 저가 소형 F/T 센서: CoinFT [28]가 6축 F/T 센싱을 <$10으로 달성했으나, 인장/박리력 취약성과 다양한 핸드 형태에 대한 표준 패키징 필요 [Choi, SNU 세미나 2026]
B. 학습과 제어 (Learning & Control)
- VLA + 촉각 일급 모달리티: ForceVLA [#1], Tactile-VLA 방향 (→ Ch13.4)
- 배치 후 RL로 지속 개선: pi0.6 [#4]/RECAP 패러다임 (→ Ch13.3)
- 1-shot / 0-shot 학습: 인터넷 비디오에서 (Human2Sim2Robot) (→ Ch6.5)
- 촉각 피드백 월드 모델: 모델 기반 계획 (→ Ch13.6)
- 장기 다지 태스크의 계층적 VLA: 오류 복구 포함 (→ Ch13.6)
C. 하드웨어와 설계 (Hardware & Design)
- $1K 이하 촉각 통합 다지 핸드: LEAP 비용 + F-TAC 센싱 (→ Ch4.2)
- 모듈형 교체 가능 센서 피부: AnySkin 12초 교체 방향 (→ Ch2.1.4)
- 안전-손재주 동시 최적화 VSA: 세미나 3 방향 (→ Ch5.2)
- 표준화된 핸드-센서 인터페이스: Digit Plexus 방향 (→ Ch4.6)
D. 데이터와 시뮬레이션 (Data & Simulation)
- 촉각 시뮬레이션 충실도 향상: DiffTactile, TacEx 방향 (→ Ch14.1)
- 대규모 합성 데이터 생성: NVIDIA 780K 궤적의 촉각 확장 (→ Ch14.6)
- 공유 촉각 데이터셋 확장: Touch-and-Go 3M → 100M+ (→ Ch3.5)
- 교차 체현 데이터 재활용: OXE for hands (→ Ch13.5)
- Egocentric 데이터 수집의 폭발적 성장: EgoDex (Apple, 2025) [26]는 829시간, 9,000만 프레임의 손 조작 데이터를, Ego4D (Meta) [27]는 3,670시간, 931명 참가자의 일인칭 비디오를 공개. 인간 egocentric 비디오가 로봇 학습의 핵심 데이터 소스로 부상하고 있습니다 (→ Ch6.5)
- 스케일링 법칙 기반 데이터 전략: EgoScale (NVIDIA, 2026) [21]은 특정 22-DoF hand 실험에서 인간 egocentric 데이터 규모와 validation loss 사이의 log-linear 관계 및 downstream 성능 상관을 보였습니다. 이는 데이터 수집 규모를 설계 변수로 다룰 근거를 주지만, force/tactile 채널이 없는 데이터만으로 제조 contact-rich 태스크의 ROI를 일반화할 수는 없습니다
E. 배치와 응용 (Deployment & Application)
- 인간 근접 정밀 조작의 안전 인증 (→ Ch17.3)
- 촉각 기반 품질 검사: 카메라에 보이지 않는 결함 (→ Ch17.4)
- 생산 속도의 변형 물체 조작: 섬유, 케이블, 식품 (→ Ch5.5)
- 다중 로봇 협업 조작: Helix 이중 로봇 (→ Ch17.6)
18.3 제조업 특화 과제 10가지
연구 시연 → 제조 현장의 격차는 대부분 3-5년입니다:
| 과제 | 심각도 | 예상 시점 | 관련 챕터 |
|---|---|---|---|
| 사이클 타임 매칭 | Critical | 3-5년 | Ch12, Ch13 |
| 24/7 다교대 신뢰성 | Critical | 2-4년 | Ch2, Ch4 |
| 안전 인증 (인간 협업) | Critical | 2-3년 | Ch5 |
| Sub-mm 조립 + 힘 제어 | High | 3-5년 | Ch12, Ch15 |
| 변형 물질 핸들링 | High | 2-4년 | Ch12, Ch5 |
| 도구 사용 (드라이버, 렌치) | High | 3-5년 | Ch12 |
| 현장 기술자 유지보수 | High | 2-4년 | Ch4, Ch17 |
| 혼합 소부품 빈 피킹 | Medium | 1-3년 | Ch12 |
| 촉각 기반 품질 검사 | Medium | 2-4년 | Ch2, Ch16 |
| 기존 자동화 대비 ROI | Medium | 진행 중 | Ch17 |
핵심 관찰: 현재 공장 배치(BMW, Amazon, Mercedes)는 물류 수준입니다. Dexterous assembly는 production 미도달. 책에서 이 capability level 차이를 명확히 구분했습니다.
18.4 우리의 연구 방향 제안
메커니즘 + 촉각 + 학습의 삼각 통합
이 책의 12개 챕터를 관통하는 핵심 통찰을 하나의 연구 방향으로 제안합니다:
축 1 — 메커니즘 (Physical Intelligence):
세미나 3의 지능형 메커니즘이 연속 접촉을 유도하면 (→ Chapter 5), 상태 안정성이 향상되고 제어가 단순화됩니다.
축 2 — 촉각 (Tactile Sensing):
연속 접촉 상태에서 촉각 센서가 접촉 상태를 인식하면 (→ Chapter 2), 더 정밀한 힘 제어와 미끄러짐 감지가 가능합니다. CoinFT의 ~360 Hz 다축 센싱과 ACP의 ~500 Hz 컴플라이언스 제어는 필요한 시간 해상도가 현재 하드웨어로 달성 가능함을 보여줍니다 [Choi, SNU 세미나 2026].
축 3 — 학습 (VLA/Diffusion):
안정적 접촉 상태에서의 촉각 피드백을 VLA/Diffusion Policy가 활용하면 (→ Chapter 12, 8), 학습의 샘플 효율성과 일반화가 향상됩니다. UMI-FT 실험 결과가 이를 검증합니다: in-the-wild 데이터로 훈련한 정책은 미지 환경에서 100% 성공한 반면, 연구실 내 데이터만으로는 20%에 그쳤습니다 — 확장 가능한 수집(축 2)이 학습(축 3)을 직접 향상시키는 것입니다 [Choi, SNU 세미나 2026].
핵심 명제: 메커니즘이 연속 접촉을 물리적으로 보장하고, 촉각이 접촉 상태를 인식하고, 학습이 이를 활용하면 — 각 축의 부담이 경감되며 전체 시스템의 견고성이 향상됩니다.
추가 연구 방향
- Shared Sensing Platform: OSMO [#18]/UniTacHand [#16] 방향의 교차 체현 촉각 전이 일반화 (→ Chapter 15.4)
- Factory-Specific Foundation Model: 공장 환경 특화 촉각-시각 Foundation Model (물성, 표면 상태)
- Open Hardware + Open Data: LEAP/ORCA 수준 저비용 핸드 + Touch100k 수준 데이터셋 확장
- 연속 접촉 기반 조작: 세미나 3의 독창적 인사이트 — 메커니즘이 연속 접촉을 유도하면 sensing/learning 부담 경감
2024-2026 핵심 발견: 반직관적 결과 세 가지
최근 연구들은 로봇 학습에 대한 기존의 가정을 뒤집는 반직관적 결과를 보고하고 있습니다:
- 1시간 인간 데이터 > 2시간 로봇 데이터: EgoMimic [22]은 인간 시연 1시간이 로봇 텔레오퍼레이션 2시간보다 +34-228% 높은 성능을 달성함을 보였습니다. 인간 데이터의 품질과 다양성이 로봇 데이터의 양을 압도합니다.
- 인간 데이터만으로 로봇 제어 가능: X-Sim [23]은 로봇 데이터 없이 인간 비디오만으로 실제 로봇 태스크를 성공시켰고, EgoZero [25]는 스마트글래스만으로 7개 태스크에서 70% 성공률을, VidBot [24]은 인터넷 비디오만으로 +20% zero-shot 성능 향상을 달성했습니다.
- Log-linear 스케일링: 인간 데이터 양 증가와 성능 상관: EgoScale [21]은 20,854시간의 인간 egocentric 데이터에서 validation loss의 log-linear scaling을 보고했고, 특정 22-DoF hand 태스크에서 downstream 성능과의 상관 및 no-pretraining 대비 평균 성공률 향상을 보였습니다. 다만 이 결과는 촉각/힘 채널이 없는 vision/action-labeled 데이터에 대한 것이므로, 제조 contact-rich 태스크에서는 tactile-rich data와 함께 해석해야 합니다.
시사점: 이 세 가지 발견은 "로봇 학습에는 로봇 데이터가 필수"라는 기존 패러다임에 도전합니다. 인간 egocentric 데이터의 대규모 수집과 교차 체현 전이가 촉각 로봇 공학의 데이터 병목을 해소할 핵심 경로가 될 수 있습니다.
18.9 제조 수작업과 로봇핸드 중심 보강
S6 physical-ai-manufacturing과 S9 nvidia-physical-ai-robotics의 핵심 논지는 이 챕터에도 그대로 적용됩니다. 제조 피지컬AI는 휴머노이드를 구매하는 일이 아니라, bounded cell에서 공정 데이터, 평가 harness, 실패 로그, QA trace를 축적하는 운영 루프입니다 [29]. 로봇핸드는 이 루프의 말단 부품이지만, 가장 많은 불확실성을 만나는 부품이기도 합니다.
Cosmax형 화장품 제조 라인을 기준으로 보면 우선순위는 다음과 같습니다.
- rigid pick/place보다 sequential multi-object grasping과 cluttered manipulation이 빨리 병목이 됩니다.
- 비전으로 가려지는 순간 tactile force와 slip margin이 안전 gate가 됩니다.
- 손가락 수와 DoF보다 센서 교체성, calibration drift, cleaning, cycle time, operator override가 배치성을 좌우합니다.
- Isaac/GR00T/EgoScale 같은 스택은 완제품 해법이 아니라 task schema, USD/CAD asset, synthetic/real evaluation, failure replay를 묶는 데이터 공장으로 써야 합니다.
따라서 통합 전망의 결론은 단순합니다. 2026년의 로봇핸드는 더 많은 손가락을 가진 말단장치가 아니라, tactile sensing, teleoperation, simulation, VLA, 제조 QA loop에 연결되는 process sensor + actuator로 재정의되고 있습니다.
요약: 이 책의 메시지
촉각은 로봇 조작의 마지막 퍼즐 조각입니다. 비전 기반 센서의 저비용화(GelSight → DIGIT $350 → Digit 360), 저비용 오픈소스 핸드의 민주화(Shadow $100K → LEAP $2K), 대규모 Foundation Model의 등장(RT-2 → pi0 → Gemini Robotics)이라는 세 흐름이 수렴하면서, 촉각 로봇 공학은 역사상 가장 빠른 속도로 발전하고 있습니다.
2026년 현재, 촉각은 더 이상 선택 사항이 아닙니다. 표준이 되고 있습니다.
그리고 이 표준을 제조 현장의 정밀 조작으로 전환하는 것이 — 이 책이 제안하는 "Physical AI for Manufacturing"의 핵심 과제입니다.
18.10 제조 셀 적용 체크포인트
통합과 전망의 결론은 낙관론보다 운영 설계에 가까워야 합니다. 2026년의 로봇핸드는 더 많은 DoF, 더 높은 taxel density, 더 큰 VLA를 향해 가고 있지만, 제조에서 가치를 만들려면 bounded cell, task schema, evaluation harness, failure log, QA trace가 함께 설계되어야 합니다. 특히 화장품 제조처럼 작은 용기, 미끄러운 표면, 포장재 변형, 반복적인 다물체 취급이 있는 라인에서는 tactile sensing이 단순한 연구 기능이 아니라 안전 gate와 공정 센서가 됩니다.
따라서 향후 로드맵은 세 축으로 나누는 것이 실용적입니다. 첫째, 손 하드웨어는 교체성, 청소성, force limit, tactile option을 중심으로 선택합니다. 둘째, 데이터 파이프라인은 Data A처럼 로봇이 실행 가능한 궤적과 Data B처럼 대규모 사람 손 관찰을 구분하고, tactile-rich specialist data로 contact-rich gap을 메웁니다. 셋째, 학습과 제어는 VLA, MPC, tactile reflex, residual learning을 하나의 폐루프로 연결합니다. 이 세 축이 맞물릴 때 로봇핸드는 단순 말단장치가 아니라 제조 피지컬AI의 관측-제어-개선 인터페이스가 됩니다.
실전 적용 메모
이 장의 핵심은 미래 연구 로드맵을 하나의 연구 키워드로만 보지 않고, 실제 로봇핸드 시스템에서 어떤 결정을 바꾸는지 묻는 데 있습니다. 실험을 설계할 때는 먼저 관측 가능한 상태를 정해야 합니다. 어떤 센서 값이 contact state, slip margin, force limit, object pose, operator override 중 무엇을 설명하는지 명확하지 않으면, 성공률이 높아도 다음 개선 루프가 막힙니다.
두 번째는 기록 단위입니다. 논문 데모는 성공 장면을 보여주지만, 제조형 연구는 실패를 재현 가능한 record로 남겨야 합니다. attempt id, task phase, hardware configuration, calibration version, tactile summary, policy output, human intervention을 함께 저장해야 다른 장에서 설명한 데이터 표현, 제어, 학습, 전이가 서로 연결됩니다.
마지막으로 이 장의 내용을 적용할 때는 "가장 성능이 좋은 방법"보다 "어떤 실패를 줄이는 방법인가"를 먼저 물어야 합니다. 촉각 로봇핸드의 실용성은 센서, 핸드, 정책, 시뮬레이터가 각각 좋은지보다, 실패 원인을 나누고 다음 실험을 더 싸게 만드는지에서 드러납니다.
참고문헌
- Various. (2025). DeXtreme: Transfer of agile in-hand manipulation. ICRA 2023. scholar
- Various. (2025). Tactile Robotics: Past and Future. arXiv:2512.01106. scholar
- Bhirangi, R., et al. (2024). AnySkin: Plug-and-play skin sensing. ICRA 2025. scholar
- Zhao, Z., Li, W., Li, Y., Liu, T., Li, B., Wang, M., Du, K., Liu, H., Zhu, Y., Wang, Q., Althoefer, K., & Zhu, S.-C. (2025). Embedding high-resolution touch across robotic hands enables adaptive human-like grasping. Nature Machine Intelligence. https://doi.org/10.1038/s42256-025-01053-3 #39 scholar
- Various. (2025). NRE-skin. PNAS. scholar
- Various. (2026). Bioinspired spiking architecture. Nature Communications. scholar
- Yu, J., et al. (2025). ForceVLA: Enhancing VLA models with a force-aware MoE for contact-rich manipulation. NeurIPS 2025. #1 scholar
- Various. (2025). Tactile-VLA. OpenReview. scholar
- Physical Intelligence. (2025). pi0.5/RECAP: Post-deployment RL for continuous improvement. arXiv preprint. arXiv:2504.16932. #4 scholar
- Shaw, K., et al. (2024). Learning from internet videos. CMU. scholar
- Si, Z., Zhang, G., Ben, Q., Romero, B., Xian, Z., Liu, C., & Gan, C. (2024). DiffTactile: A physics-based differentiable tactile simulator. ICLR 2024. scholar
- Various. (2024). TacEx: GelSight tactile simulation in Isaac Sim. arXiv preprint. arXiv:2411.04776. scholar
- NVIDIA 2026. 780K trajectories in 11 hours. GTC 2026. scholar
- Various. (2025). OSMO. arXiv:2512.08920. #18 scholar
- Zhang, Y., et al. (2025). UniTacHand. Various. #16 scholar
- Bicchi, A. (2000). Hands for dexterous manipulation. IEEE T-RA. scholar
- Billard, A., & Kragic, D. (2019). Trends and challenges. Science. scholar
- Various. (2026). VLA systematic review. Information Fusion. scholar
- Various. (2025). What matters in building VLA models. Nature MI. scholar
- Hogan, N. (1985). Impedance control. JDSMC. scholar
- Bansal, A., et al. (2026). EgoScale: Scaling laws for egocentric human data in robot learning. arXiv preprint. NVIDIA Research. scholar
- Kareer et al. 2024. EgoMimic: Scaling imitation learning via egocentric video. arXiv preprint. Georgia Tech. scholar
- Rishabh, A., et al. (2025). X-Sim: Cross-embodiment simulation for robot learning. CoRL 2025 (Oral). Cornell University. scholar
- Bahl, S., et al. (2025). VidBot: Learning robot policies from internet videos. CVPR 2025. TU Munich. scholar
- Wang, Y., et al. (2025). EgoZero: Robot learning from smart glasses demonstrations. arXiv preprint. scholar
- Apple ML Research. (2025). EgoDex: Learning dexterous manipulation from large-scale egocentric video. 829 hours, 90M frames. arXiv preprint. scholar
- Grauman, K., et al. (2022). Ego4D: Around the world in 3,000 hours of egocentric video. CVPR 2022. Meta AI. 3,670 hours, 931 participants. scholar
- Choi, H., Low, J. E., Huh, T. M., Hong, S., Uribe, G. A., Hoffmann, K. A. W., Di, J., Chen, T. G., Stanley, A. A., & Cutkosky, M. R. (2025). CoinFT: A Coin-Sized, Capacitive 6-Axis Force Torque Sensor for Robotic Applications. arXiv preprint. arXiv:2503.19225. scholar
- Um, T. (2026). S6 Physical AI Manufacturing and S9 NVIDIA Physical AI Robotics survey notes. Terry Surveys. [Um, 2026] source