Part IV: 통합과 전망

Chapter 13: 한계와 미래 — Physical AI for Manufacturing

집필일: 2026-04-01 최종수정일: 2026-04-07

개요

이 책을 통해 촉각 센서에서 VLA 모델까지, 로봇 핸드에서 산업 배치까지의 전체 그림을 그렸습니다. 이 마지막 챕터에서는 131편의 문헌을 기반으로 기존 연구의 공통 한계점 TOP 10을 체계적으로 정리하고, 5개 그룹의 미래 연구 방향, 10개의 제조업 특화 과제, 그리고 우리의 연구 방향 제안을 다룹니다.

이 챕터를 읽고 나면... - 촉각 기반 조작 연구의 공통 한계점 10가지를 열거할 수 있습니다. - 5개 연구 그룹(센싱, 학습, 하드웨어, 데이터, 배치)의 미래 방향을 설명할 수 있습니다. - 연구 시연과 제조 현장의 격차(3-5년)를 이해합니다. - 메커니즘 + 촉각 + 학습 삼각 통합의 연구 방향을 설명할 수 있습니다.

13.1 기존 연구의 공통 한계점 TOP 10

순위	한계점	빈도	핵심 이슈	관련 챕터
1	Sim-to-Real Gap	20+	촉각 sim-to-real이 시각보다 어려움	Ch9
2	Novel Object Generalization	15+	물성(material) 미반영	Ch7, Ch8
3	Sensor Durability	12+	젤 마모, 교정 소실	Ch2
4	Data Scarcity	12+	~10 demos/hr, 촉각 특히 어려움. 단, EgoScale (NVIDIA, 2026) [21]은 인간 데이터의 log-linear 스케일링 법칙을 발견 — R²=0.998로, 20,854시간의 인간 데이터에서 데이터 양 증가 시 예측 가능한 성능 향상을 검증. 데이터 수집의 확장이 곧 성능 향상으로 직결됨을 시사	Ch3, Ch6
5	Hardware Cost/Fragility	10+	MTBF 데이터 부재	Ch4
6	Cross-Embodiment Transfer	10+	촉각 전이: UniTacHand 1편뿐. 단, 운동학적/시각적 도메인에서는 2024-2026년 급속한 진전 — EgoMimic (Georgia Tech, 2024) [22]: 1시간 인간 데이터 > 2시간 로봇 데이터 (+34-228%); X-Sim (Cornell, CoRL 2025 Oral) [23]: 로봇 데이터 0건으로 실제 태스크 성공; VidBot (TU Munich, CVPR 2025) [24]: 인터넷 비디오만으로 +20% zero-shot 성능; EgoZero (2025) [25]: 스마트글래스만으로 7개 태스크 70% 성공. 촉각 도메인의 일반적 해법은 여전히 부재하나, 교차 체현 전이의 가능성은 빠르게 확장 중	Ch10
7	Multi-Modal Fusion Timing	8+	시각 30Hz vs 촉각 1000Hz	Ch8, Ch11
8	Safety in Human Proximity	7+	ISO/TS 15066 미충족	Ch5
9	Long-Horizon Task	7+	5-30초 이상 error compounding	Ch8
10	Evaluation Standardization	6+	공인 벤치마크 부재	Ch11

Figure 13.1: 공통 한계점 TOP 10 — 빈도와 심각도 매트릭스.

13.2 미래 연구 방향 (5개 그룹)

A. 센싱과 인지 (Sensing & Perception)

촉각 Foundation Model 확장: Sparsh 460K → 10x 이상 데이터 필요 (→ Ch3.6)
신경형태학적 센서: 스파이크 기반 인코딩, 이벤트 구동 (NRE-skin, Nature Comm. 2026) (→ Ch2.6)
자가 치유/자가 교정 센서: 산업 장기 운용 (→ Ch2.6)
센서 무관 표현: AnyTouch, Sensor-Invariant 방향 (→ Ch3.3)
전체 손 고밀도 촉각 커버리지: F-TAC Hand 방향의 표준화 (→ Ch2.4)
저가 소형 F/T 센서: CoinFT [Choi et al., 2024]가 6축 F/T 센싱을 <$10으로 달성했으나, 인장/박리력 취약성과 다양한 핸드 형태에 대한 표준 패키징 필요 [Choi, SNU 세미나 2026]

B. 학습과 제어 (Learning & Control)

VLA + 촉각 일급 모달리티: ForceVLA [#1], Tactile-VLA 방향 (→ Ch8.4)
배치 후 RL로 지속 개선: pi0.6 [#4]/RECAP 패러다임 (→ Ch8.3)
1-shot / 0-shot 학습: 인터넷 비디오에서 (Human2Sim2Robot) (→ Ch6.5)
촉각 피드백 월드 모델: 모델 기반 계획 (→ Ch8.6)
장기 다지 태스크의 계층적 VLA: 오류 복구 포함 (→ Ch8.6)

C. 하드웨어와 설계 (Hardware & Design)

$1K 이하 촉각 통합 다지 핸드: LEAP 비용 + F-TAC 센싱 (→ Ch4.2)
모듈형 교체 가능 센서 피부: AnySkin 12초 교체 방향 (→ Ch2.1.4)
안전-손재주 동시 최적화 VSA: 세미나 3 방향 (→ Ch5.2)
표준화된 핸드-센서 인터페이스: Digit Plexus 방향 (→ Ch4.6)

D. 데이터와 시뮬레이션 (Data & Simulation)

촉각 시뮬레이션 충실도 향상: DiffTactile, TacEx 방향 (→ Ch9.1)
대규모 합성 데이터 생성: NVIDIA 780K 궤적의 촉각 확장 (→ Ch9.6)
공유 촉각 데이터셋 확장: Touch-and-Go 3M → 100M+ (→ Ch3.5)
교차 체현 데이터 재활용: OXE for hands (→ Ch8.5)
Egocentric 데이터 수집의 폭발적 성장: EgoDex (Apple, 2025) [26]는 829시간, 9,000만 프레임의 손 조작 데이터를, Ego4D (Meta) [27]는 3,670시간, 931명 참가자의 일인칭 비디오를 공개. 인간 egocentric 비디오가 로봇 학습의 핵심 데이터 소스로 부상하고 있습니다 (→ Ch6.5)
스케일링 법칙 기반 데이터 전략: EgoScale (NVIDIA, 2026) [21]이 발견한 log-linear 스케일링 법칙(R²=0.998)은 인간 데이터의 양을 체계적으로 늘리면 로봇 성능이 예측 가능하게 향상됨을 시사. 데이터 수집 투자의 ROI를 정량적으로 추정할 수 있는 근거를 제공합니다

E. 배치와 응용 (Deployment & Application)

인간 근접 정밀 조작의 안전 인증 (→ Ch12.3)
촉각 기반 품질 검사: 카메라에 보이지 않는 결함 (→ Ch12.4)
생산 속도의 변형 물체 조작: 섬유, 케이블, 식품 (→ Ch5.5)
다중 로봇 협업 조작: Helix 이중 로봇 (→ Ch12.6)

13.3 제조업 특화 과제 10가지

연구 시연 → 제조 현장의 격차는 대부분 3-5년입니다:

과제	심각도	예상 시점	관련 챕터
사이클 타임 매칭	Critical	3-5년	Ch7, Ch8
24/7 다교대 신뢰성	Critical	2-4년	Ch2, Ch4
안전 인증 (인간 협업)	Critical	2-3년	Ch5
Sub-mm 조립 + 힘 제어	High	3-5년	Ch7, Ch10
변형 물질 핸들링	High	2-4년	Ch7, Ch5
도구 사용 (드라이버, 렌치)	High	3-5년	Ch7
현장 기술자 유지보수	High	2-4년	Ch4, Ch12
혼합 소부품 빈 피킹	Medium	1-3년	Ch7
촉각 기반 품질 검사	Medium	2-4년	Ch2, Ch11
기존 자동화 대비 ROI	Medium	진행 중	Ch12

핵심 관찰: 현재 공장 배치(BMW, Amazon, Mercedes)는 물류 수준입니다. Dexterous assembly는 production 미도달. 책에서 이 capability level 차이를 명확히 구분했습니다.

13.4 우리의 연구 방향 제안

메커니즘 + 촉각 + 학습의 삼각 통합

이 책의 12개 챕터를 관통하는 핵심 통찰을 하나의 연구 방향으로 제안합니다:

축 1 — 메커니즘 (Physical Intelligence):

세미나 3의 지능형 메커니즘이 연속 접촉을 유도하면 (→ Chapter 5), 상태 안정성이 향상되고 제어가 단순화됩니다.

축 2 — 촉각 (Tactile Sensing):

연속 접촉 상태에서 촉각 센서가 접촉 상태를 인식하면 (→ Chapter 2), 더 정밀한 힘 제어와 미끄러짐 감지가 가능합니다. CoinFT의 ~360 Hz 다축 센싱과 ACP의 ~500 Hz 컴플라이언스 제어는 필요한 시간 해상도가 현재 하드웨어로 달성 가능함을 보여줍니다 [Choi, SNU 세미나 2026].

축 3 — 학습 (VLA/Diffusion):

안정적 접촉 상태에서의 촉각 피드백을 VLA/Diffusion Policy가 활용하면 (→ Chapter 7, 8), 학습의 샘플 효율성과 일반화가 향상됩니다. UMI-FT 실험 결과가 이를 검증합니다: in-the-wild 데이터로 훈련한 정책은 미지 환경에서 100% 성공한 반면, 연구실 내 데이터만으로는 20%에 그쳤습니다 — 확장 가능한 수집(축 2)이 학습(축 3)을 직접 향상시키는 것입니다 [Choi, SNU 세미나 2026].

핵심 명제: 메커니즘이 연속 접촉을 물리적으로 보장하고, 촉각이 접촉 상태를 인식하고, 학습이 이를 활용하면 — 각 축의 부담이 경감되며 전체 시스템의 견고성이 향상됩니다.

Figure 13.4a: 계층적 촉각 제어 아키텍처 — 상위 계획 + 하위 반사 제어. Source: Choi, SNU Data Science Seminar 2026.

추가 연구 방향

Shared Sensing Platform: OSMO [#18]/UniTacHand [#16] 방향의 교차 체현 촉각 전이 일반화 (→ Chapter 10.4)
Factory-Specific Foundation Model: 공장 환경 특화 촉각-시각 Foundation Model (물성, 표면 상태)
Open Hardware + Open Data: LEAP/ORCA 수준 저비용 핸드 + Touch100k 수준 데이터셋 확장
연속 접촉 기반 조작: 세미나 3의 독창적 인사이트 — 메커니즘이 연속 접촉을 유도하면 sensing/learning 부담 경감

2024-2026 핵심 발견: 반직관적 결과 세 가지

최근 연구들은 로봇 학습에 대한 기존의 가정을 뒤집는 반직관적 결과를 보고하고 있습니다:

1시간 인간 데이터 > 2시간 로봇 데이터: EgoMimic [22]은 인간 시연 1시간이 로봇 텔레오퍼레이션 2시간보다 +34-228% 높은 성능을 달성함을 보였습니다. 인간 데이터의 품질과 다양성이 로봇 데이터의 양을 압도합니다.

인간 데이터만으로 로봇 제어 가능: X-Sim [23]은 로봇 데이터 없이 인간 비디오만으로 실제 로봇 태스크를 성공시켰고, EgoZero [25]는 스마트글래스만으로 7개 태스크에서 70% 성공률을, VidBot [24]은 인터넷 비디오만으로 +20% zero-shot 성능 향상을 달성했습니다.

Log-linear 스케일링: 인간 데이터 양 증가 → 성능 예측 가능하게 향상: EgoScale [21]은 20,854시간의 인간 데이터에서 R²=0.998의 log-linear 스케일링 법칙을 발견했습니다. 이는 대규모 언어 모델의 스케일링 법칙과 유사하며, 인간 데이터 수집에 대한 체계적 투자가 로봇 성능의 예측 가능한 향상으로 이어짐을 의미합니다.

시사점: 이 세 가지 발견은 "로봇 학습에는 로봇 데이터가 필수"라는 기존 패러다임에 도전합니다. 인간 egocentric 데이터의 대규모 수집과 교차 체현 전이가 촉각 로봇 공학의 데이터 병목을 해소할 핵심 경로가 될 수 있습니다.

요약: 이 책의 메시지

촉각은 로봇 조작의 마지막 퍼즐 조각입니다. 비전 기반 센서의 저비용화(GelSight → DIGIT $350 → Digit 360), 저비용 오픈소스 핸드의 민주화(Shadow $100K → LEAP $2K), 대규모 Foundation Model의 등장(RT-2 → pi0 → Gemini Robotics)이라는 세 흐름이 수렴하면서, 촉각 로봇 공학은 역사상 가장 빠른 속도로 발전하고 있습니다.

2026년 현재, 촉각은 더 이상 선택 사항이 아닙니다. 표준이 되고 있습니다.

그리고 이 표준을 제조 현장의 정밀 조작으로 전환하는 것이 — 이 책이 제안하는 "Physical AI for Manufacturing"의 핵심 과제입니다.

참고문헌

Various. (2025). DeXtreme: Transfer of agile in-hand manipulation. ICRA 2023. scholar
Various. (2025). Tactile Robotics: Past and Future. arXiv:2512.01106. scholar
Bhirangi, R., et al. (2024). AnySkin: Plug-and-play skin sensing. ICRA 2025. scholar
Zhao, Z., Li, W., Li, Y., Liu, T., Li, B., Wang, M., Du, K., Liu, H., Zhu, Y., Wang, Q., Althoefer, K., & Zhu, S.-C. (2025). Embedding high-resolution touch across robotic hands enables adaptive human-like grasping. Nature Machine Intelligence. https://doi.org/10.1038/s42256-025-01053-3 #39 scholar
Various. (2025). NRE-skin. PNAS. scholar
Various. (2026). Bioinspired spiking architecture. Nature Communications. scholar
Yu, J., et al. (2025). ForceVLA: Enhancing VLA models with a force-aware MoE for contact-rich manipulation. NeurIPS 2025. #1 scholar
Various. (2025). Tactile-VLA. OpenReview. scholar
Physical Intelligence. (2025). pi0.5/RECAP: Post-deployment RL for continuous improvement. arXiv preprint. arXiv:2504.16932. #4 scholar
Shaw, K., et al. (2024). Learning from internet videos. CMU. scholar
Si, Z., Zhang, G., Ben, Q., Romero, B., Xian, Z., Liu, C., & Gan, C. (2024). DiffTactile: A physics-based differentiable tactile simulator. ICLR 2024. scholar
Various. (2024). TacEx: GelSight tactile simulation in Isaac Sim. arXiv preprint. arXiv:2411.04776. scholar
NVIDIA. (2026). 780K trajectories in 11 hours. GTC 2026. scholar
Various. (2025). OSMO. arXiv:2512.08920. #18 scholar
Zhang, Y., et al. (2025). UniTacHand. Various. #16 scholar
Bicchi, A. (2000). Hands for dexterous manipulation. IEEE T-RA. scholar
Billard, A., & Kragic, D. (2019). Trends and challenges. Science. scholar
Various. (2026). VLA systematic review. Information Fusion. scholar
Various. (2025). What matters in building VLA models. Nature MI. scholar
Hogan, N. (1985). Impedance control. JDSMC. scholar
Bansal, A., et al. (2026). EgoScale: Scaling laws for egocentric human data in robot learning. arXiv preprint. NVIDIA Research. scholar
Kareer, S., et al. (2024). EgoMimic: Scaling imitation learning via egocentric video. arXiv preprint. Georgia Tech. scholar
Rishabh, A., et al. (2025). X-Sim: Cross-embodiment simulation for robot learning. CoRL 2025 (Oral). Cornell University. scholar
Bahl, S., et al. (2025). VidBot: Learning robot policies from internet videos. CVPR 2025. TU Munich. scholar
Wang, Y., et al. (2025). EgoZero: Robot learning from smart glasses demonstrations. arXiv preprint. scholar
Apple ML Research. (2025). EgoDex: Learning dexterous manipulation from large-scale egocentric video. 829 hours, 90M frames. arXiv preprint. scholar
Grauman, K., et al. (2022). Ego4D: Around the world in 3,000 hours of egocentric video. CVPR 2022. Meta AI. 3,670 hours, 931 participants. scholar