[피지컬 AI 입문 ③/③]
ROS 2, 센서, 강화학습, 시뮬레이션, Sim-to-Real… 피지컬 AI를 하려면 배울 게 많아 보인다. 각 기술을 "왜, 어떤 순서로" 배워야 하는지 하나의 큰 흐름으로 정리한다.
이전 편 요약(②) — 휴머노이드가 중요한 건 세상이 사람 기준으로 설계됐기 때문. Atlas(고난도·신뢰성)·Optimus(대량생산·플랫폼)·Figure(현장·데이터)·중국계(저가·공급망)가 서로 다른 길로 같은 목표를 향한다. 피지컬 AI는 기술과 비즈니스가 분리되지 않는다.
이 글에서 다루는 것
- 피지컬 AI의 표준 순환 고리(인식→…→피드백)를 두 예시로 구체화
- ROS 2 · 센서 · 강화학습 · 시뮬레이션 · Sim-to-Real을 왜 배우는가
- 전체 학습 흐름이 곧 실제 개발 순서이자 10주 커리큘럼
(이 글은 2026년 6월 기준으로 작성되었습니다.)
들어가며 — "그래서 나는 뭘 공부해야 하지?"
앞선 두 편에서 우리는 피지컬 AI가 무엇인지(①편), 그리고 전 세계 휴머노이드 경쟁이 어떻게 펼쳐지는지(②편)를 봤습니다. 그럼 자연스럽게 이런 질문이 남습니다.
"이 분야에 들어가려면 도대체 뭘, 어떤 순서로 공부해야 하지?"
ROS 2, 센서, 운동학, 제어, 강화학습, 시뮬레이션, Sim-to-Real… 키워드만 들으면 막막합니다. 하지만 걱정 마세요. 이 모든 기술은 흩어진 과목이 아니라 하나의 큰 흐름으로 연결됩니다. 이번 편에서 그 지도를 그려보겠습니다.
1. 모든 것의 뼈대 — 피지컬 AI의 표준 순환 고리
먼저 큰 그림부터. 피지컬 AI 시스템은 결국 ①편에서 본 표준 순환 고리의 반복입니다.
인식 → 상태 추정 → 판단 → 행동 계획 → 제어 → 동작 → 피드백 → 다시 인식 (반복)
추상적이죠? 두 가지 예시로 구체화해 봅시다.
🦾 로봇 팔이 물체를 집을 때
- 카메라가 물체를 인식한다
- 물체의 위치·자세를 추정한다
- 물체를 잡기 위한 접근 경로를 계획한다
- 그리퍼의 위치와 힘을 제어한다
- 집어서 목표 위치로 옮긴다(동작)
- 성공 여부를 확인하고 보정한다(피드백)
🚗 이동 로봇이 목적지로 갈 때
- LiDAR·카메라가 주변 장애물을 인식한다
- 로봇의 현재 위치를 추정한다
- 목적지까지 경로를 계획한다
- 바퀴 속도·방향을 제어한다(이동 중 장애물 회피)
- 이동 결과를 다시 센서로 확인하고 경로를 수정한다(피드백)

배워야 할 모든 기술은 결국 이 흐름의 어느 단계를 담당하느냐로 이해하면 됩니다.
2. 왜 ROS 2를 배우는가 — "여러 프로그램을 연결하는 신경망"
로봇 시스템은 하나의 프로그램으로 만들어지지 않습니다. 카메라 데이터를 읽는 프로그램, LiDAR를 처리하는 프로그램, 위치를 추정하는 프로그램, 경로를 계획하는 프로그램, 모터를 제어하는 프로그램이 동시에 돌아갑니다.
이들은 서로 데이터를 주고받아야 합니다. 카메라 노드가 이미지를 보내면 비전 노드가 분석하고, LiDAR 노드가 거리를 보내면 SLAM 노드가 지도를 만들고, 경로 계획 노드가 길을 정하면 제어 노드가 바퀴를 움직이죠.
이렇게 여러 기능이 분산되어 동작하는 구조를 체계적으로 연결하는 것이 ROS 2(Robot Operating System 2)입니다. ROS 2를 배우는 진짜 이유는 명령어 암기가 아니라, 로봇 시스템이 어떻게 나뉘고, 어떻게 통신하며, 어떻게 통합되는지를 이해하기 위해서입니다.
💡 용어 풀이
- SLAM: 로봇이 돌아다니며 지도를 만들고 동시에 자기 위치를 찾는 기술 (Simultaneous Localization And Mapping)
- 운동학(kinematics): 관절 각도와 로봇 끝(손·발) 위치 사이의 관계를 계산하는 수학 — "이 각도로 팔을 펴면 손이 어디에 가나"
3. 왜 센서를 배우는가 — "잘못 보면 잘못 움직인다"
AI가 현실에서 행동하려면 먼저 현실을 인식해야 합니다. 사람이 눈·귀·피부·균형 감각으로 세상을 이해하듯, 로봇은 카메라·LiDAR·IMU·Encoder·Force Sensor로 세상을 이해합니다.
문제는 센서 데이터가 완벽하지 않다는 것.
- 카메라는 조명에 영향을 받고
- LiDAR는 물체 표면·반사율에 흔들리고
- IMU는 시간이 지나면 오차가 누적되고
- Encoder는 바퀴가 미끄러지면 실제 이동 거리와 달라집니다.
그래서 센서 값을 그대로 믿으면 안 됩니다. 필터링하고, 보정하고, 여러 센서를 결합(센서 퓨전) 해야 하죠. 핵심 원칙은 단순합니다 — 로봇이 잘못 인식하면 잘못 판단하고, 잘못 판단하면 잘못 움직인다.
💡 용어 풀이 — EKF(확장 칼만 필터): 노이즈 섞인 여러 센서 값을 확률적으로 합쳐 더 정확한 상태(위치·속도 등)를 추정하는 대표적인 센서 퓨전 기법.
4. 왜 강화학습을 배우는가 — "규칙으로 다 못 적는다"
로봇의 모든 행동을 사람이 일일이 규칙으로 적는 건 불가능합니다. 물체의 위치·크기·무게·마찰, 장애물, 바닥 상태, 센서 노이즈까지 고려하면 경우의 수가 폭발하니까요.
강화학습은 로봇이 시행착오로 행동 전략을 스스로 배우는 방법입니다. 어떤 행동을 하고, 결과가 좋으면 보상을 받고, 나쁘면 낮은 보상을 받습니다. 이걸 반복하며 "더 좋은 행동을 고르는 정책"을 학습하죠.
강화학습이 특히 빛나는 문제들:
| 적용 문제 | 설명 |
|---|---|
| 로봇 팔 픽앤플레이스 | 물체를 인식·집어 목표 위치에 놓기 |
| 이동 로봇 경로 추종 | 목적지까지 안정적으로 이동 |
| 장애물 회피 | 동적 환경에서 충돌 피하기 |
| 보행 제어 | 균형 잡고 걷고 방향 바꾸기 |
| 희소 보상 문제 | 성공 보상이 드문 환경에서 학습 |
💡 용어 풀이 — 자주 보는 약어들 (난이도 순서가 아니라, 서로 다른 축의 도구입니다)
- MDP: 강화학습 문제를 수학적으로 정의하는 틀(상태·행동·보상)
- DQN: 가치 기반. 이산(discrete) 행동(예: 상/하/좌/우)에 적합
- PPO · SAC: 정책 기반. 연속(continuous) 제어(예: 관절 토크)에 적합. PPO는 on-policy(방금 모은 경험만 사용), SAC은 off-policy(과거 경험도 재사용)로 데이터 효율이 다름
- HER: 알고리즘이 아니라 희소 보상(성공이 드문 상황) 을 푸는 보조 기법 — "실패한 경험도 다른 목표 기준으로는 성공으로 재해석"
5. 왜 시뮬레이션을 배우는가 — "실제 로봇으로 1만 번 실패할 순 없다"
강화학습은 수많은 반복이 필요합니다. 그런데 실제 로봇으로 바로 학습하면? 넘어지고, 충돌하고, 부품이 부서집니다. 위험하고 비쌉니다.
그래서 Gazebo, PyBullet, Isaac Sim/Isaac Lab 같은 시뮬레이션 환경에서 가상 로봇을 움직이고 학습시킵니다. 중력·마찰을 설정하고, 센서 데이터를 생성하고, 동작을 검증할 수 있죠.
💡 참고 — NVIDIA는 과거 Isaac Gym을 대체해 현재 Isaac Sim / Isaac Lab으로 통합했습니다(Isaac Gym은 사실상 deprecated). 자료를 볼 때 버전에 주의하세요.
| 장점 | 설명 |
|---|---|
| 안전성 | 위험한 동작을 실제 장비 없이 검증 |
| 반복성 | 같은 조건에서 여러 번 실험 |
| 확장성 | 다양한 환경을 빠르게 생성 |
| 데이터 확보 | 강화학습용 대량 경험 데이터 생성 |
| 비용 절감 | 장비 손상·운영 비용 절감 |

하지만 함정이 있습니다. 시뮬레이션과 현실은 완전히 같지 않습니다. 가상에서 잘 움직이던 로봇이 실제에선 작동하지 않을 수 있어요. 이 차이를 Sim-to-Real Gap이라고 부릅니다.
6. 왜 Sim-to-Real을 배우는가 — "연구실을 넘어 현장으로"
Sim-to-Real은 시뮬레이션에서 배운 제어 정책을 실제 로봇에 옮기는 과정입니다. 어려운 이유는 현실이 시뮬레이션보다 훨씬 복잡하기 때문이죠. 관절은 완벽히 움직이지 않고, 바닥은 평평하지 않고, 센서엔 노이즈, 모터엔 지연이 있습니다.
그래서 이런 기술이 필요합니다.
| 기술 | 설명 |
|---|---|
| 물리 파라미터 튜닝 | 마찰·질량·관성을 현실에 가깝게 조정 |
| 센서 노이즈 반영 | 시뮬레이션에 불완전한 데이터 포함 |
| 도메인 무작위화 | 다양한 환경 조건을 무작위로 바꿔 학습 |
| Fine-tuning | 실제 로봇에서 소량의 추가 보정 |
| 안전 제어 | 배포 시 속도·힘·동작 범위 제한 |
피지컬 AI에서 진짜 중요한 건 시뮬레이션 결과가 아니라 실제 동작입니다. 그래서 Sim-to-Real은 이 분야가 연구실을 넘어 산업 현장으로 가기 위한 필수 관문입니다.
7. 가장 중요한 관점 — "하나의 기술이 아니라 전체 시스템"
여기까지 읽으면 한 가지가 분명해집니다. 어느 기술 하나만 잘해선 로봇이 움직이지 않습니다. AI 모델·센서·제어·시뮬레이션은 따로 놀면 안 되고, 하나의 흐름으로 엮여야 합니다.
그래서 피지컬 AI를 배울 땐 항상 이 질문들을 연결해서 생각해야 합니다. 이 표가 이 시리즈 전체의 치트시트입니다.
| 질문 | 어떤 기술의 문제인가 |
|---|---|
| 로봇은 무엇을 보고 있나 | 센서·환경 인식 |
| 센서 데이터는 정확한가 | 노이즈·보정·센서 퓨전(EKF) |
| 로봇의 위치·자세는 어떻게 아나 | 좌표계·상태 추정·SLAM |
| 어떤 목표를 달성해야 하나 | 작업 정의·목표 설정 |
| 어떤 행동이 안전·효율적인가 | 행동 계획·제어 |
| 명령이 실제 하드웨어에서 잘 도나 | 모터·관절·컨트롤러 |
| 시뮬 결과가 현실에서도 되나 | Sim-to-Real |
| 실패하면 어떻게 보정하나 | 피드백·학습 |
8. 전체 학습 흐름 — 하나의 길로 이어진다
이 모든 걸 순서로 배열하면, 그게 바로 실제 지능형 로봇을 만드는 개발 순서가 됩니다.
피지컬 AI 개요 → ROS 2 로봇 소프트웨어 구조 → 로봇 좌표계·운동학 → 로봇 모델링·제어 → 카메라·LiDAR·IMU 센서 처리 → 센서 퓨전·SLAM → 강화학습 행동 전략 → Gazebo·PyBullet·Isaac Sim 시뮬레이션 → Sim-to-Real 적용 → 실제 로봇 통합 프로젝트
이 순서는 그대로 체계적인 커리큘럼의 구조이기도 합니다.
- 1~3주차: ROS 2 기초 → 시각화·운동학 → 제어·센서 처리
- 4주차: 센서 퓨전·SLAM·강화학습 기초
- 5~6주차: 심층 강화학습 — 가치 기반(DQN)부터 정책 기반·연속 제어(PPO·SAC), 희소 보상 기법(HER)까지
- 7주차: Sim-to-Real·도메인 무작위화
- 8~10주차: 실제 로봇 디플로이 → 프로젝트 → 최종 발표

마무리 — 시리즈를 닫으며
3편에 걸쳐 우리는 이렇게 왔습니다.
- ①편: 피지컬 AI = 현실에서 행동하는 AI, 표준 순환 고리(인식→…→피드백)
- ②편: 휴머노이드 로봇 전쟁 — Atlas·Optimus·Figure·중국계의 서로 다른 전략
- ③편: 그 세계로 가는 학습 로드맵 — ROS 2부터 Sim-to-Real까지 하나의 흐름
피지컬 AI를 배운다는 건 단순히 로봇을 조작하는 법을 배우는 게 아닙니다. 현실에서 작동하는 AI 시스템을 설계하고, 구현하고, 검증하고, 실제 환경에 적용하는 능력을 기르는 것입니다. AI의 다음 무대는 화면 밖, 바로 우리가 사는 물리 세계니까요. 함께 시작해 보시죠. 🤖
📚 시리즈 목차
- ① 화면 밖으로 나온 AI — 피지컬 AI란 무엇인가
- ② 휴머노이드 로봇 전쟁 — 테슬라·보스턴 다이내믹스·중국 전략 비교
- ③ 무엇을 배워야 하나 — ROS 2부터 Sim-to-Real까지 학습 로드맵 (이번 글)
'피지컬AI' 카테고리의 다른 글
| [Physical AI W1D2] 1/6 — 리눅스 기초 체력: 쉘·파일시스템·핵심 명령어 (0) | 2026.06.14 |
|---|---|
| [Physical AI W1D1] 5/5 — ROS 2 /clock을 밖으로: WebSocket 서버 + Cloudflare Tunnel (1) | 2026.06.14 |
| [Physical AI W1D1] 4/5 — Colab에서 ROS 2 Humble + Gazebo headless 환경 만들기 (0) | 2026.06.14 |
| [Physical AI W1D1] 2/5 — 휴머노이드 로봇 전쟁: 테슬라·보스턴 다이내믹스·중국 전략 비교 (1) | 2026.06.14 |
| [Physical AI W1D1] 1/5 — 화면 밖으로 나온 AI: 피지컬 AI란 무엇인가 (0) | 2026.06.14 |