# AI 에이전트 기술 동향 세미나
### 2026년 3월 | 시장 조사 · 논문 분석 · 핵심 기술 해설

> **발표 대상**: 기술임원
> **발표자**: AX연구소 AI팀

---

## 1. 시장 트렌드 — AI 코딩 도구의 현재

### 산업 전환: "웹 채팅" → "데스크탑 에이전트"

2024년까지 AI는 브라우저 안의 채팅(ChatGPT, Claude.ai)이 주류였습니다.
2026년 현재, **모든 주요 서비스가 데스크탑/터미널 네이티브로 전환**했습니다.

```
2024                          2025                          2026
──────────────────────────────────────────────────────────────────
  웹 채팅 시대                     전환기                    데스크탑 에이전트 시대
  ─────────────                  ──────                   ────────────────
  코드를 복사해서 붙여넣기         Claude Code 출시          AI가 로컬 파일을
  결과를 수동으로 적용             Cursor 에이전트 모드       직접 읽고, 쓰고, 실행
  파일을 업로드/다운로드           Windsurf Cascade          빌드·테스트·Git 자동화
  실행 환경과 완전 분리            GitHub Copilot Agent      이슈→코드→PR 자동화
```

**왜 데스크탑인가?**

| 웹 AI의 한계 | 데스크탑 AI의 해법 |
|-------------|-------------------|
| 코드를 복사해서 붙여넣기 | **프로젝트 전체를 AI가 직접 탐색** |
| 결과를 수동으로 적용 | **파일을 AI가 직접 수정** |
| 별도 브라우저 탭 전환 | **런처/단축키로 즉시 호출** |
| 실행 환경과 분리 | **빌드·테스트·Git을 AI가 직접 실행** |

> **핵심**: AI가 실제 생산성을 높이려면 **사용자의 실제 데이터에 직접 접근**해야 합니다.

### 시장 규모와 채택률

- 개발자의 **85%가 AI 코딩 도구를 일상 사용** (GitHub Survey 2026)
- 단순 자동완성 → **자율 에이전트**로 빠르게 전환 중
- 주요 플레이어 간 **에이전트 지능 경쟁**이 핵심 전장

---

## 2. 주요 서비스 현황과 포지셔닝

### 서비스별 포지션 맵

```
                        고수준 자율성
                            │
                Claude Code ●         ● Cursor
                            │
                            ●   ● Windsurf
                            │
            GitHub Copilot ●│
                            │
        ─────────────────── │ ──────────────────────
        터미널 기반           │           IDE 통합
                            │
                   Raycast ●│ ● Flow Launcher
                            │
                        단순 도구
```

### Claude Code (Anthropic) — 터미널 에이전트의 기준

| 핵심 기능 | 설명 |
|-----------|------|
| **SWE-bench 80.8%** | 업계 최고 소프트웨어 엔지니어링 벤치마크 달성 |
| **서브에이전트 10팀 동시** | 복잡한 작업을 10개 병렬 에이전트로 분할 실행 |
| **Plan Mode** | 실행 전 계획 수립 → 사용자 승인 → 실행. 실수를 사전에 방지 |
| **MCP 프로토콜** | Model Context Protocol — 외부 도구 연결 표준 직접 제정 |
| **Skills** | 마크다운 기반 재사용 워크플로우 정의 |
| **Hooks** | 도구 실행 전후에 사용자 스크립트를 자동 실행 |
| **1M 토큰 컨텍스트** | Opus 4.6 모델로 대규모 코드베이스 전체를 한 번에 분석 |

### Cursor — IDE 통합 에이전트의 선두

| 핵심 기능 | 설명 |
|-----------|------|
| **멀티파일 에이전트** | 프로젝트 전체를 이해하고 여러 파일을 동시 수정 |
| **백그라운드 에이전트 8개** | 클라우드에서 8개 에이전트를 병렬 실행하여 작업 분산 |
| **Tab 자동완성** | 다음 코드 흐름을 예측 → Tab 한 번으로 승인 |
| **프로젝트 규칙** | `.cursorrules` 파일로 프로젝트별 AI 행동을 커스터마이징 |
| **멀티파일 Diff** | 변경된 모든 파일을 한 화면에서 파일별/헌크별 승인/거부 |
| **러닝 메모리** | 사용자 피드백 기반으로 코딩 스타일을 자동 학습 |
| **LSP 통합** | 언어 서버 프로토콜로 코드 구조를 의미 기반 분석 |

### GitHub Copilot — 개발 파이프라인 자동화

| 핵심 기능 | 설명 |
|-----------|------|
| **코딩 에이전트** | 이슈 할당 → 코드 작성 → PR 생성 → 테스트까지 자동 파이프라인 |
| **자동 PR 생성** | 이슈 번호만 할당하면 코드 변경 + PR을 자동 생성 |
| **반복 테스트-수정** | 테스트 실패 → 원인 분석 → 코드 수정 → 재실행을 자동 반복 |
| **Multi-Agent** | 코드리뷰·테스트·문서 작성을 각각 전담하는 에이전트 협업 |

### Windsurf — 컨텍스트 지능

| 핵심 기능 | 설명 |
|-----------|------|
| **Cascade** | 복잡한 작업을 단계별로 분해하여 멀티스텝 에이전트가 실행 |
| **48시간 자동 인덱싱** | 코드베이스를 48시간 주기로 자동 분석, 관련 파일을 사전 수집 |
| **영속 메모리** | 세션이 끝나도 이전 작업 기억을 유지, 프로젝트 컨텍스트 누적 학습 |
| **브라우저 통합** | 웹 페이지 내용을 에이전트가 직접 참조하여 코드에 반영 |

### Raycast — 런처 + AI 융합 (macOS)

| 핵심 기능 | 설명 |
|-----------|------|
| **1,500+ 확장 생태계** | 커뮤니티 기반 확장 프로그램 스토어 |
| **Auto 모델** | 작업 유형에 따라 GPT/Claude/Gemini 중 최적 모델 자동 선택 |
| **AI 스니펫** | `;email {수신자} {주제}` → AI가 이메일 초안을 즉시 생성 |
| **리치 클립보드** | 이미지·링크 프리뷰·코드 하이라이트가 있는 고급 클립보드 |

### 서비스별 기능 비교 매트릭스

| 기능 | Claude Code | Cursor | Copilot | Windsurf | Raycast |
|------|:-----------:|:------:|:-------:|:--------:|:-------:|
| 에이전트 루프 | ✅ | ✅ | ✅ | ✅ | ❌ |
| MCP 프로토콜 | ✅ | ✅ | ✅ | ❌ | ❌ |
| 서브에이전트 (병렬) | 10팀 | 8개 | 다중 | ❌ | ❌ |
| Plan Mode | ✅ | ❌ | ❌ | ❌ | ❌ |
| LSP 코드 분석 | 자체 | ✅ | ✅ | ✅ | ❌ |
| 에이전트 메모리 | ✅ | ✅ | ✅ | ✅ | ❌ |
| 프로젝트 규칙 | ✅ | ✅ | ❌ | ❌ | ❌ |
| 자동 테스트-수정 | ✅ | ❌ | ✅ | ❌ | ❌ |
| 런처 통합 | ❌ | ❌ | ❌ | ❌ | ✅ |
| 오프라인 동작 | ❌ | ❌ | ❌ | ❌ | ❌ |

---

## 3. 핵심 기술 개요 — 에이전트를 구성하는 7대 축

Agentic Coding Survey (arXiv 2025)는 AI 코딩 에이전트의 기술 지형을 **7대 축**으로 정리합니다:

| # | 기술 축 | 핵심 질문 | 대표 서비스 |
|---|---------|-----------|-------------|
| 1 | **계획 (Planning)** | 어떤 순서로 작업할 것인가? | Claude Code Plan Mode |
| 2 | **도구 사용 (Tool Use)** | 파일·검색·빌드를 어떻게 호출하는가? | 전체 (Function Calling) |
| 3 | **메모리 (Memory)** | 이전 작업을 어떻게 기억하는가? | Windsurf, Cursor |
| 4 | **성찰 (Reflection)** | 실패를 어떻게 분석하고 재시도하는가? | Claude Code |
| 5 | **협업 (Multi-Agent)** | 여러 에이전트가 어떻게 분업하는가? | GitHub Copilot, Claude Code |
| 6 | **검색 (Retrieval)** | 관련 코드를 어떻게 찾는가? | Cursor, Windsurf |
| 7 | **검증 (Verification)** | 결과가 맞는지 어떻게 확인하는가? | GitHub Copilot |

이하 섹션에서 각 기술의 **학술 근거, 작동 원리, 적용 서비스, 효과**를 설명합니다.

---

## 4. 기술별 상세

### 4-1. Function Calling — 에이전트의 "손과 발"

**개념**: LLM은 텍스트만 출력할 수 있습니다. 파일을 읽거나 코드를 실행하는 것은 불가능합니다.
Function Calling은 LLM이 **"이 도구를 이 파라미터로 호출해줘"라는 요청서를 JSON으로 출력**하면, 앱이 실제로 실행하는 구조입니다.

```
┌───────────────────────────────────────────┐
│  ① 앱 → LLM                              │
│     사용자 메시지 + 도구 목록 (JSON Schema) │
│     "이 중에 쓸 게 있으면 JSON으로 출력해"  │
└────────────────┬──────────────────────────┘
                 ▼
┌───────────────────────────────────────────┐
│  ② LLM → 텍스트 출력 (이게 전부)           │
│     { "tool": "file_write",               │
│       "arguments": { "path": "report.html",│
│         "content": "<h1>보고서</h1>..."    │
│       }                                   │
│     }                                     │
│     → 이것도 그냥 텍스트. 실제 파일을 만든  │
│       건 아님.                             │
└────────────────┬──────────────────────────┘
                 ▼
┌───────────────────────────────────────────┐
│  ③ 앱 → 실제 실행                         │
│     1. JSON 파싱                          │
│     2. File.WriteAllText() 실행           │
│     3. 결과를 다시 LLM에게 전달            │
│     4. LLM이 다음 행동 결정               │
└───────────────────────────────────────────┘
```

**업계 표준**: OpenAI, Anthropic, Google, Ollama 등 **모든 LLM API**가 동일한 방식.
"Function Calling" 또는 "Tool Use"라고 불리며, 2024년 이후 에이전트의 핵심 인프라.

| LLM 서비스 | 도구 호출 방식 |
|-----------|--------------|
| Ollama / vLLM | OpenAI 호환 tools 파라미터 |
| Gemini | functionDeclarations |
| Claude | tool_use 블록 |

**모델 성능에 따른 차이**: 도구 호출은 LLM이 올바른 JSON을 출력해야 하므로 모델 성능에 의존합니다.

| 모델 수준 | 도구 호출 정확도 | 예시 |
|----------|:---:|------|
| 대형 모델 | ✅ 정확 | Claude Opus, GPT-4, Gemini Pro |
| 중형 모델 | ⚠️ 대부분 OK | Gemini Flash, Qwen-30B |
| 경량 모델 | ❌ 종종 실패 | Gemini Flash Lite, 소형 로컬 모델 |

**관련 논문**: SWE-Agent v2 (Yang et al., Princeton 2025) — **Agent-Computer Interface (ACI)** 설계

---

### 4-2. Plan Mode — 계획 후 실행

**개념**: 에이전트가 도구를 즉시 실행하지 않고, **먼저 구조화된 실행 계획을 생성 → 사용자가 검토/수정/승인 → 승인 후 실행**하는 패턴.

```
사용자 요청: "인증 모듈을 JWT로 교체해줘"
     │
     ▼
┌─ 계획 수립 (도구 호출 차단) ──────────────┐
│  1. 현재 인증 로직 분석 (grep, file_read)  │
│  2. JWT 라이브러리 설치 (process)          │
│  3. 토큰 생성/검증 모듈 작성 (file_write)  │
│  4. 기존 세션 로직 교체 (file_edit)        │
│  5. 단위 테스트 작성 및 실행 (test_loop)   │
│  6. Git 커밋 (git_tool)                   │
└────────────────┬──────────────────────────┘
                 ▼
         [승인] [수정] [취소]   ← 사용자 검토
                 │
                 ▼ 승인
         계획대로 순차 실행
```

**왜 필요한가?** — FeatureBench (Anthropic 2025)

| 벤치마크 | AI 성능 | 의미 |
|----------|:------:|------|
| SWE-bench (버그 수정) | **80%+** | 에이전트가 매우 잘하는 영역 |
| FeatureBench (신기능 구현) | **11~12%** | 에이전트가 아직 어려운 영역 |

> 에이전트는 **"기존 코드 수정"은 잘하지만 "새로운 기능 설계"는 인간 감독이 필수**.
> Plan Mode는 이 한계를 인정하고 **인간-루프(Human-in-the-Loop)** 를 전제로 설계된 패턴.

**적용 서비스**: Claude Code (Plan Mode), GitHub Copilot Workspace

---

### 4-3. Reflexion — 실패에서 배우는 에이전트

**논문**: Reflexion: Language Agents with Verbal Reinforcement Learning (Shinn et al., NeurIPS 2023)

**핵심 아이디어**: 에이전트가 실패하면 **"왜 실패했는지" 자연어로 구조화된 성찰문을 생성**하고, 이를 메모리에 저장하여 다음 시도에 활용합니다.

```
에이전트 실행
     │
     ▼
실행 결과 관찰
     │
     ├── 성공 → 완료
     │
     └── 실패 → 구조화된 자기 성찰 (Self-Reflection)
                   │
                   │  "파일 경로를 상대경로로 지정했으나 작업 폴더가
                   │   다른 위치였다. 다음에는 절대 경로를 사용하거나
                   │   먼저 현재 작업 디렉터리를 확인해야 한다."
                   │
                   ▼
              성찰 결과를 메모리에 저장
                   │
                   ▼
              다음 시도에 성찰 결과 주입 → 재시도
```

**효과**:

| 벤치마크 | 일반 에이전트 | Reflexion 적용 | 향상 |
|----------|:-----------:|:-------------:|:----:|
| HumanEval (Python) | 80.1% | **91.0%** | +10.9% |
| MBPP (Python) | 72.4% | **77.1%** | +4.7% |
| AlfWorld (작업 수행) | 75% | **97%** | +22% |

**핵심 차이**: 기존의 단순 재시도(같은 프롬프트로 다시 실행)와 달리, **실패 원인을 분석한 텍스트를 다음 프롬프트에 추가**하여 같은 실수를 반복하지 않음.

**적용 서비스**: Claude Code (에러 후 자동 성찰), GitHub Copilot (반복 수정 루프)

---

### 4-4. Agent-Computer Interface (ACI) — LLM을 위한 도구 설계

**논문**: SWE-Agent: Agent-Computer Interfaces Enable Automated Software Engineering (Yang et al., Princeton 2024-2025)

**핵심 아이디어**: 에이전트의 성능은 LLM 모델 자체보다 **LLM이 사용하는 도구의 설계**에 크게 좌우됩니다. 사람을 위한 UI(GUI)가 아닌, **LLM을 위해 최적화된 도구 인터페이스(ACI)** 를 설계해야 합니다.

**ACI 설계 원칙**:

| 원칙 | 나쁜 설계 | 좋은 설계 (ACI) |
|------|----------|----------------|
| 출력 간결성 | `ls -la` 전체 출력 (수백 줄) | 필요한 정보만 구조화하여 반환 |
| 명확한 파라미터 | 복잡한 플래그 조합 | JSON Schema로 정의된 명확한 파라미터 |
| 에러 메시지 | 스택 트레이스 전체 | 원인 + 해결 방법을 한 줄로 요약 |
| 상태 피드백 | "완료" | "3개 파일 수정, 테스트 5/5 통과" |

**효과**: 동일한 LLM 모델이라도 ACI를 잘 설계하면 SWE-bench에서 **12~23%p 성능 향상**.

**적용 서비스**: Claude Code (커스텀 CLI 도구), SWE-Agent (전용 도구 셋)

---

### 4-5. CodeAct — 코드로 행동하는 에이전트

**논문**: CodeAct: Code Actions for Multi-Turn Agent Interactions (Wang et al., 2024)

**핵심 아이디어**: 에이전트의 행동(Action)을 JSON 도구 호출 대신 **실행 가능한 코드**로 표현합니다.

```
일반 도구 호출 (JSON)                    CodeAct (코드)
──────────────────                      ──────────────
{"tool": "search",                      import os
 "args": {"query": "auth"}}             results = []
                                        for f in os.listdir('src'):
{"tool": "file_read",                       if 'auth' in f.lower():
 "args": {"path": "src/auth.py"}}               with open(f'src/{f}') as fh:
                                                    results.append(fh.read())
→ 2번의 도구 호출 필요                    → 1번의 코드 실행으로 복잡한 로직 표현
```

**효과**: 멀티턴 대화에서 작업 성공률 **20%+ 향상**. 복잡한 조건 분기, 반복, 예외 처리를 한 번에 표현할 수 있어 도구 호출 횟수가 줄고 정확도가 올라감.

**적용 서비스**: Claude Code (bash 도구), OpenCode, Aider (코드 실행 에이전트)

---

### 4-6. 에이전트 메모리 — 세션을 넘어서 기억하는 AI

**개념**: 대화가 끝나면 모든 문맥이 사라지는 기존 LLM과 달리, **프로젝트 수명 주기 전체에 걸쳐 학습한 내용을 유지**하는 구조.

```
세션 1: "이 프로젝트는 camelCase를 쓰고, 테스트는 Jest를 사용합니다"
                │
                ▼ 저장
세션 2: (새 대화) AI가 자동으로 camelCase + Jest 스타일로 코드 작성
                │
                ▼ 누적
세션 N: 프로젝트의 아키텍처, 관례, 의사결정 이력을 모두 기억
```

**메모리 계층** (CrewAI/LangChain 연구 기반):

| 계층 | 역할 | 예시 |
|------|------|------|
| **단기 기억** | 현재 대화의 도구 호출 이력 | "방금 auth.py를 읽었으니 다시 안 읽어도 됨" |
| **에피소드 기억** | 과거 작업의 성공/실패 경험 | "지난번에 이 패턴으로 하니까 빌드 실패했었음" |
| **영속 기억** | 프로젝트 규칙, 코딩 관례 | "이 프로젝트는 항상 ESLint를 통과해야 함" |

**적용 서비스**: Windsurf (영속 메모리), Cursor (러닝 메모리), Claude Code (CLAUDE.md 프로젝트 파일)

---

### 4-7. MCP (Model Context Protocol) — 도구 연결 표준

**제정**: Anthropic (2025년 12월)

**개념**: LLM 에이전트가 외부 도구/서비스에 접근하는 **표준 프로토콜**.
각 서비스마다 다른 연동 방식을 쓰는 대신, **하나의 표준으로 통일**.

```
┌──────────────┐    JSON-RPC 2.0     ┌──────────────┐
│  AI 에이전트  │ ◄─────────────────► │  MCP 서버 A  │  (JIRA)
│  (MCP 클라이언트) │                  │              │
│              │ ◄─────────────────► │  MCP 서버 B  │  (Slack)
│              │                     │              │
│              │ ◄─────────────────► │  MCP 서버 C  │  (DB 조회)
└──────────────┘                     └──────────────┘
       │
       ├── 서버의 도구(tools) 목록 자동 발견
       ├── 에이전트 도구로 자동 래핑 (LLM에게 구분 없이 노출)
       └── LLM이 내장 도구와 동일하게 호출
```

**LLM 입장에서**: 내장 도구와 MCP 도구의 구분이 없습니다.

```
도구 목록 (LLM에게 전달):
  file_read       ← 내장
  file_write      ← 내장        LLM은 이 구분을
  jira_search     ← MCP         모릅니다.
  slack_send      ← MCP         그냥 목록에서
  db_query        ← MCP         골라서 호출할 뿐.
```

**업계 채택**: Claude Code, Cursor, GitHub Copilot, OpenCode 등 모든 주요 서비스가 지원.

---

### 4-8. LSP (Language Server Protocol) — 의미 기반 코드 분석

**제정**: Microsoft

**개념**: 텍스트 검색(grep)이 아닌 **코드의 의미 구조**를 기반으로 분석.

```
텍스트 검색 (grep)                     LSP 기반 분석
──────────────────                    ──────────────
"authenticate" 글자 포함 줄 반환        함수 정의 위치 정확히 반환
→ 주석/문자열에 있는 것도 포함          → "이 함수를 호출하는 곳" 목록
→ 동의어("auth", "login") 누락         → 타입, 시그니처, 참조 관계 분석
→ 노이즈가 많음                        → 정확도 높음
```

**적용 서비스**: Cursor (OmniSharp, pyright 등), GitHub Copilot, Windsurf

---

### 4-9. Multi-Agent — 역할 기반 에이전트 팀

**개념**: 단일 에이전트 대신 **역할이 다른 여러 에이전트가 메시지를 주고받으며 협업**.

```
┌─────────────────────────────────────────┐
│  오케스트레이터 (Orchestrator)            │
│  "JWT 인증 모듈로 교체해줘"              │
│                                         │
│  ┌──────────┐ ┌──────────┐ ┌──────────┐ │
│  │ 코드 작성 │ │ 테스트   │ │ 코드 리뷰│ │
│  │ 에이전트  │ │ 에이전트  │ │ 에이전트  │ │
│  └─────┬────┘ └────┬─────┘ └────┬─────┘ │
│        │ 작성 완료  │ 테스트 실패 │ 리뷰   │
│        └────────►  │ ◄──────── ┘        │
│                    ▼                     │
│              수정 → 재테스트 → 통과       │
└─────────────────────────────────────────┘
```

**적용 서비스**: Claude Code (서브에이전트 10팀), Cursor (백그라운드 에이전트 8개), GitHub Copilot (Multi-Agent)

---

## 5. 구현 방법 — 에이전트의 실행 구조

### 에이전트 루프 (Agent Loop)

모든 AI 코딩 에이전트의 핵심 아키텍처는 **동일한 반복 루프**입니다:

```
사용자 요청
     │
     ▼
┌────────────────────────────────────────┐
│  반복 (최대 N회):                       │
│                                        │
│    ① LLM에게 전송                      │
│       (사용자 메시지 + 도구 목록 + 이력) │
│                                        │
│    ② LLM 응답 수신                     │
│       ├── 텍스트만 → 종료 (최종 답변)   │
│       └── 도구 호출 JSON → ③으로       │
│                                        │
│    ③ 도구 실행                         │
│       · 경로 검증 (작업 폴더 내?)       │
│       · 권한 확인 (Ask/Auto/Deny)      │
│       · 차단 확장자 검사               │
│       · 실행 → 결과를 이력에 추가       │
│                                        │
│    ④ 결과를 다시 ①로 (다음 반복)       │
│                                        │
│  안전장치:                              │
│    · 최대 반복 횟수 제한               │
│    · 연속 오류 시 자동 중단            │
│    · 취소 토큰으로 사용자 중단 지원     │
└────────────────────────────────────────┘
```

### 스킬 시스템 — 업무 지시서

스킬은 **LLM에게 주는 업무 지시서**입니다. `.skill.md` 파일 하나로 정의합니다.

```yaml
---
name: report-writer
label: 보고서 작성
allowed-tools:           # 이 스킬이 사용할 수 있는 도구를 제한
  - file_read
  - folder_map
  - html_create
---
## 지시사항
1. 작업 폴더의 데이터 파일을 먼저 확인하세요
2. 핵심 지표를 추출하세요
3. 전문적인 보고서를 HTML로 작성하세요
```

> 스킬은 도구를 추가하거나 삭제할 수 **없습니다**. "LLM 시스템 프롬프트"로만 작동하며, 실제 도구 목록은 앱이 관리합니다. 따라서 악성 스킬을 로드해도 **앱의 보안 경계를 넘을 수 없습니다**.

**표준**: Anthropic이 **SKILL.md** 오픈 포맷(agentskills.io)을 제정하여 스킬 호환성을 표준화.

---

## 6. 사용자 데이터 보호

### 외부 서비스의 보안 구조

| 서비스 | 실행 환경 | 격리 방식 | 위험 요소 |
|--------|-----------|-----------|-----------|
| **Claude Code** | 터미널 (로컬 PC) | 없음 | 잘못된 `rm -rf` 실행 가능 |
| **Cursor** | IDE 내장 | 프로젝트 폴더 한정 | 터미널 명령은 제한 없음 |
| **Devin / Codex** | **Docker 컨테이너** | 완전 격리 | 컨테이너 밖 접근 불가 |
| **GitHub Copilot Workspace** | **클라우드 VM** | 서버 격리 | 로컬 파일 접근 자체 불가 |

> **왜 Docker?**: 터미널 에이전트(Claude Code)는 `rm -rf /`, `curl | bash` 같은 위험 명령을 LLM이 실행할 수 있습니다. Devin/Codex는 이를 해결하기 위해 Docker 컨테이너 안에서만 코드를 실행합니다.

### 사내 환경에서의 보안 원칙

사내에서 AI 에이전트를 운영하려면 Docker 대신 **앱 레벨에서 3중 방어**가 필요합니다:

```
방어 ①: 워크스페이스 격리
──────────────────────
  사용자 PC 전체 디스크
  ├── C:\Windows\              ← 🚫 차단
  ├── C:\Program Files\        ← 🚫 차단
  ├── C:\Users\...\AppData\    ← 🚫 차단
  └── D:\Projects\MyProject\   ← ✅ 작업 폴더 (사용자 지정)
      └── AI가 읽고 쓸 수 있는 유일한 영역

방어 ②: 파일 접근 동의 (3단계 권한)
──────────────────────────────
  · Ask  — 파일을 쓸 때마다 사용자 확인 팝업
  · Auto — 작업 폴더 내 자동 허용 (숙련자용)
  · Deny — 모든 파일 수정 차단 (읽기만 허용)

방어 ③: 삭제 도구 자체가 없음
────────────────────────────
  · file_read (읽기) ✅
  · file_write (생성/덮어쓰기) ✅
  · file_edit (부분 수정) ✅
  · file_delete → 도구 자체가 존재하지 않음 ❌
  · .exe, .dll, .sys 등 실행 파일 생성 차단
```

> **설계 원칙**: LLM이 "이 파일 삭제해"라고 판단해도, 실행할 도구가 없으므로 **물리적으로 삭제 불가능**.

---

## 7. 결론 — 기술 방향 제시

### 2026년 10대 기술 동향 요약

| # | 동향 | 근거 | 영향도 |
|---|------|------|:------:|
| 1 | **데스크탑 네이티브 전환** | Claude Code·Cursor·Windsurf 모두 로컬 실행 | ★★★ |
| 2 | **자율 에이전트 전환** | 자동완성 → 이슈→코드→PR 자동화 파이프라인 | ★★★ |
| 3 | **계획 후 실행 (Human-in-the-Loop)** | FeatureBench 11% — 인간 감독 필수 인식 확산 | ★★★ |
| 4 | **성찰 루프 (Reflexion)** | NeurIPS 2023 — 실패 분석→재시도로 정확도 91% | ★★☆ |
| 5 | **멀티 에이전트 협업** | Claude Code 10팀, Cursor 8개 병렬 실행 | ★★☆ |
| 6 | **영속 메모리** | 세션→프로젝트 수명 전체 기억 유지 | ★★☆ |
| 7 | **표준 프로토콜 (MCP, LSP)** | Anthropic MCP 제정, 전 서비스 채택 | ★★☆ |
| 8 | **ACI 도구 설계** | SWE-Agent — 도구 설계만으로 12~23%p 성능 차이 | ★★☆ |
| 9 | **런처 + AI 융합** | Raycast — 단축키로 AI 즉시 호출 | ★☆☆ |
| 10 | **오프라인 AI** | 네트워크 없이 로컬 모델로 기본 작업 처리 | ★☆☆ |

### 핵심 메시지

```
① AI 코딩 도구가 "보조 도구"에서 "자율 에이전트"로 전환되었습니다.
② 에이전트의 핵심 기술(계획·도구·메모리·성찰·협업)은 학술적으로 검증되었습니다.
③ 그러나 FeatureBench 11%가 보여주듯, 인간 감독은 여전히 필수입니다.
④ 사내 환경에서는 데이터 보호(워크스페이스 격리, 권한 제어)가 전제 조건입니다.
⑤ 이 기술들을 사내 환경에 빠르게 적용하는 것이 경쟁력의 핵심입니다.
```

---

### 참고 문헌

| 논문/자료 | 출처 | 핵심 기여 |
|-----------|------|-----------|
| Reflexion: Language Agents with Verbal Reinforcement Learning | Shinn et al., NeurIPS 2023 | 자기 성찰로 코드 생성 정확도 91% 달성 |
| SWE-Agent: Agent-Computer Interfaces Enable Automated Software Engineering | Yang et al., Princeton 2024 | ACI 설계 원칙, SWE-bench 80%+ |
| CodeAct: Code Actions for Multi-Turn Agent Interactions | Wang et al., 2024 | 코드 기반 행동으로 성공률 20%+ 향상 |
| A Survey on Agentic AI for Software Engineering | arXiv 2025 | 에이전트 코딩 7대 기술 축 체계화 |
| FeatureBench: Can AI Implement New Features? | Anthropic Research, 2025 | 신기능 구현 11% — 인간 감독 필수 근거 |
| Model Context Protocol Specification | Anthropic, 2025 | 도구 연결 표준 프로토콜 |
| SKILL.md Agent Skills Open Format | agentskills.io, 2025 | 에이전트 스킬 표준 포맷 |

---

*발표 자료 작성: AX연구소 AI팀 | 문의: 내부 메신저*