Files
AX-Copilot-Codex/docs/AX_AGENT_REGRESSION_PROMPTS.md
lacvet 8cb08576d5 AX Agent 도구·스킬 정합성 재구성 및 실행 품질 보강
변경 목적:
- AX Agent의 도구 이름, 내부 설정, 스킬 정책, 실행 루프 사이의 불일치를 줄이고 전체 동작 품질을 높인다.
- claw-code 수준의 일관된 동작 품질을 참고하되 AX 구조에 맞는 고유한 카탈로그·정규화 레이어로 재구성한다.

핵심 수정사항:
- 도구 canonical id, legacy alias, 탭 노출, 설정 카테고리, read-only 분류를 중앙 카탈로그로 통합했다.
- ToolRegistry, AgentLoopService, 병렬 실행 분류, 권한 처리, 훅 처리, 스킬 allowed-tools 해석이 같은 이름 체계를 사용하도록 정리했다.
- Agent 설정/일반 설정/도움말의 도구 카드와 훅 편집기, 스킬 설명을 현재 런타임 구조에 맞게 갱신했다.
- 컨텍스트 압축, intent gate, spawn agents, session learning, model prompt adapter, workspace context 관련 변경과 테스트 추가를 함께 반영했다.
- 문서 이력과 비교/로드맵 문서를 최신 상태로 갱신했다.

검증 결과:
- dotnet build src/AxCopilot/AxCopilot.csproj -c Release -v minimal -p:OutputPath=bin\verify_toolcat\ -p:IntermediateOutputPath=obj\verify_toolcat\ : 경고 0 / 오류 0
- dotnet test src/AxCopilot.Tests/AxCopilot.Tests.csproj -c Release -v minimal --filter AgentToolCatalogTests -p:OutputPath=bin\verify_toolcat_tests\ -p:IntermediateOutputPath=obj\verify_toolcat_tests\ : 통과 8
2026-04-14 17:52:46 +09:00

5.2 KiB

AX Agent Regression Prompts

업데이트: 2026-04-08 10:38 (KST)

OpenCode와 AX Agent를 같은 기준으로 비교하기 위한 공통 회귀 프롬프트 세트입니다.

사용 규칙

  • 루프 정책, transcript 렌더, 권한/계획/진행 UX, queue/compact/reopen 흐름에 영향을 주는 변경 뒤에는 이 문서를 기준으로 최소 1회 점검합니다.
  • 모든 항목을 매번 전부 돌릴 필요는 없지만, 바뀐 영역과 맞닿은 묶음은 반드시 확인합니다.
  • 결과는 “모양이 똑같은가”보다 “사용자 체감 흐름과 완료 품질이 같은가”를 기준으로 봅니다.

실패 분류

  • blank-reply: 토큰은 쓰였는데 본문이 비거나 assistant 카드가 비어 있음
  • duplicate-banner: 같은 실행 이벤트가 transcript에 중복 표시됨
  • bad-approval-flow: 권한/계획/질문 요청이 inline으로 닫히지 않고 popup 의존이 큼
  • queue-drift: 연속 요청, retry, regenerate가 다른 실행 경로를 타거나 순서가 꼬임
  • restore-drift: reopen 후 queue, 최신 메시지, 진행 상태가 어긋남
  • status-noise: Cowork/Code 기본 상태선에 debug 느낌 정보가 과하게 노출됨
  • no-tool-loop: 도구 미호출 보정이 길게 반복되고 실제 tool call로 이어지지 않음
  • slow-doc-fallback: 문서 작업에서 document_plan 후 산출물 없이 오래 루프를 탐
  • profile-drift: 등록 모델 프로파일을 바꿨는데 실제 loop/fallback/verification 성향이 달라지지 않음

Chat

  1. 기본 응답
  • 프롬프트: 회의 일정 조정 메일을 정중한 톤으로 써줘
  • 확인:
    • blank-reply
    • restore-drift
    • SSE/타이핑형 출력이 실제로 보이는지
  1. 장문 설명
  • 프롬프트: RAG와 fine-tuning 차이를 실무 관점으로 7가지로 설명해줘
  • 확인:
    • 장문 markdown 렌더 안정성
    • compact 이후 다음 턴 유지
    • blank-reply

Cowork

  1. 문서 생성
  • 프롬프트: 신규 ERP 도입 제안서 초안을 작성해줘. 목적, 범위, 기대효과, 추진일정 포함
  • 확인:
    • 작업 유형 반영
    • document_plan -> 산출물 생성 흐름이 실제로 닫히는지
    • slow-doc-fallback
    • 진행 줄에 처리 중 / 문서 결과 생성 중 / 검증 중이 보이는지
  1. 데이터 분석
  • 프롬프트: 매출 CSV를 분석해서 분기 추세와 이상치를 요약해줘
  • 확인:
    • 데이터 분석 프리셋/도구 선택
    • read-only 도구 배치가 빠르게 붙는지
    • status-noise
  1. 긴 대기/압축
  • 프롬프트: 지금까지 논의한 내용을 5줄로 이어서 정리하고 다음 작업을 제안해줘
  • 확인:
    • 컨텍스트 압축 중... 라이브 표시
    • elapsed/token meta가 비정상값 없이 보이는지
    • blank-reply

Code

  1. 버그 수정
  • 프롬프트: 현재 프로젝트에서 설정 저장 관련 버그 원인 찾고 수정해줘
  • 확인:
    • 읽기/검색/수정 흐름
    • diff 근거와 검증 근거 유도
    • restore-drift
  1. 빌드/테스트
  • 프롬프트: 빌드 오류를 재현하고 수정한 뒤 다시 빌드해줘
  • 확인:
    • build/test loop
    • 실패 시 원인 표시
    • queue-drift
  1. 코드 검토
  • 프롬프트: 현재 변경사항을 리뷰해서 위험한 점을 먼저 알려줘
  • 확인:
    • 리뷰 출력 형식
    • verification/report gate
    • status-noise

프로파일

  1. tool_call_strict
  • 등록 모델 프로파일: 도구 호출 우선
  • 프롬프트: src 폴더에서 설정 저장 버그 찾아서 고쳐줘
  • 확인:
    • 첫 1~2턴 내 tool call 발생
    • no-tool-loop 감소
    • verification gate가 과도하지 않은지
  1. fast_readonly
  • 등록 모델 프로파일: 읽기 속도 우선
  • 프롬프트: 프로젝트 구조와 핵심 진입 파일을 빠르게 파악해줘
  • 확인:
    • 읽기 도구 병렬 배치
    • 불필요한 verification gate 없음
    • 답변이 빨리 시작되는지
  1. document_heavy
  • 등록 모델 프로파일: 문서 생성 우선
  • 프롬프트: 영업 전략 보고서 초안을 HTML 문서로 작성해줘
  • 확인:
    • document_plan 후 장기 재시도보다 fallback이 빨리 타는지
    • 실제 산출물 생성까지 닫히는지
    • slow-doc-fallback 없음
  1. reasoning_first
  • 등록 모델 프로파일: 추론 우선
  • 프롬프트: 현재 아키텍처에서 병목 원인을 설명하고 개선안을 비교해줘
  • 확인:
    • 초반 즉시 tool call을 강요하지 않는지
    • reasoning 후 필요한 tool call로 이어지는지
    • profile-drift 없음

권한 / 결과

  1. 권한 거부 후 재시도
  • 프롬프트: 설정 파일을 수정해서 저장해줘
  • 흐름:
    • 첫 권한 요청은 거부
    • 같은 작업 다시 요청
  • 확인:
    • rejectapproval_required가 다르게 보이는지
    • bad-approval-flow
  1. 부분 성공
  • 프롬프트: 여러 문서를 찾아 읽고 핵심만 요약해줘
  • 확인:
    • 일부 실패가 partial 성격으로 읽히는지
    • 후속 권장 작업 표시가 있는지

개발 루틴 고정

  • Chat 변경: 1, 2
  • Cowork 변경: 3, 4, 5, 9, 11
  • Code 변경: 6, 7, 8, 9, 10
  • 권한/도구 결과 변경: 13, 14
  • 모델 프로파일/루프 정책 변경: 9, 10, 11, 12