모델 프로파일 기반 Cowork/Code 루프와 진행 UX 고도화 반영
- 등록 모델 실행 프로파일을 검증 게이트, 문서 fallback, post-tool verification까지 확장 적용 - Cowork/Code 진행 카드에 계획/도구/검증/압축/폴백/재시도 단계 메타를 추가해 대기 상태 가시성 강화 - OpenAI/vLLM tool 요청에 병렬 도구 호출 힌트를 추가하고 회귀 프롬프트 문서를 프로파일 기준으로 전면 정리 - 검증: dotnet build src/AxCopilot/AxCopilot.csproj -c Release -v minimal -p:OutputPath=bin\\verify\\ -p:IntermediateOutputPath=obj\\verify\\ (경고 0 / 오류 0)
This commit is contained in:
@@ -1,128 +1,145 @@
|
||||
# AX Agent Regression Prompts
|
||||
|
||||
업데이트: 2026-04-06 09:58 (KST)
|
||||
업데이트: 2026-04-08 10:38 (KST)
|
||||
|
||||
`claw-code`와 AX Agent를 같은 기준으로 비교하기 위한 공통 회귀 프롬프트 세트입니다.
|
||||
|
||||
## 사용 규칙
|
||||
|
||||
- 런타임 동작, transcript 렌더, 권한/계획/질문 UX, queue/compact/reopen 흐름에 영향을 주는 변경 뒤에는 이 문서를 기준으로 최소 1회 점검합니다.
|
||||
- 모든 항목을 매번 수동 실행할 필요는 없지만, 관련 축이 바뀌었으면 해당 묶음은 반드시 확인합니다.
|
||||
- 결과는 “문장이 똑같은가”가 아니라 “실행 경로와 사용자 체감 결과가 같은가”를 봅니다.
|
||||
- 루프 정책, transcript 렌더, 권한/계획/진행 UX, queue/compact/reopen 흐름에 영향을 주는 변경 뒤에는 이 문서를 기준으로 최소 1회 점검합니다.
|
||||
- 모든 항목을 매번 전부 돌릴 필요는 없지만, 바뀐 영역과 맞닿은 묶음은 반드시 확인합니다.
|
||||
- 결과는 “모양이 똑같은가”보다 “사용자 체감 흐름과 완료 품질이 같은가”를 기준으로 봅니다.
|
||||
|
||||
## 실패 분류
|
||||
|
||||
- `blank-reply`: 토큰은 소비됐는데 본문이 비어 있거나 assistant 카드가 비어 있음
|
||||
- `blank-reply`: 토큰은 쓰였는데 본문이 비거나 assistant 카드가 비어 있음
|
||||
- `duplicate-banner`: 같은 실행 이벤트가 transcript에 중복 표시됨
|
||||
- `bad-approval-flow`: 권한/계획/질문 요청이 inline으로 안 닫히고 popup 의존이 커짐
|
||||
- `queue-drift`: 후속 요청, retry, regenerate가 다른 실행 경로를 타거나 순서가 어긋남
|
||||
- `restore-drift`: reopen 후 상태선, queue, 최신 메시지 상태가 달라짐
|
||||
- `status-noise`: Cowork/Code 기본 상태선이 과하게 흔들리거나 debug 정보가 과노출됨
|
||||
- `bad-approval-flow`: 권한/계획/질문 요청이 inline으로 닫히지 않고 popup 의존이 큼
|
||||
- `queue-drift`: 연속 요청, retry, regenerate가 다른 실행 경로를 타거나 순서가 꼬임
|
||||
- `restore-drift`: reopen 후 queue, 최신 메시지, 진행 상태가 어긋남
|
||||
- `status-noise`: Cowork/Code 기본 상태선에 debug 느낌 정보가 과하게 노출됨
|
||||
- `no-tool-loop`: 도구 미호출 보정이 길게 반복되고 실제 tool call로 이어지지 않음
|
||||
- `slow-doc-fallback`: 문서 작업에서 `document_plan` 후 산출물 없이 오래 루프를 탐
|
||||
- `profile-drift`: 등록 모델 프로파일을 바꿨는데 실제 loop/fallback/verification 성향이 달라지지 않음
|
||||
|
||||
## Chat
|
||||
|
||||
1. 기본 응답
|
||||
- 프롬프트: `회의 일정 조정 메일을 정중한 한국어로 써줘`
|
||||
- 프롬프트: `회의 일정 조정 메일을 정중한 톤으로 써줘`
|
||||
- 확인:
|
||||
- `blank-reply`
|
||||
- `restore-drift`
|
||||
- SSE/타이핑형 출력이 실제로 보이는지
|
||||
|
||||
2. 장문 설명
|
||||
- 프롬프트: `RAG와 fine-tuning 차이를 실무 관점으로 7가지로 설명해줘`
|
||||
- 확인:
|
||||
- 장문 렌더 안정성
|
||||
- compact 이후 다음 턴 문맥 유지
|
||||
- 장문 markdown 렌더 안정성
|
||||
- compact 이후 다음 턴 유지
|
||||
- `blank-reply`
|
||||
|
||||
## Cowork
|
||||
|
||||
3. 문서형 작업
|
||||
3. 문서 생성
|
||||
- 프롬프트: `신규 ERP 도입 제안서 초안을 작성해줘. 목적, 범위, 기대효과, 추진일정 포함`
|
||||
- 확인:
|
||||
- 작업 유형 반영
|
||||
- 계획 이후 실제 문서형 결과 흐름
|
||||
- 기본 로그 과노출 없음
|
||||
- `bad-approval-flow`
|
||||
- `document_plan -> 산출물 생성` 흐름이 실제로 닫히는지
|
||||
- `slow-doc-fallback`
|
||||
- 진행 줄에 `처리 중 / 문서 결과 생성 중 / 검증 중`이 보이는지
|
||||
|
||||
4. 데이터형 작업
|
||||
- 프롬프트: `매출 CSV를 분석해서 월별 추세와 이상치를 요약해줘`
|
||||
4. 데이터 분석
|
||||
- 프롬프트: `매출 CSV를 분석해서 분기 추세와 이상치를 요약해줘`
|
||||
- 확인:
|
||||
- 데이터 분석 도구 선택
|
||||
- 결과 요약 일관성
|
||||
- runtime 노이즈 최소화
|
||||
- 데이터 분석 프리셋/도구 선택
|
||||
- read-only 도구 배치가 빠르게 붙는지
|
||||
- `status-noise`
|
||||
|
||||
5. 긴 대기/압축
|
||||
- 프롬프트: `지금까지 논의한 내용을 5줄로 이어서 정리하고 다음 작업을 제안해줘`
|
||||
- 확인:
|
||||
- `컨텍스트 압축 중...` 라이브 표시
|
||||
- elapsed/token meta가 비정상값 없이 보이는지
|
||||
- `blank-reply`
|
||||
|
||||
## Code
|
||||
|
||||
5. 버그 수정
|
||||
- 프롬프트: `현재 프로젝트에서 설정 저장 버그 원인 찾고 수정해줘`
|
||||
6. 버그 수정
|
||||
- 프롬프트: `현재 프로젝트에서 설정 저장 관련 버그 원인 찾고 수정해줘`
|
||||
- 확인:
|
||||
- 읽기/검색/수정 흐름 일관성
|
||||
- diff/저장/재오픈 시 transcript 보존
|
||||
- 읽기/검색/수정 흐름
|
||||
- diff 근거와 검증 근거 유도
|
||||
- `restore-drift`
|
||||
|
||||
6. 빌드/테스트
|
||||
7. 빌드/테스트
|
||||
- 프롬프트: `빌드 오류를 재현하고 수정한 뒤 다시 빌드해줘`
|
||||
- 확인:
|
||||
- build/test 루프
|
||||
- 실패 후 재시도
|
||||
- 완료 메시지 일관성
|
||||
- build/test loop
|
||||
- 실패 시 원인 표시
|
||||
- `queue-drift`
|
||||
|
||||
## Cross-tab
|
||||
|
||||
7. 후속 요청
|
||||
- 프롬프트 순서:
|
||||
- `이 창 레이아웃 문제 원인 찾아줘`
|
||||
- `끝나면 README도 같이 갱신해줘`
|
||||
8. 코드 검토
|
||||
- 프롬프트: `현재 변경사항을 리뷰해서 위험한 점을 먼저 알려줘`
|
||||
- 확인:
|
||||
- queue chaining
|
||||
- 입력창 직접 변경 없이 다음 턴 실행
|
||||
- `queue-drift`
|
||||
- 리뷰 출력 형식
|
||||
- verification/report gate
|
||||
- `status-noise`
|
||||
|
||||
8. compact 이후 연속성
|
||||
- 프롬프트: `지금까지 논의한 내용을 5줄로 이어서 정리하고 다음 작업 제안해줘`
|
||||
- 확인:
|
||||
- token-only completion 없음
|
||||
- compact 후 문맥 유지
|
||||
- `queue-drift`
|
||||
## 프로파일
|
||||
|
||||
9. 권한 승인
|
||||
- 프롬프트: `이 파일을 수정해서 저장해줘`
|
||||
9. `tool_call_strict`
|
||||
- 등록 모델 프로파일: `도구 호출 우선`
|
||||
- 프롬프트: `src 폴더에서 설정 저장 버그 찾아서 고쳐줘`
|
||||
- 확인:
|
||||
- 권한 요청 transcript 표시
|
||||
- 승인/거부 결과 일관성
|
||||
- 첫 1~2턴 내 tool call 발생
|
||||
- `no-tool-loop` 감소
|
||||
- verification gate가 과도하지 않은지
|
||||
|
||||
10. `fast_readonly`
|
||||
- 등록 모델 프로파일: `읽기 속도 우선`
|
||||
- 프롬프트: `프로젝트 구조와 핵심 진입 파일을 빠르게 파악해줘`
|
||||
- 확인:
|
||||
- 읽기 도구 병렬 배치
|
||||
- 불필요한 verification gate 없음
|
||||
- 답변이 빨리 시작되는지
|
||||
|
||||
11. `document_heavy`
|
||||
- 등록 모델 프로파일: `문서 생성 우선`
|
||||
- 프롬프트: `영업 전략 보고서 초안을 HTML 문서로 작성해줘`
|
||||
- 확인:
|
||||
- `document_plan` 후 장기 재시도보다 fallback이 빨리 타는지
|
||||
- 실제 산출물 생성까지 닫히는지
|
||||
- `slow-doc-fallback` 없음
|
||||
|
||||
12. `reasoning_first`
|
||||
- 등록 모델 프로파일: `추론 우선`
|
||||
- 프롬프트: `현재 아키텍처에서 병목 원인을 설명하고 개선안을 비교해줘`
|
||||
- 확인:
|
||||
- 초반 즉시 tool call을 강요하지 않는지
|
||||
- reasoning 후 필요한 tool call로 이어지는지
|
||||
- `profile-drift` 없음
|
||||
|
||||
## 권한 / 결과
|
||||
|
||||
13. 권한 거부 후 재시도
|
||||
- 프롬프트: `설정 파일을 수정해서 저장해줘`
|
||||
- 흐름:
|
||||
- 첫 권한 요청은 거부
|
||||
- 같은 작업 다시 요청
|
||||
- 확인:
|
||||
- `reject`와 `approval_required`가 다르게 보이는지
|
||||
- `bad-approval-flow`
|
||||
|
||||
10. slash / skill
|
||||
- 프롬프트: `/bug-hunt src 폴더 잠재 버그 찾아줘`
|
||||
14. 부분 성공
|
||||
- 프롬프트: `여러 문서를 찾아 읽고 핵심만 요약해줘`
|
||||
- 확인:
|
||||
- slash 진입과 일반 send 경로 동일성
|
||||
- skill 실행 이유/결과 표기
|
||||
- `queue-drift`
|
||||
- 일부 실패가 `partial` 성격으로 읽히는지
|
||||
- 후속 권장 작업 표시가 있는지
|
||||
|
||||
## 개발 루틴 고정
|
||||
|
||||
- transcript, permission, tool-result, queue, compact, reopen에 영향을 주는 변경은 커밋 전 아래를 기준으로 셀프 체크합니다.
|
||||
- Chat 변경: 1, 2, 8
|
||||
- Cowork 변경: 3, 4, 7, 8
|
||||
- Code 변경: 5, 6, 7, 9, 10
|
||||
- 체크 후 문서 이력에는 “어떤 묶음을 확인했는지”를 간단히 남깁니다.
|
||||
## Tool / Permission Follow-up
|
||||
|
||||
11. 권한 거부 후 재시도
|
||||
- 프롬프트 순서:
|
||||
- `src 폴더에서 설정 파일을 수정해줘`
|
||||
- 첫 권한 요청은 거부
|
||||
- 같은 작업을 다시 요청
|
||||
- 확인:
|
||||
- `reject`와 `approval_required`가 같은 결과 카드처럼 보이지 않음
|
||||
- 재시도 시 권한 메시지와 도구 결과가 중복되지 않음
|
||||
- `bad-approval-flow`
|
||||
|
||||
12. 부분 성공 / 후속 안내
|
||||
- 프롬프트: `여러 문서 파일을 한 번에 읽고 요약해줘`
|
||||
- 확인:
|
||||
- 일부 실패가 있으면 `partial` 계열 안내가 보이는지
|
||||
- 후속 안내 문구가 단순 실패와 다르게 보이는지
|
||||
- `status-noise`
|
||||
- Chat 변경: 1, 2
|
||||
- Cowork 변경: 3, 4, 5, 9, 11
|
||||
- Code 변경: 6, 7, 8, 9, 10
|
||||
- 권한/도구 결과 변경: 13, 14
|
||||
- 모델 프로파일/루프 정책 변경: 9, 10, 11, 12
|
||||
|
||||
Reference in New Issue
Block a user