IBM vLLM 도구 호출 스트리밍과 모델 프로파일 기반 실행 정책 강화
Some checks failed
Release Gate / gate (push) Has been cancelled
Some checks failed
Release Gate / gate (push) Has been cancelled
- IBM 배포형 도구 호출 바디에 프로파일 기반 tool temperature를 적용하고 tool_call_strict 프로파일에서 더 직접적인 tool-only 지시를 추가함 - IBM 경로가 tool_choice를 거부할 때 tool_choice만 제거한 대체 강제 재시도 경로를 추가함 - OpenAI/vLLM tool-use 응답을 SSE로 수신하고 delta.tool_calls를 부분 조립해 도구 호출을 더 빨리 감지하도록 변경함 - read-only 도구 조기 실행과 결과 재사용 경로를 도입해 Cowork/Code 도구 착수 속도를 개선함 - README와 DEVELOPMENT 문서를 2026-04-08 11:14(KST) 기준으로 갱신함 검증 - dotnet build src/AxCopilot/AxCopilot.csproj -c Release -v minimal -p:OutputPath=bin\verify\ -p:IntermediateOutputPath=obj\verify\ - 경고 0 / 오류 0
This commit is contained in:
@@ -26,7 +26,12 @@ public static class ModelExecutionProfileCatalog
|
||||
int RecentExecutionGateMaxRetries,
|
||||
int ExecutionSuccessGateMaxRetries,
|
||||
int DocumentVerificationGateMaxRetries,
|
||||
int TerminalEvidenceGateMaxRetries);
|
||||
int TerminalEvidenceGateMaxRetries,
|
||||
/// <summary>
|
||||
/// true이면 첫 번째 LLM 호출 직전 마지막 user 메시지로 도구 호출 강제 reminder를 주입합니다.
|
||||
/// IBM Qwen 등 system prompt instruction을 약하게 따르는 chatty 모델용.
|
||||
/// </summary>
|
||||
bool InjectPreCallToolReminder = false);
|
||||
|
||||
public static string Normalize(string? key)
|
||||
{
|
||||
@@ -51,9 +56,9 @@ public static class ModelExecutionProfileCatalog
|
||||
ForceToolCallAfterPlan: true,
|
||||
ToolTemperatureCap: 0.2,
|
||||
NoToolResponseThreshold: 1,
|
||||
NoToolRecoveryMaxRetries: 1,
|
||||
PlanExecutionRetryMax: 1,
|
||||
DocumentPlanRetryMax: 1,
|
||||
NoToolRecoveryMaxRetries: 4, // IBM/Qwen 등 chatty 모델: 재시도 횟수 늘려 도구 호출 강제
|
||||
PlanExecutionRetryMax: 2,
|
||||
DocumentPlanRetryMax: 2,
|
||||
PreferAggressiveDocumentFallback: true,
|
||||
ReduceEarlyMemoryPressure: true,
|
||||
EnablePostToolVerification: false,
|
||||
@@ -68,7 +73,8 @@ public static class ModelExecutionProfileCatalog
|
||||
RecentExecutionGateMaxRetries: 0,
|
||||
ExecutionSuccessGateMaxRetries: 0,
|
||||
DocumentVerificationGateMaxRetries: 0,
|
||||
TerminalEvidenceGateMaxRetries: 1),
|
||||
TerminalEvidenceGateMaxRetries: 1,
|
||||
InjectPreCallToolReminder: true), // IBM/Qwen: 첫 호출 직전 reminder 주입으로 이중 강제
|
||||
"reasoning_first" => new ExecutionPolicy(
|
||||
"reasoning_first",
|
||||
"추론 우선",
|
||||
|
||||
Reference in New Issue
Block a user