vLLM 모델 해석 및 max_tokens 상한 보정

vLLM 연결 시 등록 모델 alias와 실제 모델 ID가 섞여 payload로 전달되던 경로를 보정해 RegisteredModel에서 실제 모델명을 우선 찾아 요청에 사용하도록 수정했다. OpenAI-compatible 일반 대화와 도구 호출 모두 vLLM 서버 허용 범위를 넘지 않도록 max_tokens를 자동 보정하도록 통일했다. 검증: dotnet build src/AxCopilot/AxCopilot.csproj -c Release -v minimal -p:OutputPath=bin\\verify\\ -p:IntermediateOutputPath=obj\\verify\\ (경고 0, 오류 0)
2026-04-05 21:40:43 +09:00
parent 5765888229
commit 53afdb3472
4 changed files with 32 additions and 4 deletions
--- a/src/AxCopilot/Services/LlmService.ToolUse.cs
+++ b/src/AxCopilot/Services/LlmService.ToolUse.cs
@@ -225,7 +225,7 @@ public partial class LlmService
            return new
            {
                model = activeModel,
-                max_tokens = Math.Max(llm.MaxContextTokens, 4096),
+                max_tokens = ResolveOpenAiCompatibleMaxTokens(),
                temperature = llm.Temperature,
                system = systemPrompt,
                messages = msgs,
@@ -237,7 +237,7 @@ public partial class LlmService
        return new
        {
            model = activeModel,
-            max_tokens = Math.Max(llm.MaxContextTokens, 4096),
+            max_tokens = ResolveOpenAiCompatibleMaxTokens(),
            temperature = llm.Temperature,
            messages = msgs,
            tools = toolDefs,
@@ -661,7 +661,7 @@ public partial class LlmService
            ["tools"] = toolDefs,
            ["stream"] = false,
            ["temperature"] = ResolveTemperature(),
-            ["max_tokens"] = llm.MaxContextTokens,
+            ["max_tokens"] = ResolveOpenAiCompatibleMaxTokens(),
        };
        var effort = ResolveReasoningEffort();
        if (!string.IsNullOrWhiteSpace(effort))