Merge pull request #10468 from ollama/drifkin/num-parallel-1

2025-06-30 21:50:56 +02:00 · 2025-04-29 10:21:36 -07:00
parent 6ec71d8fb6 fe5b9bb21b
commit db428adbb8
1 changed files with 1 additions and 1 deletions
--- a/server/sched.go
+++ b/server/sched.go
@ -58,7 +58,7 @@ var defaultModelsPerGPU = 3
 // Default automatic value for parallel setting
 // Model will still need to fit in VRAM.  If this setting won't fit
 // we'll back off down to 1 to try to get it to fit
-var defaultParallel = 4
+var defaultParallel = 2
 var ErrMaxQueue = errors.New("server busy, please try again.  maximum pending requests exceeded")