ollama - ✅(Solved) Fix New Gemma 4 models run on CPU, they say they are running on GPU [2 pull requests, 42 comments, 26 participants]

ollama2026-04-02 19:33:10

ON THIS PAGE

Recommended Tools

×6

Utilities matched from this issue’s tags and category — try them while you read without losing context.

GitHub issue graph ai analysis

Paste a GitHub issue URL. We fetch that issue, discover linked issues from bodies/comments/timeline, collect linked pull requests, and produce a structured English report.

The report is written in English Markdown for sharing and archival.

GitHub issue URL

Helpful · Quick feedback

GitHub stats

ollama/ollama#15237•Fetched 2026-04-08 02:33:55

View on GitHub

Comments

Participants

Timeline

Reactions

Author

sammyvoncheese

Timeline (top)

commented ×42subscribed ×25cross-referenced ×8unsubscribed ×3

Fix Action

Fix / Workaround

time=2026-04-02T13:59:15.592-04:00 level=INFO source=routes.go:1744 msg="server config" env="map[CUDA_VISIBLE_DEVICES: GGML_VK_VISIBLE_DEVICES: GPU_DEVICE_ORDINAL: HIP_VISIBLE_DEVICES: HSA_OVERRIDE_GFX_VERSION: HTTPS_PROXY: HTTP_PROXY: NO_PROXY: OLLAMA_CONTEXT_LENGTH:0 OLLAMA_DEBUG:DEBUG OLLAMA_DEBUG_LOG_REQUESTS:false OLLAMA_EDITOR: OLLAMA_FLASH_ATTENTION:true OLLAMA_GPU_OVERHEAD:0 OLLAMA_HOST:http://127.0.0.1:11434 OLLAMA_KEEP_ALIVE:5m0s OLLAMA_KV_CACHE_TYPE: OLLAMA_LLM_LIBRARY: OLLAMA_LOAD_TIMEOUT:5m0s OLLAMA_MAX_LOADED_MODELS:1 OLLAMA_MAX_QUEUE:512 OLLAMA_MODELS:d:\\dev\\models\\llm OLLAMA_MULTIUSER_CACHE:false OLLAMA_NEW_ENGINE:true OLLAMA_NOHISTORY:false OLLAMA_NOPRUNE:false OLLAMA_NO_CLOUD:false OLLAMA_NUM_PARALLEL:1 OLLAMA_ORIGINS:[http://localhost https://localhost http://localhost:* https://localhost:* http://127.0.0.1 https://127.0.0.1 http://127.0.0.1:* https://127.0.0.1:* http://0.0.0.0 https://0.0.0.0 http://0.0.0.0:* https://0.0.0.0:* app://* file://* tauri://* vscode-webview://* vscode-file://*] OLLAMA_REMOTES:[ollama.com] OLLAMA_SCHED_SPREAD:false OLLAMA_VULKAN:false ROCR_VISIBLE_DEVICES:]"
time=2026-04-02T13:59:15.593-04:00 level=INFO source=routes.go:1746 msg="Ollama cloud disabled: false"
time=2026-04-02T13:59:15.618-04:00 level=INFO source=images.go:499 msg="total blobs: 650"
time=2026-04-02T13:59:15.630-04:00 level=INFO source=images.go:506 msg="total unused blobs removed: 0"
time=2026-04-02T13:59:15.635-04:00 level=INFO source=routes.go:1802 msg="Listening on 127.0.0.1:11434 (version 0.20.0-rc0)"
time=2026-04-02T13:59:15.635-04:00 level=DEBUG source=sched.go:145 msg="starting llm scheduler"
time=2026-04-02T13:59:15.635-04:00 level=INFO source=runner.go:67 msg="discovering available GPUs..."
time=2026-04-02T13:59:15.646-04:00 level=INFO source=server.go:432 msg="starting runner" cmd="D:\\dev\\ollama-server\\ollama\\ollama.exe runner --ollama-engine --port 52435"
time=2026-04-02T13:59:15.646-04:00 level=DEBUG source=server.go:433 msg=subprocess CUDA_PATH="C:\\Program Files\\NVIDIA GPU Computing Toolkit\\CUDA\\v13.1" CUDA_PATH_V13_0="C:\\Program Files\\NVIDIA GPU Computing Toolkit\\CUDA\\v13.0" CUDA_PATH_V13_1="C:\\Program Files\\NVIDIA GPU Computing Toolkit\\CUDA\\v13.1" OLLAMA_API_BASE=http://127.0.0.1:11434 OLLAMA_DEBUG=1 OLLAMA_FLASH_ATTENTION=1 OLLAMA_MAX_LOADED_MODELS=1 OLLAMA_MODELS=d:\dev\models\llm OLLAMA_NEW_ENGINE=1 OLLAMA_NEW_ESTIMATES=1 OLLAMA_NUM_PARALLEL=1 PATH="D:\\dev\\ollama-server\\ollama\\lib\\ollama;D:\\dev\\ollama-server\\ollama\\lib\\ollama\\cuda_v12;C:\\Program Files\\NVIDIA GPU Computing Toolkit\\CUDA\\v13.1\\bin\\x64;C:\\Program Files\\NVIDIA GPU Computing Toolkit\\CUDA\\v13.1\\bin;C:\\Program Files\\NVIDIA GPU Computing Toolkit\\CUDA\\v13.0\\bin\\x64;C:\\Program Files\\NVIDIA GPU Computing Toolkit\\CUDA\\v13.0\\bin;C:\\Windows\\system32;C:\\Windows;C:\\Windows\\System32\\Wbem;C:\\Windows\\System32\\WindowsPowerShell\\v1.0\\;C:\\Windows\\System32\\OpenSSH\\;C:\\Program Files\\NVIDIA Corporation\\NVIDIA App\\NvDLISR;C:\\Program Files (x86)\\NVIDIA Corporation\\PhysX\\Common;C:\\Program Files\\GitHub CLI\\;C:\\Program Files\\Git\\cmd;C:\\Program Files\\dotnet\\;C:\\Program Files (x86)\\Windows Kits\\10\\Windows Performance Toolkit\\;C:\\Program Files\\NVIDIA Corporation\\Nsight Compute 2025.4.1\\;D:\\dev\\ollama-server\\ollama;D:\\dev\\Python\\Python314\\Scripts\\;D:\\dev\\Python\\Python314\\;C:\\Users\\willi\\AppData\\Local\\Programs\\Python\\Launcher\\;C:\\Users\\willi\\AppData\\Local\\Microsoft\\WindowsApps;C:\\Users\\willi\\AppData\\Local\\GitHubDesktop\\bin;C:\\Users\\willi\\AppData\\Local\\Programs\\Microsoft VS Code\\bin;C:\\Users\\willi\\.dotnet\\tools;" OLLAMA_LIBRARY_PATH=D:\dev\ollama-server\ollama\lib\ollama;D:\dev\ollama-server\ollama\lib\ollama\cuda_v12
time=2026-04-02T13:59:15.920-04:00 level=DEBUG source=runner.go:437 msg="bootstrap discovery took" duration=281.4062ms OLLAMA_LIBRARY_PATH="[D:\\dev\\ollama-server\\ollama\\lib\\ollama D:\\dev\\ollama-server\\ollama\\lib\\ollama\\cuda_v12]" extra_envs=map[]
time=2026-04-02T13:59:15.921-04:00 level=INFO source=server.go:432 msg="starting runner" cmd="D:\\dev\\ollama-server\\ollama\\ollama.exe runner --ollama-engine --port 52440"
time=2026-04-02T13:59:15.921-04:00 level=DEBUG source=server.go:433 msg=subprocess CUDA_PATH="C:\\Program Files\\NVIDIA GPU Computing Toolkit\\CUDA\\v13.1" CUDA_PATH_V13_0="C:\\Program Files\\NVIDIA GPU Computing Toolkit\\CUDA\\v13.0" CUDA_PATH_V13_1="C:\\Program Files\\NVIDIA GPU Computing Toolkit\\CUDA\\v13.1" OLLAMA_API_BASE=http://127.0.0.1:11434 OLLAMA_DEBUG=1 OLLAMA_FLASH_ATTENTION=1 OLLAMA_MAX_LOADED_MODELS=1 OLLAMA_MODELS=d:\dev\models\llm OLLAMA_NEW_ENGINE=1 OLLAMA_NEW_ESTIMATES=1 OLLAMA_NUM_PARALLEL=1 PATH="D:\\dev\\ollama-server\\ollama\\lib\\ollama;D:\\dev\\ollama-server\\ollama\\lib\\ollama\\cuda_v13;C:\\Program Files\\NVIDIA GPU Computing Toolkit\\CUDA\\v13.1\\bin\\x64;C:\\Program Files\\NVIDIA GPU Computing Toolkit\\CUDA\\v13.1\\bin;C:\\Program Files\\NVIDIA GPU Computing Toolkit\\CUDA\\v13.0\\bin\\x64;C:\\Program Files\\NVIDIA GPU Computing Toolkit\\CUDA\\v13.0\\bin;C:\\Windows\\system32;C:\\Windows;C:\\Windows\\System32\\Wbem;C:\\Windows\\System32\\WindowsPowerShell\\v1.0\\;C:\\Windows\\System32\\OpenSSH\\;C:\\Program Files\\NVIDIA Corporation\\NVIDIA App\\NvDLISR;C:\\Program Files (x86)\\NVIDIA Corporation\\PhysX\\Common;C:\\Program Files\\GitHub CLI\\;C:\\Program Files\\Git\\cmd;C:\\Program Files\\dotnet\\;C:\\Program Files (x86)\\Windows Kits\\10\\Windows Performance Toolkit\\;C:\\Program Files\\NVIDIA Corporation\\Nsight Compute 2025.4.1\\;D:\\dev\\ollama-server\\ollama;D:\\dev\\Python\\Python314\\Scripts\\;D:\\dev\\Python\\Python314\\;C:\\Users\\willi\\AppData\\Local\\Programs\\Python\\Launcher\\;C:\\Users\\willi\\AppData\\Local\\Microsoft\\WindowsApps;C:\\Users\\willi\\AppData\\Local\\GitHubDesktop\\bin;C:\\Users\\willi\\AppData\\Local\\Programs\\Microsoft VS Code\\bin;C:\\Users\\willi\\.dotnet\\tools;" OLLAMA_LIBRARY_PATH=D:\dev\ollama-server\ollama\lib\ollama;D:\dev\ollama-server\ollama\lib\ollama\cuda_v13
time=2026-04-02T13:59:16.189-04:00 level=DEBUG source=runner.go:437 msg="bootstrap discovery took" duration=268.9693ms OLLAMA_LIBRARY_PATH="[D:\\dev\\ollama-server\\ollama\\lib\\ollama D:\\dev\\ollama-server\\ollama\\lib\\ollama\\cuda_v13]" extra_envs=map[]
time=2026-04-02T13:59:16.189-04:00 level=INFO source=runner.go:106 msg="experimental Vulkan support disabled.  To enable, set OLLAMA_VULKAN=1"
time=2026-04-02T13:59:16.189-04:00 level=DEBUG source=runner.go:124 msg="evaluating which, if any, devices to filter out" initial_count=2
time=2026-04-02T13:59:16.189-04:00 level=DEBUG source=runner.go:146 msg="verifying if device is supported" library=D:\dev\ollama-server\ollama\lib\ollama\cuda_v12 description="NVIDIA GeForce RTX 5090" compute=12.0 id=GPU-68a69638-eb9a-ef06-c025-5d8b66415f00 pci_id=0000:01:00.0
time=2026-04-02T13:59:16.189-04:00 level=DEBUG source=runner.go:146 msg="verifying if device is supported" library=D:\dev\ollama-server\ollama\lib\ollama\cuda_v13 description="NVIDIA GeForce RTX 5090" compute=12.0 id=GPU-68a69638-eb9a-ef06-c025-5d8b66415f00 pci_id=0000:01:00.0
time=2026-04-02T13:59:16.190-04:00 level=INFO source=server.go:432 msg="starting runner" cmd="D:\\dev\\ollama-server\\ollama\\ollama.exe runner --ollama-engine --port 52445"
time=2026-04-02T13:59:16.190-04:00 level=INFO source=server.go:432 msg="starting runner" cmd="D:\\dev\\ollama-server\\ollama\\ollama.exe runner --ollama-engine --port 52446"
time=2026-04-02T13:59:16.190-04:00 level=DEBUG source=server.go:433 msg=subprocess CUDA_PATH="C:\\Program Files\\NVIDIA GPU Computing Toolkit\\CUDA\\v13.1" CUDA_PATH_V13_0="C:\\Program Files\\NVIDIA GPU Computing Toolkit\\CUDA\\v13.0" CUDA_PATH_V13_1="C:\\Program Files\\NVIDIA GPU Computing Toolkit\\CUDA\\v13.1" OLLAMA_API_BASE=http://127.0.0.1:11434 OLLAMA_DEBUG=1 OLLAMA_FLASH_ATTENTION=1 OLLAMA_MAX_LOADED_MODELS=1 OLLAMA_MODELS=d:\dev\models\llm OLLAMA_NEW_ENGINE=1 OLLAMA_NEW_ESTIMATES=1 OLLAMA_NUM_PARALLEL=1 PATH="D:\\dev\\ollama-server\\ollama\\lib\\ollama;D:\\dev\\ollama-server\\ollama\\lib\\ollama\\cuda_v12;C:\\Program Files\\NVIDIA GPU Computing Toolkit\\CUDA\\v13.1\\bin\\x64;C:\\Program Files\\NVIDIA GPU Computing Toolkit\\CUDA\\v13.1\\bin;C:\\Program Files\\NVIDIA GPU Computing Toolkit\\CUDA\\v13.0\\bin\\x64;C:\\Program Files\\NVIDIA GPU Computing Toolkit\\CUDA\\v13.0\\bin;C:\\Windows\\system32;C:\\Windows;C:\\Windows\\System32\\Wbem;C:\\Windows\\System32\\WindowsPowerShell\\v1.0\\;C:\\Windows\\System32\\OpenSSH\\;C:\\Program Files\\NVIDIA Corporation\\NVIDIA App\\NvDLISR;C:\\Program Files (x86)\\NVIDIA Corporation\\PhysX\\Common;C:\\Program Files\\GitHub CLI\\;C:\\Program Files\\Git\\cmd;C:\\Program Files\\dotnet\\;C:\\Program Files (x86)\\Windows Kits\\10\\Windows Performance Toolkit\\;C:\\Program Files\\NVIDIA Corporation\\Nsight Compute 2025.4.1\\;D:\\dev\\ollama-server\\ollama;D:\\dev\\Python\\Python314\\Scripts\\;D:\\dev\\Python\\Python314\\;C:\\Users\\willi\\AppData\\Local\\Programs\\Python\\Launcher\\;C:\\Users\\willi\\AppData\\Local\\Microsoft\\WindowsApps;C:\\Users\\willi\\AppData\\Local\\GitHubDesktop\\bin;C:\\Users\\willi\\AppData\\Local\\Programs\\Microsoft VS Code\\bin;C:\\Users\\willi\\.dotnet\\tools;" OLLAMA_LIBRARY_PATH=D:\dev\ollama-server\ollama\lib\ollama;D:\dev\ollama-server\ollama\lib\ollama\cuda_v12 CUDA_VISIBLE_DEVICES=GPU-68a69638-eb9a-ef06-c025-5d8b66415f00 GGML_CUDA_INIT=1
time=2026-04-02T13:59:16.190-04:00 level=DEBUG source=server.go:433 msg=subprocess CUDA_PATH="C:\\Program Files\\NVIDIA GPU Computing Toolkit\\CUDA\\v13.1" CUDA_PATH_V13_0="C:\\Program Files\\NVIDIA GPU Computing Toolkit\\CUDA\\v13.0" CUDA_PATH_V13_1="C:\\Program Files\\NVIDIA GPU Computing Toolkit\\CUDA\\v13.1" OLLAMA_API_BASE=http://127.0.0.1:11434 OLLAMA_DEBUG=1 OLLAMA_FLASH_ATTENTION=1 OLLAMA_MAX_LOADED_MODELS=1 OLLAMA_MODELS=d:\dev\models\llm OLLAMA_NEW_ENGINE=1 OLLAMA_NEW_ESTIMATES=1 OLLAMA_NUM_PARALLEL=1 PATH="D:\\dev\\ollama-server\\ollama\\lib\\ollama;D:\\dev\\ollama-server\\ollama\\lib\\ollama\\cuda_v13;C:\\Program Files\\NVIDIA GPU Computing Toolkit\\CUDA\\v13.1\\bin\\x64;C:\\Program Files\\NVIDIA GPU Computing Toolkit\\CUDA\\v13.1\\bin;C:\\Program Files\\NVIDIA GPU Computing Toolkit\\CUDA\\v13.0\\bin\\x64;C:\\Program Files\\NVIDIA GPU Computing Toolkit\\CUDA\\v13.0\\bin;C:\\Windows\\system32;C:\\Windows;C:\\Windows\\System32\\Wbem;C:\\Windows\\System32\\WindowsPowerShell\\v1.0\\;C:\\Windows\\System32\\OpenSSH\\;C:\\Program Files\\NVIDIA Corporation\\NVIDIA App\\NvDLISR;C:\\Program Files (x86)\\NVIDIA Corporation\\PhysX\\Common;C:\\Program Files\\GitHub CLI\\;C:\\Program Files\\Git\\cmd;C:\\Program Files\\dotnet\\;C:\\Program Files (x86)\\Windows Kits\\10\\Windows Performance Toolkit\\;C:\\Program Files\\NVIDIA Corporation\\Nsight Compute 2025.4.1\\;D:\\dev\\ollama-server\\ollama;D:\\dev\\Python\\Python314\\Scripts\\;D:\\dev\\Python\\Python314\\;C:\\Users\\willi\\AppData\\Local\\Programs\\Python\\Launcher\\;C:\\Users\\willi\\AppData\\Local\\Microsoft\\WindowsApps;C:\\Users\\willi\\AppData\\Local\\GitHubDesktop\\bin;C:\\Users\\willi\\AppData\\Local\\Programs\\Microsoft VS Code\\bin;C:\\Users\\willi\\.dotnet\\tools;" OLLAMA_LIBRARY_PATH=D:\dev\ollama-server\ollama\lib\ollama;D:\dev\ollama-server\ollama\lib\ollama\cuda_v13 CUDA_VISIBLE_DEVICES=GPU-68a69638-eb9a-ef06-c025-5d8b66415f00 GGML_CUDA_INIT=1
time=2026-04-02T13:59:16.354-04:00 level=DEBUG source=runner.go:437 msg="bootstrap discovery took" duration=164.5379ms OLLAMA_LIBRARY_PATH="[D:\\dev\\ollama-server\\ollama\\lib\\ollama D:\\dev\\ollama-server\\ollama\\lib\\ollama\\cuda_v13]" extra_envs="map[CUDA_VISIBLE_DEVICES:GPU-68a69638-eb9a-ef06-c025-5d8b66415f00 GGML_CUDA_INIT:1]"
time=2026-04-02T13:59:16.465-04:00 level=DEBUG source=runner.go:437 msg="bootstrap discovery took" duration=275.8555ms OLLAMA_LIBRARY_PATH="[D:\\dev\\ollama-server\\ollama\\lib\\ollama D:\\dev\\ollama-server\\ollama\\lib\\ollama\\cuda_v12]" extra_envs="map[CUDA_VISIBLE_DEVICES:GPU-68a69638-eb9a-ef06-c025-5d8b66415f00 GGML_CUDA_INIT:1]"
time=2026-04-02T13:59:16.465-04:00 level=DEBUG source=runner.go:401 msg="filtering device with overlapping libraries" id=GPU-68a69638-eb9a-ef06-c025-5d8b66415f00 library=D:\dev\ollama-server\ollama\lib\ollama\cuda_v12 delete_index=0 kept_library=D:\dev\ollama-server\ollama\lib\ollama\cuda_v13
time=2026-04-02T13:59:16.465-04:00 level=DEBUG source=runner.go:40 msg="GPU bootstrap discovery took" duration=829.9088ms
time=2026-04-02T13:59:16.465-04:00 level=INFO source=types.go:42 msg="inference compute" id=GPU-68a69638-eb9a-ef06-c025-5d8b66415f00 filter_id="" library=CUDA compute=12.0 name=CUDA0 description="NVIDIA GeForce RTX 5090" libdirs=ollama,cuda_v13 driver=13.2 pci_id=0000:01:00.0 type=discrete total="31.8 GiB" available="30.3 GiB"
time=2026-04-02T13:59:16.465-04:00 level=INFO source=routes.go:1852 msg="vram-based default context" total_vram="31.8 GiB" default_num_ctx=32768
[GIN] 2026/04/02 - 14:00:08 | 200 |     26.9792ms |       127.0.0.1 | GET      "/api/tags"
[GIN] 2026/04/02 - 14:00:09 | 200 |     28.1036ms |       127.0.0.1 | GET      "/api/tags"
[GIN] 2026/04/02 - 14:00:09 | 200 |     26.0192ms |       127.0.0.1 | GET      "/api/tags"
[GIN] 2026/04/02 - 14:00:09 | 200 |      23.369ms |       127.0.0.1 | GET      "/api/tags"
[GIN] 2026/04/02 - 14:00:09 | 200 |     24.2709ms |       127.0.0.1 | GET      "/api/tags"
[GIN] 2026/04/02 - 14:00:09 | 200 |     24.3459ms |       127.0.0.1 | GET      "/api/tags"
[GIN] 2026/04/02 - 14:00:09 | 200 |     22.4509ms |       127.0.0.1 | GET      "/api/tags"
[GIN] 2026/04/02 - 14:00:09 | 200 |     22.9703ms |       127.0.0.1 | GET      "/api/tags"
[GIN] 2026/04/02 - 14:00:18 | 200 |     25.8204ms |       127.0.0.1 | GET      "/api/tags"
[GIN] 2026/04/02 - 14:00:18 | 200 |     23.8954ms |       127.0.0.1 | GET      "/api/tags"
time=2026-04-02T14:00:19.013-04:00 level=DEBUG source=runner.go:264 msg="refreshing free memory"
time=2026-04-02T14:00:19.013-04:00 level=DEBUG source=runner.go:328 msg="unable to refresh all GPUs with existing runners, performing bootstrap discovery"
time=2026-04-02T14:00:19.016-04:00 level=INFO source=server.go:432 msg="starting runner" cmd="D:\\dev\\ollama-server\\ollama\\ollama.exe runner --ollama-engine --port 58380"
time=2026-04-02T14:00:19.017-04:00 level=DEBUG source=server.go:433 msg=subprocess CUDA_PATH="C:\\Program Files\\NVIDIA GPU Computing Toolkit\\CUDA\\v13.1" CUDA_PATH_V13_0="C:\\Program Files\\NVIDIA GPU Computing Toolkit\\CUDA\\v13.0" CUDA_PATH_V13_1="C:\\Program Files\\NVIDIA GPU Computing Toolkit\\CUDA\\v13.1" OLLAMA_API_BASE=http://127.0.0.1:11434 OLLAMA_DEBUG=1 OLLAMA_FLASH_ATTENTION=1 OLLAMA_MAX_LOADED_MODELS=1 OLLAMA_MODELS=d:\dev\models\llm OLLAMA_NEW_ENGINE=1 OLLAMA_NEW_ESTIMATES=1 OLLAMA_NUM_PARALLEL=1 PATH="D:\\dev\\ollama-server\\ollama\\lib\\ollama;D:\\dev\\ollama-server\\ollama\\lib\\ollama\\cuda_v13;C:\\Program Files\\NVIDIA GPU Computing Toolkit\\CUDA\\v13.1\\bin\\x64;C:\\Program Files\\NVIDIA GPU Computing Toolkit\\CUDA\\v13.1\\bin;C:\\Program Files\\NVIDIA GPU Computing Toolkit\\CUDA\\v13.0\\bin\\x64;C:\\Program Files\\NVIDIA GPU Computing Toolkit\\CUDA\\v13.0\\bin;C:\\Windows\\system32;C:\\Windows;C:\\Windows\\System32\\Wbem;C:\\Windows\\System32\\WindowsPowerShell\\v1.0\\;C:\\Windows\\System32\\OpenSSH\\;C:\\Program Files\\NVIDIA Corporation\\NVIDIA App\\NvDLISR;C:\\Program Files (x86)\\NVIDIA Corporation\\PhysX\\Common;C:\\Program Files\\GitHub CLI\\;C:\\Program Files\\Git\\cmd;C:\\Program Files\\dotnet\\;C:\\Program Files (x86)\\Windows Kits\\10\\Windows Performance Toolkit\\;C:\\Program Files\\NVIDIA Corporation\\Nsight Compute 2025.4.1\\;D:\\dev\\ollama-server\\ollama;D:\\dev\\Python\\Python314\\Scripts\\;D:\\dev\\Python\\Python314\\;C:\\Users\\willi\\AppData\\Local\\Programs\\Python\\Launcher\\;C:\\Users\\willi\\AppData\\Local\\Microsoft\\WindowsApps;C:\\Users\\willi\\AppData\\Local\\GitHubDesktop\\bin;C:\\Users\\willi\\AppData\\Local\\Programs\\Microsoft VS Code\\bin;C:\\Users\\willi\\.dotnet\\tools;" OLLAMA_LIBRARY_PATH=D:\dev\ollama-server\ollama\lib\ollama;D:\dev\ollama-server\ollama\lib\ollama\cuda_v13
time=2026-04-02T14:00:19.298-04:00 level=DEBUG source=runner.go:437 msg="bootstrap discovery took" duration=284.433ms OLLAMA_LIBRARY_PATH="[D:\\dev\\ollama-server\\ollama\\lib\\ollama D:\\dev\\ollama-server\\ollama\\lib\\ollama\\cuda_v13]" extra_envs=map[]
time=2026-04-02T14:00:19.298-04:00 level=DEBUG source=runner.go:40 msg="overall device VRAM discovery took" duration=284.433ms
time=2026-04-02T14:00:19.298-04:00 level=INFO source=cpu_windows.go:148 msg=packages count=1
time=2026-04-02T14:00:19.298-04:00 level=INFO source=cpu_windows.go:195 msg="" package=0 cores=16 efficiency=0 threads=32
time=2026-04-02T14:00:19.298-04:00 level=DEBUG source=sched.go:229 msg="loading first model" model=d:\dev\models\llm\blobs\sha256-cbdeb708e2000122364bf1a63b8aa009504201863def6fb69da784681866a6c6
time=2026-04-02T14:00:19.361-04:00 level=DEBUG source=ggml.go:325 msg="key with type not found" key=general.alignment default=32
time=2026-04-02T14:00:19.399-04:00 level=DEBUG source=ggml.go:325 msg="key with type not found" key=general.alignment default=32
time=2026-04-02T14:00:19.402-04:00 level=DEBUG source=ggml.go:325 msg="key with type not found" key=gemma4.pooling_type default=0
time=2026-04-02T14:00:19.402-04:00 level=DEBUG source=ggml.go:325 msg="key with type not found" key=tokenizer.ggml.eot_token_id default=106
time=2026-04-02T14:00:19.402-04:00 level=INFO source=model.go:97 msg="gemma4: token IDs" image=255999 image_end=258882 audio=256000 audio_end=258883
time=2026-04-02T14:00:19.402-04:00 level=DEBUG source=ggml.go:325 msg="key with type not found" key=gemma4.attention.global_head_count_kv default=0
time=2026-04-02T14:00:19.402-04:00 level=DEBUG source=ggml.go:325 msg="key with type not found" key=gemma4.attention.head_count_kv default="&{size:0 values:[]}"
time=2026-04-02T14:00:19.402-04:00 level=DEBUG source=ggml.go:325 msg="key with type not found" key=gemma4.expert_count default=0
time=2026-04-02T14:00:19.402-04:00 level=DEBUG source=ggml.go:325 msg="key with type not found" key=gemma4.expert_used_count default=0
time=2026-04-02T14:00:19.402-04:00 level=DEBUG source=ggml.go:325 msg="key with type not found" key=gemma4.audio.num_mel_bins default=128
time=2026-04-02T14:00:19.402-04:00 level=INFO source=server.go:247 msg="enabling flash attention"
time=2026-04-02T14:00:19.403-04:00 level=INFO source=server.go:432 msg="starting runner" cmd="D:\\dev\\ollama-server\\ollama\\ollama.exe runner --ollama-engine --model d:\\dev\\models\\llm\\blobs\\sha256-cbdeb708e2000122364bf1a63b8aa009504201863def6fb69da784681866a6c6 --port 58385"
time=2026-04-02T14:00:19.403-04:00 level=DEBUG source=server.go:433 msg=subprocess CUDA_PATH="C:\\Program Files\\NVIDIA GPU Computing Toolkit\\CUDA\\v13.1" CUDA_PATH_V13_0="C:\\Program Files\\NVIDIA GPU Computing Toolkit\\CUDA\\v13.0" CUDA_PATH_V13_1="C:\\Program Files\\NVIDIA GPU Computing Toolkit\\CUDA\\v13.1" OLLAMA_API_BASE=http://127.0.0.1:11434 OLLAMA_DEBUG=1 OLLAMA_FLASH_ATTENTION=1 OLLAMA_MAX_LOADED_MODELS=1 OLLAMA_MODELS=d:\dev\models\llm OLLAMA_NEW_ENGINE=1 OLLAMA_NEW_ESTIMATES=1 OLLAMA_NUM_PARALLEL=1 PATH="D:\\dev\\ollama-server\\ollama\\lib\\ollama;D:\\dev\\ollama-server\\ollama\\lib\\ollama\\cuda_v13;C:\\Program Files\\NVIDIA GPU Computing Toolkit\\CUDA\\v13.1\\bin\\x64;C:\\Program Files\\NVIDIA GPU Computing Toolkit\\CUDA\\v13.1\\bin;C:\\Program Files\\NVIDIA GPU Computing Toolkit\\CUDA\\v13.0\\bin\\x64;C:\\Program Files\\NVIDIA GPU Computing Toolkit\\CUDA\\v13.0\\bin;C:\\Windows\\system32;C:\\Windows;C:\\Windows\\System32\\Wbem;C:\\Windows\\System32\\WindowsPowerShell\\v1.0\\;C:\\Windows\\System32\\OpenSSH\\;C:\\Program Files\\NVIDIA Corporation\\NVIDIA App\\NvDLISR;C:\\Program Files (x86)\\NVIDIA Corporation\\PhysX\\Common;C:\\Program Files\\GitHub CLI\\;C:\\Program Files\\Git\\cmd;C:\\Program Files\\dotnet\\;C:\\Program Files (x86)\\Windows Kits\\10\\Windows Performance Toolkit\\;C:\\Program Files\\NVIDIA Corporation\\Nsight Compute 2025.4.1\\;D:\\dev\\ollama-server\\ollama;D:\\dev\\Python\\Python314\\Scripts\\;D:\\dev\\Python\\Python314\\;C:\\Users\\willi\\AppData\\Local\\Programs\\Python\\Launcher\\;C:\\Users\\willi\\AppData\\Local\\Microsoft\\WindowsApps;C:\\Users\\willi\\AppData\\Local\\GitHubDesktop\\bin;C:\\Users\\willi\\AppData\\Local\\Programs\\Microsoft VS Code\\bin;C:\\Users\\willi\\.dotnet\\tools;" OLLAMA_LIBRARY_PATH=D:\dev\ollama-server\ollama\lib\ollama;D:\dev\ollama-server\ollama\lib\ollama\cuda_v13
time=2026-04-02T14:00:19.405-04:00 level=INFO source=sched.go:484 msg="system memory" total="93.6 GiB" free="76.2 GiB" free_swap="76.3 GiB"
time=2026-04-02T14:00:19.405-04:00 level=INFO source=sched.go:491 msg="gpu memory" id=GPU-68a69638-eb9a-ef06-c025-5d8b66415f00 library=CUDA available="29.8 GiB" free="30.3 GiB" minimum="457.0 MiB" overhead="0 B"
time=2026-04-02T14:00:19.406-04:00 level=INFO source=server.go:759 msg="loading model" "model layers"=43 requested=-1
time=2026-04-02T14:00:19.435-04:00 level=INFO source=runner.go:1417 msg="starting ollama engine"
time=2026-04-02T14:00:19.436-04:00 level=INFO source=runner.go:1452 msg="Server listening on 127.0.0.1:58385"
time=2026-04-02T14:00:19.438-04:00 level=INFO source=runner.go:1290 msg=load request="{Operation:fit LoraPath:[] Parallel:1 BatchSize:512 FlashAttention:Enabled KvSize:130000 KvCacheType: NumThreads:16 GPULayers:43[ID:GPU-68a69638-eb9a-ef06-c025-5d8b66415f00 Layers:43(0..42)] MultiUserCache:false ProjectorPath: MainGPU:0 UseMmap:false}"
time=2026-04-02T14:00:19.471-04:00 level=DEBUG source=ggml.go:325 msg="key with type not found" key=general.alignment default=32
time=2026-04-02T14:00:19.473-04:00 level=DEBUG source=ggml.go:325 msg="key with type not found" key=general.name default=""
time=2026-04-02T14:00:19.473-04:00 level=DEBUG source=ggml.go:325 msg="key with type not found" key=general.description default=""
time=2026-04-02T14:00:19.473-04:00 level=INFO source=ggml.go:136 msg="" architecture=gemma4 file_type=F16 name="" description="" num_tensors=2131 num_key_values=55
time=2026-04-02T14:00:19.473-04:00 level=DEBUG source=ggml.go:94 msg="ggml backend load all from path" path=D:\dev\ollama-server\ollama\lib\ollama
load_backend: loaded CPU backend from D:\dev\ollama-server\ollama\lib\ollama\ggml-cpu-icelake.dll
time=2026-04-02T14:00:19.485-04:00 level=DEBUG source=ggml.go:94 msg="ggml backend load all from path" path=D:\dev\ollama-server\ollama\lib\ollama\cuda_v13
ggml_cuda_init: GGML_CUDA_FORCE_MMQ:    no
ggml_cuda_init: GGML_CUDA_FORCE_CUBLAS: no
ggml_cuda_init: found 1 CUDA devices:
  Device 0: NVIDIA GeForce RTX 5090, compute capability 12.0, VMM: yes, ID: GPU-68a69638-eb9a-ef06-c025-5d8b66415f00
load_backend: loaded CUDA backend from D:\dev\ollama-server\ollama\lib\ollama\cuda_v13\ggml-cuda.dll
time=2026-04-02T14:00:19.543-04:00 level=INFO source=ggml.go:104 msg=system CPU.0.SSE3=1 CPU.0.SSSE3=1 CPU.0.AVX=1 CPU.0.AVX2=1 CPU.0.F16C=1 CPU.0.FMA=1 CPU.0.BMI2=1 CPU.0.AVX512=1 CPU.0.AVX512_VBMI=1 CPU.0.AVX512_VNNI=1 CPU.0.LLAMAFILE=1 CPU.1.LLAMAFILE=1 CUDA.0.ARCHS=750,800,860,870,890,900,1000,1030,1100,1200,1210 CUDA.0.USE_GRAPHS=1 CUDA.0.PEER_MAX_BATCH_SIZE=128 compiler=cgo(clang)
time=2026-04-02T14:00:19.552-04:00 level=DEBUG source=ggml.go:325 msg="key with type not found" key=gemma4.pooling_type default=0
time=2026-04-02T14:00:19.552-04:00 level=DEBUG source=ggml.go:325 msg="key with type not found" key=tokenizer.ggml.eot_token_id default=106
time=2026-04-02T14:00:19.553-04:00 level=INFO source=model.go:97 msg="gemma4: token IDs" image=255999 image_end=258882 audio=256000 audio_end=258883
time=2026-04-02T14:00:19.553-04:00 level=DEBUG source=ggml.go:325 msg="key with type not found" key=gemma4.attention.global_head_count_kv default=0
time=2026-04-02T14:00:19.553-04:00 level=DEBUG source=ggml.go:325 msg="key with type not found" key=gemma4.attention.head_count_kv default="&{size:0 values:[]}"
time=2026-04-02T14:00:19.553-04:00 level=DEBUG source=ggml.go:325 msg="key with type not found" key=gemma4.expert_count default=0
time=2026-04-02T14:00:19.553-04:00 level=DEBUG source=ggml.go:325 msg="key with type not found" key=gemma4.expert_used_count default=0
time=2026-04-02T14:00:19.553-04:00 level=DEBUG source=ggml.go:325 msg="key with type not found" key=gemma4.audio.num_mel_bins default=128
time=2026-04-02T14:00:19.564-04:00 level=INFO source=model.go:138 msg="vision: decode" elapsed=1.5334ms bounds=(0,0)-(2048,2048)
time=2026-04-02T14:00:19.627-04:00 level=INFO source=model.go:145 msg="vision: preprocess" elapsed=63.4348ms size="[768 768]"
time=2026-04-02T14:00:19.627-04:00 level=INFO source=model.go:148 msg="vision: pixelValues" shape="[768 768 3]" dim0=768 dim1=768 dim2=3
time=2026-04-02T14:00:19.627-04:00 level=INFO source=model.go:152 msg="vision: patches" patchesX=48 patchesY=48 total=2304 patchSize=16
time=2026-04-02T14:00:19.628-04:00 level=INFO source=model.go:156 msg="vision: encoded" elapsed=65.8333ms shape="[2560 256]"
time=2026-04-02T14:00:19.731-04:00 level=DEBUG source=ggml.go:852 msg="compute graph" nodes=684 splits=1
time=2026-04-02T14:00:19.984-04:00 level=DEBUG source=ggml.go:852 msg="compute graph" nodes=1831 splits=16
time=2026-04-02T14:00:19.996-04:00 level=DEBUG source=ggml.go:852 msg="compute graph" nodes=1829 splits=16
time=2026-04-02T14:00:19.996-04:00 level=DEBUG source=device.go:240 msg="model weights" device=CUDA0 size="14.9 GiB"
time=2026-04-02T14:00:19.996-04:00 level=DEBUG source=device.go:245 msg="model weights" device=CPU size="1.3 GiB"
time=2026-04-02T14:00:19.996-04:00 level=DEBUG source=device.go:251 msg="kv cache" device=CUDA0 size="2.2 GiB"
time=2026-04-02T14:00:19.996-04:00 level=DEBUG source=device.go:262 msg="compute graph" device=CUDA0 size="628.0 MiB"
time=2026-04-02T14:00:19.996-04:00 level=DEBUG source=device.go:267 msg="compute graph" device=CPU size="651.0 MiB"
time=2026-04-02T14:00:19.996-04:00 level=DEBUG source=device.go:272 msg="total memory" size="19.6 GiB"
... (64 lines left)

PR fix notes

PR #15332: ggml: add CUDA flash attention support for head dimension 512 for Gemma4

Repository: ollama/ollama
Author: mazphilip
State: open | merged: False
Link: https://github.com/ollama/ollama/pull/15332

Description (problem / solution / changelog)

Summary

Backport of ggml-org/llama.cpp#20998 into ollama's ggml backend. I am not sure if there is a formal way how this is done for ollama. The llama.cpp release that contains this fix is: https://github.com/ggml-org/llama.cpp/releases/tag/b8609

Why this is needed:

Gemma4's global attention layers use head_dim=512, which has no CUDA flash attention kernel in the current llama.cpp snapshot. When FA is enabled, these ops silently fall back to CPU, during inference.

ollama run with short prompts did not noticeably trigger the fallback, but ollama launch claude (and VS Code Copilot) did. Maybe due to large system prompts with tool definitions.

Changes:

Follows ggml-org/llama.cpp#20998

Add case 512 to MMA and tile kernel dispatch
Add kernel configs for Ampere, Turing, Volta, and RDNA architectures
Add template instances for D=512
Exclude D=512 from WMMA path and vector kernel (no D=512 vec templates)
Add gemma4 to flash attention default whitelist
- this has been added and revoked in #15311 - unclear why revoked and locally this works so I suggest to re-add

Related issues:

Fixes #15237, #15350

Test plan

Verified on RTX 5090 + RTX 3090 Ti with gemma4:31b Q4_K_M (FA on, 128K context, 100% GPU)
- verified that no CPU spike during ollama launch claude/vscode with long system prompts
- verified no regression on other tool-enabled models: nemotron-cascade-2, qwen3.5:35b-a3b, gpt-oss:20b
go test ./fs/ggml/ ./ml/backend/ggml/ passes

Evaluation steps used:

# Dont have vulkan locally, used PATH to CUDA 13.0 nvcc compiler:
cmake -B build -DCMAKE_DISABLE_FIND_PACKAGE_Vulkan=TRUE
cmake --build build -j$(nproc) 
go build -o ./ollama .

# Deploy
sudo systemctl stop ollama
sudo cp ./ollama /usr/local/bin/ollama
sudo cp ./build/lib/ollama/libggml-cuda.so /usr/local/lib/ollama/cuda_v13/libggml-cuda.so
sudo systemctl daemon-reload
sudo systemctl start ollama

# Enable FA (not needed with whitelist)
# In /etc/systemd/system/ollama.service.d/override.conf:
#   Environment="OLLAMA_FLASH_ATTENTION=1"
# Then: sudo systemctl daemon-reload && sudo systemctl restart ollama

# Test
ollama launch claude
# select model
# "hi"

Checks:

ollama ps #if running
nvidia-smi # careful: Memory will be filled but util ramps up then falls to basically 0% after the prompt is triggered

perf top for cpu util - if FA doesnt work, you should see things like following (I use a Q8 KV cache but it will max out CPU regardless):

48.23%  ollama          libggml-base.so.0.0.0   [.] dequantize_row_q8_0
        |--11.46%--ggml_compute_forward_flash_attn_ext
22.67%  ollama          libggml-cpu-haswell.so  [.] ggml_vec_dot_q8_0_q8_0
        |--5.89%--ggml_compute_forward_flash_attn_ext
17.05%  ollama          libggml-cpu-haswell.so  [.] ggml_compute_forward_flash_attn_ext
        |--2.66%--ggml_compute_forward_flash_attn_ext

Note that Gemma4 has some vision modules on the CPU - these would still be there and not a sign of FA not working

AI disclaimer: AI was used in the triaging and resolution of the issue.

Changed files

fs/ggml/ggml.go (modified, +1/-0)
ml/backend/ggml/ggml/src/ggml-cuda/fattn-mma-f16.cuh (modified, +23/-1)
ml/backend/ggml/ggml/src/ggml-cuda/fattn-tile.cu (modified, +4/-0)
ml/backend/ggml/ggml/src/ggml-cuda/fattn-tile.cuh (modified, +29/-8)
ml/backend/ggml/ggml/src/ggml-cuda/fattn.cu (modified, +10/-1)
ml/backend/ggml/ggml/src/ggml-cuda/template-instances/fattn-mma-f16-instance-ncols1_1-ncols2_8.cu (modified, +1/-0)
ml/backend/ggml/ggml/src/ggml-cuda/template-instances/fattn-mma-f16-instance-ncols1_16-ncols2_4.cu (modified, +1/-0)
ml/backend/ggml/ggml/src/ggml-cuda/template-instances/fattn-mma-f16-instance-ncols1_2-ncols2_4.cu (modified, +1/-0)
ml/backend/ggml/ggml/src/ggml-cuda/template-instances/fattn-mma-f16-instance-ncols1_2-ncols2_8.cu (modified, +1/-0)
ml/backend/ggml/ggml/src/ggml-cuda/template-instances/fattn-mma-f16-instance-ncols1_4-ncols2_4.cu (modified, +1/-0)
ml/backend/ggml/ggml/src/ggml-cuda/template-instances/fattn-mma-f16-instance-ncols1_4-ncols2_8.cu (modified, +1/-0)
ml/backend/ggml/ggml/src/ggml-cuda/template-instances/fattn-mma-f16-instance-ncols1_8-ncols2_4.cu (modified, +1/-0)
ml/backend/ggml/ggml/src/ggml-cuda/template-instances/fattn-mma-f16-instance-ncols1_8-ncols2_8.cu (modified, +1/-0)
ml/backend/ggml/ggml/src/ggml-cuda/template-instances/fattn-tile-instance-dkq512-dv512.cu (added, +5/-0)

PR #15378: gemma4: enable flash attention

Repository: ollama/ollama
Author: dhiltgen
State: closed | merged: True
Link: https://github.com/ollama/ollama/pull/15378

Description (problem / solution / changelog)

Backport GGML kernels so we can enable flash attention for the gemma 4 model on Metal and CUDA.

No significant performance change, but this does reduce VRAM usage thus allowing larger context sizes.

Fixes #15368 Fixes #15350 Fixes #15237

Changed files

fs/ggml/ggml.go (modified, +1/-0)
llama/patches/0020-ggml-No-alloc-mode.patch (modified, +23/-22)
llama/patches/0022-ggml-Enable-resetting-backend-devices.patch (modified, +2/-2)
llama/patches/0024-GPU-discovery-enhancements.patch (modified, +2/-2)
llama/patches/0036-backport-kernels-for-gemma4.patch (added, +416/-0)
ml/backend/ggml/ggml/src/ggml-cuda/fattn-mma-f16.cuh (modified, +25/-1)
ml/backend/ggml/ggml/src/ggml-cuda/fattn-tile.cu (modified, +4/-0)
ml/backend/ggml/ggml/src/ggml-cuda/fattn-tile.cuh (modified, +29/-8)
ml/backend/ggml/ggml/src/ggml-cuda/fattn.cu (modified, +10/-1)
ml/backend/ggml/ggml/src/ggml-cuda/template-instances/fattn-mma-f16-instance-ncols1_1-ncols2_8.cu (modified, +1/-0)
ml/backend/ggml/ggml/src/ggml-cuda/template-instances/fattn-mma-f16-instance-ncols1_16-ncols2_4.cu (modified, +1/-0)
ml/backend/ggml/ggml/src/ggml-cuda/template-instances/fattn-mma-f16-instance-ncols1_2-ncols2_4.cu (modified, +1/-0)
ml/backend/ggml/ggml/src/ggml-cuda/template-instances/fattn-mma-f16-instance-ncols1_2-ncols2_8.cu (modified, +1/-0)
ml/backend/ggml/ggml/src/ggml-cuda/template-instances/fattn-mma-f16-instance-ncols1_4-ncols2_4.cu (modified, +1/-0)
ml/backend/ggml/ggml/src/ggml-cuda/template-instances/fattn-mma-f16-instance-ncols1_4-ncols2_8.cu (modified, +1/-0)
ml/backend/ggml/ggml/src/ggml-cuda/template-instances/fattn-mma-f16-instance-ncols1_8-ncols2_4.cu (modified, +1/-0)
ml/backend/ggml/ggml/src/ggml-cuda/template-instances/fattn-mma-f16-instance-ncols1_8-ncols2_8.cu (modified, +1/-0)
ml/backend/ggml/ggml/src/ggml-metal/ggml-metal-device.m (modified, +1/-0)
ml/backend/ggml/ggml/src/ggml-metal/ggml-metal-embed.metal (modified, +19/-0)
ml/backend/ggml/ggml/src/ggml-metal/ggml-metal.metal (modified, +19/-0)

Code Example

time=2026-04-02T13:59:15.592-04:00 level=INFO source=routes.go:1744 msg="server config" env="map[CUDA_VISIBLE_DEVICES: GGML_VK_VISIBLE_DEVICES: GPU_DEVICE_ORDINAL: HIP_VISIBLE_DEVICES: HSA_OVERRIDE_GFX_VERSION: HTTPS_PROXY: HTTP_PROXY: NO_PROXY: OLLAMA_CONTEXT_LENGTH:0 OLLAMA_DEBUG:DEBUG OLLAMA_DEBUG_LOG_REQUESTS:false OLLAMA_EDITOR: OLLAMA_FLASH_ATTENTION:true OLLAMA_GPU_OVERHEAD:0 OLLAMA_HOST:http://127.0.0.1:11434 OLLAMA_KEEP_ALIVE:5m0s OLLAMA_KV_CACHE_TYPE: OLLAMA_LLM_LIBRARY: OLLAMA_LOAD_TIMEOUT:5m0s OLLAMA_MAX_LOADED_MODELS:1 OLLAMA_MAX_QUEUE:512 OLLAMA_MODELS:d:\\dev\\models\\llm OLLAMA_MULTIUSER_CACHE:false OLLAMA_NEW_ENGINE:true OLLAMA_NOHISTORY:false OLLAMA_NOPRUNE:false OLLAMA_NO_CLOUD:false OLLAMA_NUM_PARALLEL:1 OLLAMA_ORIGINS:[http://localhost https://localhost http://localhost:* https://localhost:* http://127.0.0.1 https://127.0.0.1 http://127.0.0.1:* https://127.0.0.1:* http://0.0.0.0 https://0.0.0.0 http://0.0.0.0:* https://0.0.0.0:* app://* file://* tauri://* vscode-webview://* vscode-file://*] OLLAMA_REMOTES:[ollama.com] OLLAMA_SCHED_SPREAD:false OLLAMA_VULKAN:false ROCR_VISIBLE_DEVICES:]"
time=2026-04-02T13:59:15.593-04:00 level=INFO source=routes.go:1746 msg="Ollama cloud disabled: false"
time=2026-04-02T13:59:15.618-04:00 level=INFO source=images.go:499 msg="total blobs: 650"
time=2026-04-02T13:59:15.630-04:00 level=INFO source=images.go:506 msg="total unused blobs removed: 0"
time=2026-04-02T13:59:15.635-04:00 level=INFO source=routes.go:1802 msg="Listening on 127.0.0.1:11434 (version 0.20.0-rc0)"
time=2026-04-02T13:59:15.635-04:00 level=DEBUG source=sched.go:145 msg="starting llm scheduler"
time=2026-04-02T13:59:15.635-04:00 level=INFO source=runner.go:67 msg="discovering available GPUs..."
time=2026-04-02T13:59:15.646-04:00 level=INFO source=server.go:432 msg="starting runner" cmd="D:\\dev\\ollama-server\\ollama\\ollama.exe runner --ollama-engine --port 52435"
time=2026-04-02T13:59:15.646-04:00 level=DEBUG source=server.go:433 msg=subprocess CUDA_PATH="C:\\Program Files\\NVIDIA GPU Computing Toolkit\\CUDA\\v13.1" CUDA_PATH_V13_0="C:\\Program Files\\NVIDIA GPU Computing Toolkit\\CUDA\\v13.0" CUDA_PATH_V13_1="C:\\Program Files\\NVIDIA GPU Computing Toolkit\\CUDA\\v13.1" OLLAMA_API_BASE=http://127.0.0.1:11434 OLLAMA_DEBUG=1 OLLAMA_FLASH_ATTENTION=1 OLLAMA_MAX_LOADED_MODELS=1 OLLAMA_MODELS=d:\dev\models\llm OLLAMA_NEW_ENGINE=1 OLLAMA_NEW_ESTIMATES=1 OLLAMA_NUM_PARALLEL=1 PATH="D:\\dev\\ollama-server\\ollama\\lib\\ollama;D:\\dev\\ollama-server\\ollama\\lib\\ollama\\cuda_v12;C:\\Program Files\\NVIDIA GPU Computing Toolkit\\CUDA\\v13.1\\bin\\x64;C:\\Program Files\\NVIDIA GPU Computing Toolkit\\CUDA\\v13.1\\bin;C:\\Program Files\\NVIDIA GPU Computing Toolkit\\CUDA\\v13.0\\bin\\x64;C:\\Program Files\\NVIDIA GPU Computing Toolkit\\CUDA\\v13.0\\bin;C:\\Windows\\system32;C:\\Windows;C:\\Windows\\System32\\Wbem;C:\\Windows\\System32\\WindowsPowerShell\\v1.0\\;C:\\Windows\\System32\\OpenSSH\\;C:\\Program Files\\NVIDIA Corporation\\NVIDIA App\\NvDLISR;C:\\Program Files (x86)\\NVIDIA Corporation\\PhysX\\Common;C:\\Program Files\\GitHub CLI\\;C:\\Program Files\\Git\\cmd;C:\\Program Files\\dotnet\\;C:\\Program Files (x86)\\Windows Kits\\10\\Windows Performance Toolkit\\;C:\\Program Files\\NVIDIA Corporation\\Nsight Compute 2025.4.1\\;D:\\dev\\ollama-server\\ollama;D:\\dev\\Python\\Python314\\Scripts\\;D:\\dev\\Python\\Python314\\;C:\\Users\\willi\\AppData\\Local\\Programs\\Python\\Launcher\\;C:\\Users\\willi\\AppData\\Local\\Microsoft\\WindowsApps;C:\\Users\\willi\\AppData\\Local\\GitHubDesktop\\bin;C:\\Users\\willi\\AppData\\Local\\Programs\\Microsoft VS Code\\bin;C:\\Users\\willi\\.dotnet\\tools;" OLLAMA_LIBRARY_PATH=D:\dev\ollama-server\ollama\lib\ollama;D:\dev\ollama-server\ollama\lib\ollama\cuda_v12
time=2026-04-02T13:59:15.920-04:00 level=DEBUG source=runner.go:437 msg="bootstrap discovery took" duration=281.4062ms OLLAMA_LIBRARY_PATH="[D:\\dev\\ollama-server\\ollama\\lib\\ollama D:\\dev\\ollama-server\\ollama\\lib\\ollama\\cuda_v12]" extra_envs=map[]
time=2026-04-02T13:59:15.921-04:00 level=INFO source=server.go:432 msg="starting runner" cmd="D:\\dev\\ollama-server\\ollama\\ollama.exe runner --ollama-engine --port 52440"
time=2026-04-02T13:59:15.921-04:00 level=DEBUG source=server.go:433 msg=subprocess CUDA_PATH="C:\\Program Files\\NVIDIA GPU Computing Toolkit\\CUDA\\v13.1" CUDA_PATH_V13_0="C:\\Program Files\\NVIDIA GPU Computing Toolkit\\CUDA\\v13.0" CUDA_PATH_V13_1="C:\\Program Files\\NVIDIA GPU Computing Toolkit\\CUDA\\v13.1" OLLAMA_API_BASE=http://127.0.0.1:11434 OLLAMA_DEBUG=1 OLLAMA_FLASH_ATTENTION=1 OLLAMA_MAX_LOADED_MODELS=1 OLLAMA_MODELS=d:\dev\models\llm OLLAMA_NEW_ENGINE=1 OLLAMA_NEW_ESTIMATES=1 OLLAMA_NUM_PARALLEL=1 PATH="D:\\dev\\ollama-server\\ollama\\lib\\ollama;D:\\dev\\ollama-server\\ollama\\lib\\ollama\\cuda_v13;C:\\Program Files\\NVIDIA GPU Computing Toolkit\\CUDA\\v13.1\\bin\\x64;C:\\Program Files\\NVIDIA GPU Computing Toolkit\\CUDA\\v13.1\\bin;C:\\Program Files\\NVIDIA GPU Computing Toolkit\\CUDA\\v13.0\\bin\\x64;C:\\Program Files\\NVIDIA GPU Computing Toolkit\\CUDA\\v13.0\\bin;C:\\Windows\\system32;C:\\Windows;C:\\Windows\\System32\\Wbem;C:\\Windows\\System32\\WindowsPowerShell\\v1.0\\;C:\\Windows\\System32\\OpenSSH\\;C:\\Program Files\\NVIDIA Corporation\\NVIDIA App\\NvDLISR;C:\\Program Files (x86)\\NVIDIA Corporation\\PhysX\\Common;C:\\Program Files\\GitHub CLI\\;C:\\Program Files\\Git\\cmd;C:\\Program Files\\dotnet\\;C:\\Program Files (x86)\\Windows Kits\\10\\Windows Performance Toolkit\\;C:\\Program Files\\NVIDIA Corporation\\Nsight Compute 2025.4.1\\;D:\\dev\\ollama-server\\ollama;D:\\dev\\Python\\Python314\\Scripts\\;D:\\dev\\Python\\Python314\\;C:\\Users\\willi\\AppData\\Local\\Programs\\Python\\Launcher\\;C:\\Users\\willi\\AppData\\Local\\Microsoft\\WindowsApps;C:\\Users\\willi\\AppData\\Local\\GitHubDesktop\\bin;C:\\Users\\willi\\AppData\\Local\\Programs\\Microsoft VS Code\\bin;C:\\Users\\willi\\.dotnet\\tools;" OLLAMA_LIBRARY_PATH=D:\dev\ollama-server\ollama\lib\ollama;D:\dev\ollama-server\ollama\lib\ollama\cuda_v13
time=2026-04-02T13:59:16.189-04:00 level=DEBUG source=runner.go:437 msg="bootstrap discovery took" duration=268.9693ms OLLAMA_LIBRARY_PATH="[D:\\dev\\ollama-server\\ollama\\lib\\ollama D:\\dev\\ollama-server\\ollama\\lib\\ollama\\cuda_v13]" extra_envs=map[]
time=2026-04-02T13:59:16.189-04:00 level=INFO source=runner.go:106 msg="experimental Vulkan support disabled.  To enable, set OLLAMA_VULKAN=1"
time=2026-04-02T13:59:16.189-04:00 level=DEBUG source=runner.go:124 msg="evaluating which, if any, devices to filter out" initial_count=2
time=2026-04-02T13:59:16.189-04:00 level=DEBUG source=runner.go:146 msg="verifying if device is supported" library=D:\dev\ollama-server\ollama\lib\ollama\cuda_v12 description="NVIDIA GeForce RTX 5090" compute=12.0 id=GPU-68a69638-eb9a-ef06-c025-5d8b66415f00 pci_id=0000:01:00.0
time=2026-04-02T13:59:16.189-04:00 level=DEBUG source=runner.go:146 msg="verifying if device is supported" library=D:\dev\ollama-server\ollama\lib\ollama\cuda_v13 description="NVIDIA GeForce RTX 5090" compute=12.0 id=GPU-68a69638-eb9a-ef06-c025-5d8b66415f00 pci_id=0000:01:00.0
time=2026-04-02T13:59:16.190-04:00 level=INFO source=server.go:432 msg="starting runner" cmd="D:\\dev\\ollama-server\\ollama\\ollama.exe runner --ollama-engine --port 52445"
time=2026-04-02T13:59:16.190-04:00 level=INFO source=server.go:432 msg="starting runner" cmd="D:\\dev\\ollama-server\\ollama\\ollama.exe runner --ollama-engine --port 52446"
time=2026-04-02T13:59:16.190-04:00 level=DEBUG source=server.go:433 msg=subprocess CUDA_PATH="C:\\Program Files\\NVIDIA GPU Computing Toolkit\\CUDA\\v13.1" CUDA_PATH_V13_0="C:\\Program Files\\NVIDIA GPU Computing Toolkit\\CUDA\\v13.0" CUDA_PATH_V13_1="C:\\Program Files\\NVIDIA GPU Computing Toolkit\\CUDA\\v13.1" OLLAMA_API_BASE=http://127.0.0.1:11434 OLLAMA_DEBUG=1 OLLAMA_FLASH_ATTENTION=1 OLLAMA_MAX_LOADED_MODELS=1 OLLAMA_MODELS=d:\dev\models\llm OLLAMA_NEW_ENGINE=1 OLLAMA_NEW_ESTIMATES=1 OLLAMA_NUM_PARALLEL=1 PATH="D:\\dev\\ollama-server\\ollama\\lib\\ollama;D:\\dev\\ollama-server\\ollama\\lib\\ollama\\cuda_v12;C:\\Program Files\\NVIDIA GPU Computing Toolkit\\CUDA\\v13.1\\bin\\x64;C:\\Program Files\\NVIDIA GPU Computing Toolkit\\CUDA\\v13.1\\bin;C:\\Program Files\\NVIDIA GPU Computing Toolkit\\CUDA\\v13.0\\bin\\x64;C:\\Program Files\\NVIDIA GPU Computing Toolkit\\CUDA\\v13.0\\bin;C:\\Windows\\system32;C:\\Windows;C:\\Windows\\System32\\Wbem;C:\\Windows\\System32\\WindowsPowerShell\\v1.0\\;C:\\Windows\\System32\\OpenSSH\\;C:\\Program Files\\NVIDIA Corporation\\NVIDIA App\\NvDLISR;C:\\Program Files (x86)\\NVIDIA Corporation\\PhysX\\Common;C:\\Program Files\\GitHub CLI\\;C:\\Program Files\\Git\\cmd;C:\\Program Files\\dotnet\\;C:\\Program Files (x86)\\Windows Kits\\10\\Windows Performance Toolkit\\;C:\\Program Files\\NVIDIA Corporation\\Nsight Compute 2025.4.1\\;D:\\dev\\ollama-server\\ollama;D:\\dev\\Python\\Python314\\Scripts\\;D:\\dev\\Python\\Python314\\;C:\\Users\\willi\\AppData\\Local\\Programs\\Python\\Launcher\\;C:\\Users\\willi\\AppData\\Local\\Microsoft\\WindowsApps;C:\\Users\\willi\\AppData\\Local\\GitHubDesktop\\bin;C:\\Users\\willi\\AppData\\Local\\Programs\\Microsoft VS Code\\bin;C:\\Users\\willi\\.dotnet\\tools;" OLLAMA_LIBRARY_PATH=D:\dev\ollama-server\ollama\lib\ollama;D:\dev\ollama-server\ollama\lib\ollama\cuda_v12 CUDA_VISIBLE_DEVICES=GPU-68a69638-eb9a-ef06-c025-5d8b66415f00 GGML_CUDA_INIT=1
time=2026-04-02T13:59:16.190-04:00 level=DEBUG source=server.go:433 msg=subprocess CUDA_PATH="C:\\Program Files\\NVIDIA GPU Computing Toolkit\\CUDA\\v13.1" CUDA_PATH_V13_0="C:\\Program Files\\NVIDIA GPU Computing Toolkit\\CUDA\\v13.0" CUDA_PATH_V13_1="C:\\Program Files\\NVIDIA GPU Computing Toolkit\\CUDA\\v13.1" OLLAMA_API_BASE=http://127.0.0.1:11434 OLLAMA_DEBUG=1 OLLAMA_FLASH_ATTENTION=1 OLLAMA_MAX_LOADED_MODELS=1 OLLAMA_MODELS=d:\dev\models\llm OLLAMA_NEW_ENGINE=1 OLLAMA_NEW_ESTIMATES=1 OLLAMA_NUM_PARALLEL=1 PATH="D:\\dev\\ollama-server\\ollama\\lib\\ollama;D:\\dev\\ollama-server\\ollama\\lib\\ollama\\cuda_v13;C:\\Program Files\\NVIDIA GPU Computing Toolkit\\CUDA\\v13.1\\bin\\x64;C:\\Program Files\\NVIDIA GPU Computing Toolkit\\CUDA\\v13.1\\bin;C:\\Program Files\\NVIDIA GPU Computing Toolkit\\CUDA\\v13.0\\bin\\x64;C:\\Program Files\\NVIDIA GPU Computing Toolkit\\CUDA\\v13.0\\bin;C:\\Windows\\system32;C:\\Windows;C:\\Windows\\System32\\Wbem;C:\\Windows\\System32\\WindowsPowerShell\\v1.0\\;C:\\Windows\\System32\\OpenSSH\\;C:\\Program Files\\NVIDIA Corporation\\NVIDIA App\\NvDLISR;C:\\Program Files (x86)\\NVIDIA Corporation\\PhysX\\Common;C:\\Program Files\\GitHub CLI\\;C:\\Program Files\\Git\\cmd;C:\\Program Files\\dotnet\\;C:\\Program Files (x86)\\Windows Kits\\10\\Windows Performance Toolkit\\;C:\\Program Files\\NVIDIA Corporation\\Nsight Compute 2025.4.1\\;D:\\dev\\ollama-server\\ollama;D:\\dev\\Python\\Python314\\Scripts\\;D:\\dev\\Python\\Python314\\;C:\\Users\\willi\\AppData\\Local\\Programs\\Python\\Launcher\\;C:\\Users\\willi\\AppData\\Local\\Microsoft\\WindowsApps;C:\\Users\\willi\\AppData\\Local\\GitHubDesktop\\bin;C:\\Users\\willi\\AppData\\Local\\Programs\\Microsoft VS Code\\bin;C:\\Users\\willi\\.dotnet\\tools;" OLLAMA_LIBRARY_PATH=D:\dev\ollama-server\ollama\lib\ollama;D:\dev\ollama-server\ollama\lib\ollama\cuda_v13 CUDA_VISIBLE_DEVICES=GPU-68a69638-eb9a-ef06-c025-5d8b66415f00 GGML_CUDA_INIT=1
time=2026-04-02T13:59:16.354-04:00 level=DEBUG source=runner.go:437 msg="bootstrap discovery took" duration=164.5379ms OLLAMA_LIBRARY_PATH="[D:\\dev\\ollama-server\\ollama\\lib\\ollama D:\\dev\\ollama-server\\ollama\\lib\\ollama\\cuda_v13]" extra_envs="map[CUDA_VISIBLE_DEVICES:GPU-68a69638-eb9a-ef06-c025-5d8b66415f00 GGML_CUDA_INIT:1]"
time=2026-04-02T13:59:16.465-04:00 level=DEBUG source=runner.go:437 msg="bootstrap discovery took" duration=275.8555ms OLLAMA_LIBRARY_PATH="[D:\\dev\\ollama-server\\ollama\\lib\\ollama D:\\dev\\ollama-server\\ollama\\lib\\ollama\\cuda_v12]" extra_envs="map[CUDA_VISIBLE_DEVICES:GPU-68a69638-eb9a-ef06-c025-5d8b66415f00 GGML_CUDA_INIT:1]"
time=2026-04-02T13:59:16.465-04:00 level=DEBUG source=runner.go:401 msg="filtering device with overlapping libraries" id=GPU-68a69638-eb9a-ef06-c025-5d8b66415f00 library=D:\dev\ollama-server\ollama\lib\ollama\cuda_v12 delete_index=0 kept_library=D:\dev\ollama-server\ollama\lib\ollama\cuda_v13
time=2026-04-02T13:59:16.465-04:00 level=DEBUG source=runner.go:40 msg="GPU bootstrap discovery took" duration=829.9088ms
time=2026-04-02T13:59:16.465-04:00 level=INFO source=types.go:42 msg="inference compute" id=GPU-68a69638-eb9a-ef06-c025-5d8b66415f00 filter_id="" library=CUDA compute=12.0 name=CUDA0 description="NVIDIA GeForce RTX 5090" libdirs=ollama,cuda_v13 driver=13.2 pci_id=0000:01:00.0 type=discrete total="31.8 GiB" available="30.3 GiB"
time=2026-04-02T13:59:16.465-04:00 level=INFO source=routes.go:1852 msg="vram-based default context" total_vram="31.8 GiB" default_num_ctx=32768
[GIN] 2026/04/02 - 14:00:08 | 200 |     26.9792ms |       127.0.0.1 | GET      "/api/tags"
[GIN] 2026/04/02 - 14:00:09 | 200 |     28.1036ms |       127.0.0.1 | GET      "/api/tags"
[GIN] 2026/04/02 - 14:00:09 | 200 |     26.0192ms |       127.0.0.1 | GET      "/api/tags"
[GIN] 2026/04/02 - 14:00:09 | 200 |      23.369ms |       127.0.0.1 | GET      "/api/tags"
[GIN] 2026/04/02 - 14:00:09 | 200 |     24.2709ms |       127.0.0.1 | GET      "/api/tags"
[GIN] 2026/04/02 - 14:00:09 | 200 |     24.3459ms |       127.0.0.1 | GET      "/api/tags"
[GIN] 2026/04/02 - 14:00:09 | 200 |     22.4509ms |       127.0.0.1 | GET      "/api/tags"
[GIN] 2026/04/02 - 14:00:09 | 200 |     22.9703ms |       127.0.0.1 | GET      "/api/tags"
[GIN] 2026/04/02 - 14:00:18 | 200 |     25.8204ms |       127.0.0.1 | GET      "/api/tags"
[GIN] 2026/04/02 - 14:00:18 | 200 |     23.8954ms |       127.0.0.1 | GET      "/api/tags"
time=2026-04-02T14:00:19.013-04:00 level=DEBUG source=runner.go:264 msg="refreshing free memory"
time=2026-04-02T14:00:19.013-04:00 level=DEBUG source=runner.go:328 msg="unable to refresh all GPUs with existing runners, performing bootstrap discovery"
time=2026-04-02T14:00:19.016-04:00 level=INFO source=server.go:432 msg="starting runner" cmd="D:\\dev\\ollama-server\\ollama\\ollama.exe runner --ollama-engine --port 58380"
time=2026-04-02T14:00:19.017-04:00 level=DEBUG source=server.go:433 msg=subprocess CUDA_PATH="C:\\Program Files\\NVIDIA GPU Computing Toolkit\\CUDA\\v13.1" CUDA_PATH_V13_0="C:\\Program Files\\NVIDIA GPU Computing Toolkit\\CUDA\\v13.0" CUDA_PATH_V13_1="C:\\Program Files\\NVIDIA GPU Computing Toolkit\\CUDA\\v13.1" OLLAMA_API_BASE=http://127.0.0.1:11434 OLLAMA_DEBUG=1 OLLAMA_FLASH_ATTENTION=1 OLLAMA_MAX_LOADED_MODELS=1 OLLAMA_MODELS=d:\dev\models\llm OLLAMA_NEW_ENGINE=1 OLLAMA_NEW_ESTIMATES=1 OLLAMA_NUM_PARALLEL=1 PATH="D:\\dev\\ollama-server\\ollama\\lib\\ollama;D:\\dev\\ollama-server\\ollama\\lib\\ollama\\cuda_v13;C:\\Program Files\\NVIDIA GPU Computing Toolkit\\CUDA\\v13.1\\bin\\x64;C:\\Program Files\\NVIDIA GPU Computing Toolkit\\CUDA\\v13.1\\bin;C:\\Program Files\\NVIDIA GPU Computing Toolkit\\CUDA\\v13.0\\bin\\x64;C:\\Program Files\\NVIDIA GPU Computing Toolkit\\CUDA\\v13.0\\bin;C:\\Windows\\system32;C:\\Windows;C:\\Windows\\System32\\Wbem;C:\\Windows\\System32\\WindowsPowerShell\\v1.0\\;C:\\Windows\\System32\\OpenSSH\\;C:\\Program Files\\NVIDIA Corporation\\NVIDIA App\\NvDLISR;C:\\Program Files (x86)\\NVIDIA Corporation\\PhysX\\Common;C:\\Program Files\\GitHub CLI\\;C:\\Program Files\\Git\\cmd;C:\\Program Files\\dotnet\\;C:\\Program Files (x86)\\Windows Kits\\10\\Windows Performance Toolkit\\;C:\\Program Files\\NVIDIA Corporation\\Nsight Compute 2025.4.1\\;D:\\dev\\ollama-server\\ollama;D:\\dev\\Python\\Python314\\Scripts\\;D:\\dev\\Python\\Python314\\;C:\\Users\\willi\\AppData\\Local\\Programs\\Python\\Launcher\\;C:\\Users\\willi\\AppData\\Local\\Microsoft\\WindowsApps;C:\\Users\\willi\\AppData\\Local\\GitHubDesktop\\bin;C:\\Users\\willi\\AppData\\Local\\Programs\\Microsoft VS Code\\bin;C:\\Users\\willi\\.dotnet\\tools;" OLLAMA_LIBRARY_PATH=D:\dev\ollama-server\ollama\lib\ollama;D:\dev\ollama-server\ollama\lib\ollama\cuda_v13
time=2026-04-02T14:00:19.298-04:00 level=DEBUG source=runner.go:437 msg="bootstrap discovery took" duration=284.433ms OLLAMA_LIBRARY_PATH="[D:\\dev\\ollama-server\\ollama\\lib\\ollama D:\\dev\\ollama-server\\ollama\\lib\\ollama\\cuda_v13]" extra_envs=map[]
time=2026-04-02T14:00:19.298-04:00 level=DEBUG source=runner.go:40 msg="overall device VRAM discovery took" duration=284.433ms
time=2026-04-02T14:00:19.298-04:00 level=INFO source=cpu_windows.go:148 msg=packages count=1
time=2026-04-02T14:00:19.298-04:00 level=INFO source=cpu_windows.go:195 msg="" package=0 cores=16 efficiency=0 threads=32
time=2026-04-02T14:00:19.298-04:00 level=DEBUG source=sched.go:229 msg="loading first model" model=d:\dev\models\llm\blobs\sha256-cbdeb708e2000122364bf1a63b8aa009504201863def6fb69da784681866a6c6
time=2026-04-02T14:00:19.361-04:00 level=DEBUG source=ggml.go:325 msg="key with type not found" key=general.alignment default=32
time=2026-04-02T14:00:19.399-04:00 level=DEBUG source=ggml.go:325 msg="key with type not found" key=general.alignment default=32
time=2026-04-02T14:00:19.402-04:00 level=DEBUG source=ggml.go:325 msg="key with type not found" key=gemma4.pooling_type default=0
time=2026-04-02T14:00:19.402-04:00 level=DEBUG source=ggml.go:325 msg="key with type not found" key=tokenizer.ggml.eot_token_id default=106
time=2026-04-02T14:00:19.402-04:00 level=INFO source=model.go:97 msg="gemma4: token IDs" image=255999 image_end=258882 audio=256000 audio_end=258883
time=2026-04-02T14:00:19.402-04:00 level=DEBUG source=ggml.go:325 msg="key with type not found" key=gemma4.attention.global_head_count_kv default=0
time=2026-04-02T14:00:19.402-04:00 level=DEBUG source=ggml.go:325 msg="key with type not found" key=gemma4.attention.head_count_kv default="&{size:0 values:[]}"
time=2026-04-02T14:00:19.402-04:00 level=DEBUG source=ggml.go:325 msg="key with type not found" key=gemma4.expert_count default=0
time=2026-04-02T14:00:19.402-04:00 level=DEBUG source=ggml.go:325 msg="key with type not found" key=gemma4.expert_used_count default=0
time=2026-04-02T14:00:19.402-04:00 level=DEBUG source=ggml.go:325 msg="key with type not found" key=gemma4.audio.num_mel_bins default=128
time=2026-04-02T14:00:19.402-04:00 level=INFO source=server.go:247 msg="enabling flash attention"
time=2026-04-02T14:00:19.403-04:00 level=INFO source=server.go:432 msg="starting runner" cmd="D:\\dev\\ollama-server\\ollama\\ollama.exe runner --ollama-engine --model d:\\dev\\models\\llm\\blobs\\sha256-cbdeb708e2000122364bf1a63b8aa009504201863def6fb69da784681866a6c6 --port 58385"
time=2026-04-02T14:00:19.403-04:00 level=DEBUG source=server.go:433 msg=subprocess CUDA_PATH="C:\\Program Files\\NVIDIA GPU Computing Toolkit\\CUDA\\v13.1" CUDA_PATH_V13_0="C:\\Program Files\\NVIDIA GPU Computing Toolkit\\CUDA\\v13.0" CUDA_PATH_V13_1="C:\\Program Files\\NVIDIA GPU Computing Toolkit\\CUDA\\v13.1" OLLAMA_API_BASE=http://127.0.0.1:11434 OLLAMA_DEBUG=1 OLLAMA_FLASH_ATTENTION=1 OLLAMA_MAX_LOADED_MODELS=1 OLLAMA_MODELS=d:\dev\models\llm OLLAMA_NEW_ENGINE=1 OLLAMA_NEW_ESTIMATES=1 OLLAMA_NUM_PARALLEL=1 PATH="D:\\dev\\ollama-server\\ollama\\lib\\ollama;D:\\dev\\ollama-server\\ollama\\lib\\ollama\\cuda_v13;C:\\Program Files\\NVIDIA GPU Computing Toolkit\\CUDA\\v13.1\\bin\\x64;C:\\Program Files\\NVIDIA GPU Computing Toolkit\\CUDA\\v13.1\\bin;C:\\Program Files\\NVIDIA GPU Computing Toolkit\\CUDA\\v13.0\\bin\\x64;C:\\Program Files\\NVIDIA GPU Computing Toolkit\\CUDA\\v13.0\\bin;C:\\Windows\\system32;C:\\Windows;C:\\Windows\\System32\\Wbem;C:\\Windows\\System32\\WindowsPowerShell\\v1.0\\;C:\\Windows\\System32\\OpenSSH\\;C:\\Program Files\\NVIDIA Corporation\\NVIDIA App\\NvDLISR;C:\\Program Files (x86)\\NVIDIA Corporation\\PhysX\\Common;C:\\Program Files\\GitHub CLI\\;C:\\Program Files\\Git\\cmd;C:\\Program Files\\dotnet\\;C:\\Program Files (x86)\\Windows Kits\\10\\Windows Performance Toolkit\\;C:\\Program Files\\NVIDIA Corporation\\Nsight Compute 2025.4.1\\;D:\\dev\\ollama-server\\ollama;D:\\dev\\Python\\Python314\\Scripts\\;D:\\dev\\Python\\Python314\\;C:\\Users\\willi\\AppData\\Local\\Programs\\Python\\Launcher\\;C:\\Users\\willi\\AppData\\Local\\Microsoft\\WindowsApps;C:\\Users\\willi\\AppData\\Local\\GitHubDesktop\\bin;C:\\Users\\willi\\AppData\\Local\\Programs\\Microsoft VS Code\\bin;C:\\Users\\willi\\.dotnet\\tools;" OLLAMA_LIBRARY_PATH=D:\dev\ollama-server\ollama\lib\ollama;D:\dev\ollama-server\ollama\lib\ollama\cuda_v13
time=2026-04-02T14:00:19.405-04:00 level=INFO source=sched.go:484 msg="system memory" total="93.6 GiB" free="76.2 GiB" free_swap="76.3 GiB"
time=2026-04-02T14:00:19.405-04:00 level=INFO source=sched.go:491 msg="gpu memory" id=GPU-68a69638-eb9a-ef06-c025-5d8b66415f00 library=CUDA available="29.8 GiB" free="30.3 GiB" minimum="457.0 MiB" overhead="0 B"
time=2026-04-02T14:00:19.406-04:00 level=INFO source=server.go:759 msg="loading model" "model layers"=43 requested=-1
time=2026-04-02T14:00:19.435-04:00 level=INFO source=runner.go:1417 msg="starting ollama engine"
time=2026-04-02T14:00:19.436-04:00 level=INFO source=runner.go:1452 msg="Server listening on 127.0.0.1:58385"
time=2026-04-02T14:00:19.438-04:00 level=INFO source=runner.go:1290 msg=load request="{Operation:fit LoraPath:[] Parallel:1 BatchSize:512 FlashAttention:Enabled KvSize:130000 KvCacheType: NumThreads:16 GPULayers:43[ID:GPU-68a69638-eb9a-ef06-c025-5d8b66415f00 Layers:43(0..42)] MultiUserCache:false ProjectorPath: MainGPU:0 UseMmap:false}"
time=2026-04-02T14:00:19.471-04:00 level=DEBUG source=ggml.go:325 msg="key with type not found" key=general.alignment default=32
time=2026-04-02T14:00:19.473-04:00 level=DEBUG source=ggml.go:325 msg="key with type not found" key=general.name default=""
time=2026-04-02T14:00:19.473-04:00 level=DEBUG source=ggml.go:325 msg="key with type not found" key=general.description default=""
time=2026-04-02T14:00:19.473-04:00 level=INFO source=ggml.go:136 msg="" architecture=gemma4 file_type=F16 name="" description="" num_tensors=2131 num_key_values=55
time=2026-04-02T14:00:19.473-04:00 level=DEBUG source=ggml.go:94 msg="ggml backend load all from path" path=D:\dev\ollama-server\ollama\lib\ollama
load_backend: loaded CPU backend from D:\dev\ollama-server\ollama\lib\ollama\ggml-cpu-icelake.dll
time=2026-04-02T14:00:19.485-04:00 level=DEBUG source=ggml.go:94 msg="ggml backend load all from path" path=D:\dev\ollama-server\ollama\lib\ollama\cuda_v13
ggml_cuda_init: GGML_CUDA_FORCE_MMQ:    no
ggml_cuda_init: GGML_CUDA_FORCE_CUBLAS: no
ggml_cuda_init: found 1 CUDA devices:
  Device 0: NVIDIA GeForce RTX 5090, compute capability 12.0, VMM: yes, ID: GPU-68a69638-eb9a-ef06-c025-5d8b66415f00
load_backend: loaded CUDA backend from D:\dev\ollama-server\ollama\lib\ollama\cuda_v13\ggml-cuda.dll
time=2026-04-02T14:00:19.543-04:00 level=INFO source=ggml.go:104 msg=system CPU.0.SSE3=1 CPU.0.SSSE3=1 CPU.0.AVX=1 CPU.0.AVX2=1 CPU.0.F16C=1 CPU.0.FMA=1 CPU.0.BMI2=1 CPU.0.AVX512=1 CPU.0.AVX512_VBMI=1 CPU.0.AVX512_VNNI=1 CPU.0.LLAMAFILE=1 CPU.1.LLAMAFILE=1 CUDA.0.ARCHS=750,800,860,870,890,900,1000,1030,1100,1200,1210 CUDA.0.USE_GRAPHS=1 CUDA.0.PEER_MAX_BATCH_SIZE=128 compiler=cgo(clang)
time=2026-04-02T14:00:19.552-04:00 level=DEBUG source=ggml.go:325 msg="key with type not found" key=gemma4.pooling_type default=0
time=2026-04-02T14:00:19.552-04:00 level=DEBUG source=ggml.go:325 msg="key with type not found" key=tokenizer.ggml.eot_token_id default=106
time=2026-04-02T14:00:19.553-04:00 level=INFO source=model.go:97 msg="gemma4: token IDs" image=255999 image_end=258882 audio=256000 audio_end=258883
time=2026-04-02T14:00:19.553-04:00 level=DEBUG source=ggml.go:325 msg="key with type not found" key=gemma4.attention.global_head_count_kv default=0
time=2026-04-02T14:00:19.553-04:00 level=DEBUG source=ggml.go:325 msg="key with type not found" key=gemma4.attention.head_count_kv default="&{size:0 values:[]}"
time=2026-04-02T14:00:19.553-04:00 level=DEBUG source=ggml.go:325 msg="key with type not found" key=gemma4.expert_count default=0
time=2026-04-02T14:00:19.553-04:00 level=DEBUG source=ggml.go:325 msg="key with type not found" key=gemma4.expert_used_count default=0
time=2026-04-02T14:00:19.553-04:00 level=DEBUG source=ggml.go:325 msg="key with type not found" key=gemma4.audio.num_mel_bins default=128
time=2026-04-02T14:00:19.564-04:00 level=INFO source=model.go:138 msg="vision: decode" elapsed=1.5334ms bounds=(0,0)-(2048,2048)
time=2026-04-02T14:00:19.627-04:00 level=INFO source=model.go:145 msg="vision: preprocess" elapsed=63.4348ms size="[768 768]"
time=2026-04-02T14:00:19.627-04:00 level=INFO source=model.go:148 msg="vision: pixelValues" shape="[768 768 3]" dim0=768 dim1=768 dim2=3
time=2026-04-02T14:00:19.627-04:00 level=INFO source=model.go:152 msg="vision: patches" patchesX=48 patchesY=48 total=2304 patchSize=16
time=2026-04-02T14:00:19.628-04:00 level=INFO source=model.go:156 msg="vision: encoded" elapsed=65.8333ms shape="[2560 256]"
time=2026-04-02T14:00:19.731-04:00 level=DEBUG source=ggml.go:852 msg="compute graph" nodes=684 splits=1
time=2026-04-02T14:00:19.984-04:00 level=DEBUG source=ggml.go:852 msg="compute graph" nodes=1831 splits=16
time=2026-04-02T14:00:19.996-04:00 level=DEBUG source=ggml.go:852 msg="compute graph" nodes=1829 splits=16
time=2026-04-02T14:00:19.996-04:00 level=DEBUG source=device.go:240 msg="model weights" device=CUDA0 size="14.9 GiB"
time=2026-04-02T14:00:19.996-04:00 level=DEBUG source=device.go:245 msg="model weights" device=CPU size="1.3 GiB"
time=2026-04-02T14:00:19.996-04:00 level=DEBUG source=device.go:251 msg="kv cache" device=CUDA0 size="2.2 GiB"
time=2026-04-02T14:00:19.996-04:00 level=DEBUG source=device.go:262 msg="compute graph" device=CUDA0 size="628.0 MiB"
time=2026-04-02T14:00:19.996-04:00 level=DEBUG source=device.go:267 msg="compute graph" device=CPU size="651.0 MiB"
time=2026-04-02T14:00:19.996-04:00 level=DEBUG source=device.go:272 msg="total memory" size="19.6 GiB"
... (64 lines left)

RAW_BUFFERClick to expand / collapse

What is the issue?

Models seems to load into GPU then jump to CPU. PS shows model running in GPU.

I tried 2b and 4b bf16, and the 26/31b 4q on 5090 with context set to 130k

Example output from ps. gemma4:e2b-it-bf16 850bc7fea32f 12 GB 100% GPU 130000 57 minutes from now

From the log: time=2026-04-02T14:00:19.543-04:00 level=INFO source=ggml.go:104 msg=system CPU.0.SSE3=1 CPU.0.SSSE3=1 CPU.0.AVX=1 CPU.0.AVX2=1 CPU.0.F16C=1 CPU.0.FMA=1 CPU.0.BMI2=1 CPU.0.AVX512=1 CPU.0.AVX512_VBMI=1 CPU.0.AVX512_VNNI=1 CPU.0.LLAMAFILE=1 CPU.1.LLAMAFILE=1 CUDA.0.ARCHS=750,800,860,870,890,900,1000,1030,1100,1200,1210 CUDA.0.USE_GRAPHS=1 CUDA.0.PEER_MAX_BATCH_SIZE=128 compiler=cgo(clang)

Relevant log output

time=2026-04-02T13:59:15.592-04:00 level=INFO source=routes.go:1744 msg="server config" env="map[CUDA_VISIBLE_DEVICES: GGML_VK_VISIBLE_DEVICES: GPU_DEVICE_ORDINAL: HIP_VISIBLE_DEVICES: HSA_OVERRIDE_GFX_VERSION: HTTPS_PROXY: HTTP_PROXY: NO_PROXY: OLLAMA_CONTEXT_LENGTH:0 OLLAMA_DEBUG:DEBUG OLLAMA_DEBUG_LOG_REQUESTS:false OLLAMA_EDITOR: OLLAMA_FLASH_ATTENTION:true OLLAMA_GPU_OVERHEAD:0 OLLAMA_HOST:http://127.0.0.1:11434 OLLAMA_KEEP_ALIVE:5m0s OLLAMA_KV_CACHE_TYPE: OLLAMA_LLM_LIBRARY: OLLAMA_LOAD_TIMEOUT:5m0s OLLAMA_MAX_LOADED_MODELS:1 OLLAMA_MAX_QUEUE:512 OLLAMA_MODELS:d:\\dev\\models\\llm OLLAMA_MULTIUSER_CACHE:false OLLAMA_NEW_ENGINE:true OLLAMA_NOHISTORY:false OLLAMA_NOPRUNE:false OLLAMA_NO_CLOUD:false OLLAMA_NUM_PARALLEL:1 OLLAMA_ORIGINS:[http://localhost https://localhost http://localhost:* https://localhost:* http://127.0.0.1 https://127.0.0.1 http://127.0.0.1:* https://127.0.0.1:* http://0.0.0.0 https://0.0.0.0 http://0.0.0.0:* https://0.0.0.0:* app://* file://* tauri://* vscode-webview://* vscode-file://*] OLLAMA_REMOTES:[ollama.com] OLLAMA_SCHED_SPREAD:false OLLAMA_VULKAN:false ROCR_VISIBLE_DEVICES:]"
time=2026-04-02T13:59:15.593-04:00 level=INFO source=routes.go:1746 msg="Ollama cloud disabled: false"
time=2026-04-02T13:59:15.618-04:00 level=INFO source=images.go:499 msg="total blobs: 650"
time=2026-04-02T13:59:15.630-04:00 level=INFO source=images.go:506 msg="total unused blobs removed: 0"
time=2026-04-02T13:59:15.635-04:00 level=INFO source=routes.go:1802 msg="Listening on 127.0.0.1:11434 (version 0.20.0-rc0)"
time=2026-04-02T13:59:15.635-04:00 level=DEBUG source=sched.go:145 msg="starting llm scheduler"
time=2026-04-02T13:59:15.635-04:00 level=INFO source=runner.go:67 msg="discovering available GPUs..."
time=2026-04-02T13:59:15.646-04:00 level=INFO source=server.go:432 msg="starting runner" cmd="D:\\dev\\ollama-server\\ollama\\ollama.exe runner --ollama-engine --port 52435"
time=2026-04-02T13:59:15.646-04:00 level=DEBUG source=server.go:433 msg=subprocess CUDA_PATH="C:\\Program Files\\NVIDIA GPU Computing Toolkit\\CUDA\\v13.1" CUDA_PATH_V13_0="C:\\Program Files\\NVIDIA GPU Computing Toolkit\\CUDA\\v13.0" CUDA_PATH_V13_1="C:\\Program Files\\NVIDIA GPU Computing Toolkit\\CUDA\\v13.1" OLLAMA_API_BASE=http://127.0.0.1:11434 OLLAMA_DEBUG=1 OLLAMA_FLASH_ATTENTION=1 OLLAMA_MAX_LOADED_MODELS=1 OLLAMA_MODELS=d:\dev\models\llm OLLAMA_NEW_ENGINE=1 OLLAMA_NEW_ESTIMATES=1 OLLAMA_NUM_PARALLEL=1 PATH="D:\\dev\\ollama-server\\ollama\\lib\\ollama;D:\\dev\\ollama-server\\ollama\\lib\\ollama\\cuda_v12;C:\\Program Files\\NVIDIA GPU Computing Toolkit\\CUDA\\v13.1\\bin\\x64;C:\\Program Files\\NVIDIA GPU Computing Toolkit\\CUDA\\v13.1\\bin;C:\\Program Files\\NVIDIA GPU Computing Toolkit\\CUDA\\v13.0\\bin\\x64;C:\\Program Files\\NVIDIA GPU Computing Toolkit\\CUDA\\v13.0\\bin;C:\\Windows\\system32;C:\\Windows;C:\\Windows\\System32\\Wbem;C:\\Windows\\System32\\WindowsPowerShell\\v1.0\\;C:\\Windows\\System32\\OpenSSH\\;C:\\Program Files\\NVIDIA Corporation\\NVIDIA App\\NvDLISR;C:\\Program Files (x86)\\NVIDIA Corporation\\PhysX\\Common;C:\\Program Files\\GitHub CLI\\;C:\\Program Files\\Git\\cmd;C:\\Program Files\\dotnet\\;C:\\Program Files (x86)\\Windows Kits\\10\\Windows Performance Toolkit\\;C:\\Program Files\\NVIDIA Corporation\\Nsight Compute 2025.4.1\\;D:\\dev\\ollama-server\\ollama;D:\\dev\\Python\\Python314\\Scripts\\;D:\\dev\\Python\\Python314\\;C:\\Users\\willi\\AppData\\Local\\Programs\\Python\\Launcher\\;C:\\Users\\willi\\AppData\\Local\\Microsoft\\WindowsApps;C:\\Users\\willi\\AppData\\Local\\GitHubDesktop\\bin;C:\\Users\\willi\\AppData\\Local\\Programs\\Microsoft VS Code\\bin;C:\\Users\\willi\\.dotnet\\tools;" OLLAMA_LIBRARY_PATH=D:\dev\ollama-server\ollama\lib\ollama;D:\dev\ollama-server\ollama\lib\ollama\cuda_v12
time=2026-04-02T13:59:15.920-04:00 level=DEBUG source=runner.go:437 msg="bootstrap discovery took" duration=281.4062ms OLLAMA_LIBRARY_PATH="[D:\\dev\\ollama-server\\ollama\\lib\\ollama D:\\dev\\ollama-server\\ollama\\lib\\ollama\\cuda_v12]" extra_envs=map[]
time=2026-04-02T13:59:15.921-04:00 level=INFO source=server.go:432 msg="starting runner" cmd="D:\\dev\\ollama-server\\ollama\\ollama.exe runner --ollama-engine --port 52440"
time=2026-04-02T13:59:15.921-04:00 level=DEBUG source=server.go:433 msg=subprocess CUDA_PATH="C:\\Program Files\\NVIDIA GPU Computing Toolkit\\CUDA\\v13.1" CUDA_PATH_V13_0="C:\\Program Files\\NVIDIA GPU Computing Toolkit\\CUDA\\v13.0" CUDA_PATH_V13_1="C:\\Program Files\\NVIDIA GPU Computing Toolkit\\CUDA\\v13.1" OLLAMA_API_BASE=http://127.0.0.1:11434 OLLAMA_DEBUG=1 OLLAMA_FLASH_ATTENTION=1 OLLAMA_MAX_LOADED_MODELS=1 OLLAMA_MODELS=d:\dev\models\llm OLLAMA_NEW_ENGINE=1 OLLAMA_NEW_ESTIMATES=1 OLLAMA_NUM_PARALLEL=1 PATH="D:\\dev\\ollama-server\\ollama\\lib\\ollama;D:\\dev\\ollama-server\\ollama\\lib\\ollama\\cuda_v13;C:\\Program Files\\NVIDIA GPU Computing Toolkit\\CUDA\\v13.1\\bin\\x64;C:\\Program Files\\NVIDIA GPU Computing Toolkit\\CUDA\\v13.1\\bin;C:\\Program Files\\NVIDIA GPU Computing Toolkit\\CUDA\\v13.0\\bin\\x64;C:\\Program Files\\NVIDIA GPU Computing Toolkit\\CUDA\\v13.0\\bin;C:\\Windows\\system32;C:\\Windows;C:\\Windows\\System32\\Wbem;C:\\Windows\\System32\\WindowsPowerShell\\v1.0\\;C:\\Windows\\System32\\OpenSSH\\;C:\\Program Files\\NVIDIA Corporation\\NVIDIA App\\NvDLISR;C:\\Program Files (x86)\\NVIDIA Corporation\\PhysX\\Common;C:\\Program Files\\GitHub CLI\\;C:\\Program Files\\Git\\cmd;C:\\Program Files\\dotnet\\;C:\\Program Files (x86)\\Windows Kits\\10\\Windows Performance Toolkit\\;C:\\Program Files\\NVIDIA Corporation\\Nsight Compute 2025.4.1\\;D:\\dev\\ollama-server\\ollama;D:\\dev\\Python\\Python314\\Scripts\\;D:\\dev\\Python\\Python314\\;C:\\Users\\willi\\AppData\\Local\\Programs\\Python\\Launcher\\;C:\\Users\\willi\\AppData\\Local\\Microsoft\\WindowsApps;C:\\Users\\willi\\AppData\\Local\\GitHubDesktop\\bin;C:\\Users\\willi\\AppData\\Local\\Programs\\Microsoft VS Code\\bin;C:\\Users\\willi\\.dotnet\\tools;" OLLAMA_LIBRARY_PATH=D:\dev\ollama-server\ollama\lib\ollama;D:\dev\ollama-server\ollama\lib\ollama\cuda_v13
time=2026-04-02T13:59:16.189-04:00 level=DEBUG source=runner.go:437 msg="bootstrap discovery took" duration=268.9693ms OLLAMA_LIBRARY_PATH="[D:\\dev\\ollama-server\\ollama\\lib\\ollama D:\\dev\\ollama-server\\ollama\\lib\\ollama\\cuda_v13]" extra_envs=map[]
time=2026-04-02T13:59:16.189-04:00 level=INFO source=runner.go:106 msg="experimental Vulkan support disabled.  To enable, set OLLAMA_VULKAN=1"
time=2026-04-02T13:59:16.189-04:00 level=DEBUG source=runner.go:124 msg="evaluating which, if any, devices to filter out" initial_count=2
time=2026-04-02T13:59:16.189-04:00 level=DEBUG source=runner.go:146 msg="verifying if device is supported" library=D:\dev\ollama-server\ollama\lib\ollama\cuda_v12 description="NVIDIA GeForce RTX 5090" compute=12.0 id=GPU-68a69638-eb9a-ef06-c025-5d8b66415f00 pci_id=0000:01:00.0
time=2026-04-02T13:59:16.189-04:00 level=DEBUG source=runner.go:146 msg="verifying if device is supported" library=D:\dev\ollama-server\ollama\lib\ollama\cuda_v13 description="NVIDIA GeForce RTX 5090" compute=12.0 id=GPU-68a69638-eb9a-ef06-c025-5d8b66415f00 pci_id=0000:01:00.0
time=2026-04-02T13:59:16.190-04:00 level=INFO source=server.go:432 msg="starting runner" cmd="D:\\dev\\ollama-server\\ollama\\ollama.exe runner --ollama-engine --port 52445"
time=2026-04-02T13:59:16.190-04:00 level=INFO source=server.go:432 msg="starting runner" cmd="D:\\dev\\ollama-server\\ollama\\ollama.exe runner --ollama-engine --port 52446"
time=2026-04-02T13:59:16.190-04:00 level=DEBUG source=server.go:433 msg=subprocess CUDA_PATH="C:\\Program Files\\NVIDIA GPU Computing Toolkit\\CUDA\\v13.1" CUDA_PATH_V13_0="C:\\Program Files\\NVIDIA GPU Computing Toolkit\\CUDA\\v13.0" CUDA_PATH_V13_1="C:\\Program Files\\NVIDIA GPU Computing Toolkit\\CUDA\\v13.1" OLLAMA_API_BASE=http://127.0.0.1:11434 OLLAMA_DEBUG=1 OLLAMA_FLASH_ATTENTION=1 OLLAMA_MAX_LOADED_MODELS=1 OLLAMA_MODELS=d:\dev\models\llm OLLAMA_NEW_ENGINE=1 OLLAMA_NEW_ESTIMATES=1 OLLAMA_NUM_PARALLEL=1 PATH="D:\\dev\\ollama-server\\ollama\\lib\\ollama;D:\\dev\\ollama-server\\ollama\\lib\\ollama\\cuda_v12;C:\\Program Files\\NVIDIA GPU Computing Toolkit\\CUDA\\v13.1\\bin\\x64;C:\\Program Files\\NVIDIA GPU Computing Toolkit\\CUDA\\v13.1\\bin;C:\\Program Files\\NVIDIA GPU Computing Toolkit\\CUDA\\v13.0\\bin\\x64;C:\\Program Files\\NVIDIA GPU Computing Toolkit\\CUDA\\v13.0\\bin;C:\\Windows\\system32;C:\\Windows;C:\\Windows\\System32\\Wbem;C:\\Windows\\System32\\WindowsPowerShell\\v1.0\\;C:\\Windows\\System32\\OpenSSH\\;C:\\Program Files\\NVIDIA Corporation\\NVIDIA App\\NvDLISR;C:\\Program Files (x86)\\NVIDIA Corporation\\PhysX\\Common;C:\\Program Files\\GitHub CLI\\;C:\\Program Files\\Git\\cmd;C:\\Program Files\\dotnet\\;C:\\Program Files (x86)\\Windows Kits\\10\\Windows Performance Toolkit\\;C:\\Program Files\\NVIDIA Corporation\\Nsight Compute 2025.4.1\\;D:\\dev\\ollama-server\\ollama;D:\\dev\\Python\\Python314\\Scripts\\;D:\\dev\\Python\\Python314\\;C:\\Users\\willi\\AppData\\Local\\Programs\\Python\\Launcher\\;C:\\Users\\willi\\AppData\\Local\\Microsoft\\WindowsApps;C:\\Users\\willi\\AppData\\Local\\GitHubDesktop\\bin;C:\\Users\\willi\\AppData\\Local\\Programs\\Microsoft VS Code\\bin;C:\\Users\\willi\\.dotnet\\tools;" OLLAMA_LIBRARY_PATH=D:\dev\ollama-server\ollama\lib\ollama;D:\dev\ollama-server\ollama\lib\ollama\cuda_v12 CUDA_VISIBLE_DEVICES=GPU-68a69638-eb9a-ef06-c025-5d8b66415f00 GGML_CUDA_INIT=1
time=2026-04-02T13:59:16.190-04:00 level=DEBUG source=server.go:433 msg=subprocess CUDA_PATH="C:\\Program Files\\NVIDIA GPU Computing Toolkit\\CUDA\\v13.1" CUDA_PATH_V13_0="C:\\Program Files\\NVIDIA GPU Computing Toolkit\\CUDA\\v13.0" CUDA_PATH_V13_1="C:\\Program Files\\NVIDIA GPU Computing Toolkit\\CUDA\\v13.1" OLLAMA_API_BASE=http://127.0.0.1:11434 OLLAMA_DEBUG=1 OLLAMA_FLASH_ATTENTION=1 OLLAMA_MAX_LOADED_MODELS=1 OLLAMA_MODELS=d:\dev\models\llm OLLAMA_NEW_ENGINE=1 OLLAMA_NEW_ESTIMATES=1 OLLAMA_NUM_PARALLEL=1 PATH="D:\\dev\\ollama-server\\ollama\\lib\\ollama;D:\\dev\\ollama-server\\ollama\\lib\\ollama\\cuda_v13;C:\\Program Files\\NVIDIA GPU Computing Toolkit\\CUDA\\v13.1\\bin\\x64;C:\\Program Files\\NVIDIA GPU Computing Toolkit\\CUDA\\v13.1\\bin;C:\\Program Files\\NVIDIA GPU Computing Toolkit\\CUDA\\v13.0\\bin\\x64;C:\\Program Files\\NVIDIA GPU Computing Toolkit\\CUDA\\v13.0\\bin;C:\\Windows\\system32;C:\\Windows;C:\\Windows\\System32\\Wbem;C:\\Windows\\System32\\WindowsPowerShell\\v1.0\\;C:\\Windows\\System32\\OpenSSH\\;C:\\Program Files\\NVIDIA Corporation\\NVIDIA App\\NvDLISR;C:\\Program Files (x86)\\NVIDIA Corporation\\PhysX\\Common;C:\\Program Files\\GitHub CLI\\;C:\\Program Files\\Git\\cmd;C:\\Program Files\\dotnet\\;C:\\Program Files (x86)\\Windows Kits\\10\\Windows Performance Toolkit\\;C:\\Program Files\\NVIDIA Corporation\\Nsight Compute 2025.4.1\\;D:\\dev\\ollama-server\\ollama;D:\\dev\\Python\\Python314\\Scripts\\;D:\\dev\\Python\\Python314\\;C:\\Users\\willi\\AppData\\Local\\Programs\\Python\\Launcher\\;C:\\Users\\willi\\AppData\\Local\\Microsoft\\WindowsApps;C:\\Users\\willi\\AppData\\Local\\GitHubDesktop\\bin;C:\\Users\\willi\\AppData\\Local\\Programs\\Microsoft VS Code\\bin;C:\\Users\\willi\\.dotnet\\tools;" OLLAMA_LIBRARY_PATH=D:\dev\ollama-server\ollama\lib\ollama;D:\dev\ollama-server\ollama\lib\ollama\cuda_v13 CUDA_VISIBLE_DEVICES=GPU-68a69638-eb9a-ef06-c025-5d8b66415f00 GGML_CUDA_INIT=1
time=2026-04-02T13:59:16.354-04:00 level=DEBUG source=runner.go:437 msg="bootstrap discovery took" duration=164.5379ms OLLAMA_LIBRARY_PATH="[D:\\dev\\ollama-server\\ollama\\lib\\ollama D:\\dev\\ollama-server\\ollama\\lib\\ollama\\cuda_v13]" extra_envs="map[CUDA_VISIBLE_DEVICES:GPU-68a69638-eb9a-ef06-c025-5d8b66415f00 GGML_CUDA_INIT:1]"
time=2026-04-02T13:59:16.465-04:00 level=DEBUG source=runner.go:437 msg="bootstrap discovery took" duration=275.8555ms OLLAMA_LIBRARY_PATH="[D:\\dev\\ollama-server\\ollama\\lib\\ollama D:\\dev\\ollama-server\\ollama\\lib\\ollama\\cuda_v12]" extra_envs="map[CUDA_VISIBLE_DEVICES:GPU-68a69638-eb9a-ef06-c025-5d8b66415f00 GGML_CUDA_INIT:1]"
time=2026-04-02T13:59:16.465-04:00 level=DEBUG source=runner.go:401 msg="filtering device with overlapping libraries" id=GPU-68a69638-eb9a-ef06-c025-5d8b66415f00 library=D:\dev\ollama-server\ollama\lib\ollama\cuda_v12 delete_index=0 kept_library=D:\dev\ollama-server\ollama\lib\ollama\cuda_v13
time=2026-04-02T13:59:16.465-04:00 level=DEBUG source=runner.go:40 msg="GPU bootstrap discovery took" duration=829.9088ms
time=2026-04-02T13:59:16.465-04:00 level=INFO source=types.go:42 msg="inference compute" id=GPU-68a69638-eb9a-ef06-c025-5d8b66415f00 filter_id="" library=CUDA compute=12.0 name=CUDA0 description="NVIDIA GeForce RTX 5090" libdirs=ollama,cuda_v13 driver=13.2 pci_id=0000:01:00.0 type=discrete total="31.8 GiB" available="30.3 GiB"
time=2026-04-02T13:59:16.465-04:00 level=INFO source=routes.go:1852 msg="vram-based default context" total_vram="31.8 GiB" default_num_ctx=32768
[GIN] 2026/04/02 - 14:00:08 | 200 |     26.9792ms |       127.0.0.1 | GET      "/api/tags"
[GIN] 2026/04/02 - 14:00:09 | 200 |     28.1036ms |       127.0.0.1 | GET      "/api/tags"
[GIN] 2026/04/02 - 14:00:09 | 200 |     26.0192ms |       127.0.0.1 | GET      "/api/tags"
[GIN] 2026/04/02 - 14:00:09 | 200 |      23.369ms |       127.0.0.1 | GET      "/api/tags"
[GIN] 2026/04/02 - 14:00:09 | 200 |     24.2709ms |       127.0.0.1 | GET      "/api/tags"
[GIN] 2026/04/02 - 14:00:09 | 200 |     24.3459ms |       127.0.0.1 | GET      "/api/tags"
[GIN] 2026/04/02 - 14:00:09 | 200 |     22.4509ms |       127.0.0.1 | GET      "/api/tags"
[GIN] 2026/04/02 - 14:00:09 | 200 |     22.9703ms |       127.0.0.1 | GET      "/api/tags"
[GIN] 2026/04/02 - 14:00:18 | 200 |     25.8204ms |       127.0.0.1 | GET      "/api/tags"
[GIN] 2026/04/02 - 14:00:18 | 200 |     23.8954ms |       127.0.0.1 | GET      "/api/tags"
time=2026-04-02T14:00:19.013-04:00 level=DEBUG source=runner.go:264 msg="refreshing free memory"
time=2026-04-02T14:00:19.013-04:00 level=DEBUG source=runner.go:328 msg="unable to refresh all GPUs with existing runners, performing bootstrap discovery"
time=2026-04-02T14:00:19.016-04:00 level=INFO source=server.go:432 msg="starting runner" cmd="D:\\dev\\ollama-server\\ollama\\ollama.exe runner --ollama-engine --port 58380"
time=2026-04-02T14:00:19.017-04:00 level=DEBUG source=server.go:433 msg=subprocess CUDA_PATH="C:\\Program Files\\NVIDIA GPU Computing Toolkit\\CUDA\\v13.1" CUDA_PATH_V13_0="C:\\Program Files\\NVIDIA GPU Computing Toolkit\\CUDA\\v13.0" CUDA_PATH_V13_1="C:\\Program Files\\NVIDIA GPU Computing Toolkit\\CUDA\\v13.1" OLLAMA_API_BASE=http://127.0.0.1:11434 OLLAMA_DEBUG=1 OLLAMA_FLASH_ATTENTION=1 OLLAMA_MAX_LOADED_MODELS=1 OLLAMA_MODELS=d:\dev\models\llm OLLAMA_NEW_ENGINE=1 OLLAMA_NEW_ESTIMATES=1 OLLAMA_NUM_PARALLEL=1 PATH="D:\\dev\\ollama-server\\ollama\\lib\\ollama;D:\\dev\\ollama-server\\ollama\\lib\\ollama\\cuda_v13;C:\\Program Files\\NVIDIA GPU Computing Toolkit\\CUDA\\v13.1\\bin\\x64;C:\\Program Files\\NVIDIA GPU Computing Toolkit\\CUDA\\v13.1\\bin;C:\\Program Files\\NVIDIA GPU Computing Toolkit\\CUDA\\v13.0\\bin\\x64;C:\\Program Files\\NVIDIA GPU Computing Toolkit\\CUDA\\v13.0\\bin;C:\\Windows\\system32;C:\\Windows;C:\\Windows\\System32\\Wbem;C:\\Windows\\System32\\WindowsPowerShell\\v1.0\\;C:\\Windows\\System32\\OpenSSH\\;C:\\Program Files\\NVIDIA Corporation\\NVIDIA App\\NvDLISR;C:\\Program Files (x86)\\NVIDIA Corporation\\PhysX\\Common;C:\\Program Files\\GitHub CLI\\;C:\\Program Files\\Git\\cmd;C:\\Program Files\\dotnet\\;C:\\Program Files (x86)\\Windows Kits\\10\\Windows Performance Toolkit\\;C:\\Program Files\\NVIDIA Corporation\\Nsight Compute 2025.4.1\\;D:\\dev\\ollama-server\\ollama;D:\\dev\\Python\\Python314\\Scripts\\;D:\\dev\\Python\\Python314\\;C:\\Users\\willi\\AppData\\Local\\Programs\\Python\\Launcher\\;C:\\Users\\willi\\AppData\\Local\\Microsoft\\WindowsApps;C:\\Users\\willi\\AppData\\Local\\GitHubDesktop\\bin;C:\\Users\\willi\\AppData\\Local\\Programs\\Microsoft VS Code\\bin;C:\\Users\\willi\\.dotnet\\tools;" OLLAMA_LIBRARY_PATH=D:\dev\ollama-server\ollama\lib\ollama;D:\dev\ollama-server\ollama\lib\ollama\cuda_v13
time=2026-04-02T14:00:19.298-04:00 level=DEBUG source=runner.go:437 msg="bootstrap discovery took" duration=284.433ms OLLAMA_LIBRARY_PATH="[D:\\dev\\ollama-server\\ollama\\lib\\ollama D:\\dev\\ollama-server\\ollama\\lib\\ollama\\cuda_v13]" extra_envs=map[]
time=2026-04-02T14:00:19.298-04:00 level=DEBUG source=runner.go:40 msg="overall device VRAM discovery took" duration=284.433ms
time=2026-04-02T14:00:19.298-04:00 level=INFO source=cpu_windows.go:148 msg=packages count=1
time=2026-04-02T14:00:19.298-04:00 level=INFO source=cpu_windows.go:195 msg="" package=0 cores=16 efficiency=0 threads=32
time=2026-04-02T14:00:19.298-04:00 level=DEBUG source=sched.go:229 msg="loading first model" model=d:\dev\models\llm\blobs\sha256-cbdeb708e2000122364bf1a63b8aa009504201863def6fb69da784681866a6c6
time=2026-04-02T14:00:19.361-04:00 level=DEBUG source=ggml.go:325 msg="key with type not found" key=general.alignment default=32
time=2026-04-02T14:00:19.399-04:00 level=DEBUG source=ggml.go:325 msg="key with type not found" key=general.alignment default=32
time=2026-04-02T14:00:19.402-04:00 level=DEBUG source=ggml.go:325 msg="key with type not found" key=gemma4.pooling_type default=0
time=2026-04-02T14:00:19.402-04:00 level=DEBUG source=ggml.go:325 msg="key with type not found" key=tokenizer.ggml.eot_token_id default=106
time=2026-04-02T14:00:19.402-04:00 level=INFO source=model.go:97 msg="gemma4: token IDs" image=255999 image_end=258882 audio=256000 audio_end=258883
time=2026-04-02T14:00:19.402-04:00 level=DEBUG source=ggml.go:325 msg="key with type not found" key=gemma4.attention.global_head_count_kv default=0
time=2026-04-02T14:00:19.402-04:00 level=DEBUG source=ggml.go:325 msg="key with type not found" key=gemma4.attention.head_count_kv default="&{size:0 values:[]}"
time=2026-04-02T14:00:19.402-04:00 level=DEBUG source=ggml.go:325 msg="key with type not found" key=gemma4.expert_count default=0
time=2026-04-02T14:00:19.402-04:00 level=DEBUG source=ggml.go:325 msg="key with type not found" key=gemma4.expert_used_count default=0
time=2026-04-02T14:00:19.402-04:00 level=DEBUG source=ggml.go:325 msg="key with type not found" key=gemma4.audio.num_mel_bins default=128
time=2026-04-02T14:00:19.402-04:00 level=INFO source=server.go:247 msg="enabling flash attention"
time=2026-04-02T14:00:19.403-04:00 level=INFO source=server.go:432 msg="starting runner" cmd="D:\\dev\\ollama-server\\ollama\\ollama.exe runner --ollama-engine --model d:\\dev\\models\\llm\\blobs\\sha256-cbdeb708e2000122364bf1a63b8aa009504201863def6fb69da784681866a6c6 --port 58385"
time=2026-04-02T14:00:19.403-04:00 level=DEBUG source=server.go:433 msg=subprocess CUDA_PATH="C:\\Program Files\\NVIDIA GPU Computing Toolkit\\CUDA\\v13.1" CUDA_PATH_V13_0="C:\\Program Files\\NVIDIA GPU Computing Toolkit\\CUDA\\v13.0" CUDA_PATH_V13_1="C:\\Program Files\\NVIDIA GPU Computing Toolkit\\CUDA\\v13.1" OLLAMA_API_BASE=http://127.0.0.1:11434 OLLAMA_DEBUG=1 OLLAMA_FLASH_ATTENTION=1 OLLAMA_MAX_LOADED_MODELS=1 OLLAMA_MODELS=d:\dev\models\llm OLLAMA_NEW_ENGINE=1 OLLAMA_NEW_ESTIMATES=1 OLLAMA_NUM_PARALLEL=1 PATH="D:\\dev\\ollama-server\\ollama\\lib\\ollama;D:\\dev\\ollama-server\\ollama\\lib\\ollama\\cuda_v13;C:\\Program Files\\NVIDIA GPU Computing Toolkit\\CUDA\\v13.1\\bin\\x64;C:\\Program Files\\NVIDIA GPU Computing Toolkit\\CUDA\\v13.1\\bin;C:\\Program Files\\NVIDIA GPU Computing Toolkit\\CUDA\\v13.0\\bin\\x64;C:\\Program Files\\NVIDIA GPU Computing Toolkit\\CUDA\\v13.0\\bin;C:\\Windows\\system32;C:\\Windows;C:\\Windows\\System32\\Wbem;C:\\Windows\\System32\\WindowsPowerShell\\v1.0\\;C:\\Windows\\System32\\OpenSSH\\;C:\\Program Files\\NVIDIA Corporation\\NVIDIA App\\NvDLISR;C:\\Program Files (x86)\\NVIDIA Corporation\\PhysX\\Common;C:\\Program Files\\GitHub CLI\\;C:\\Program Files\\Git\\cmd;C:\\Program Files\\dotnet\\;C:\\Program Files (x86)\\Windows Kits\\10\\Windows Performance Toolkit\\;C:\\Program Files\\NVIDIA Corporation\\Nsight Compute 2025.4.1\\;D:\\dev\\ollama-server\\ollama;D:\\dev\\Python\\Python314\\Scripts\\;D:\\dev\\Python\\Python314\\;C:\\Users\\willi\\AppData\\Local\\Programs\\Python\\Launcher\\;C:\\Users\\willi\\AppData\\Local\\Microsoft\\WindowsApps;C:\\Users\\willi\\AppData\\Local\\GitHubDesktop\\bin;C:\\Users\\willi\\AppData\\Local\\Programs\\Microsoft VS Code\\bin;C:\\Users\\willi\\.dotnet\\tools;" OLLAMA_LIBRARY_PATH=D:\dev\ollama-server\ollama\lib\ollama;D:\dev\ollama-server\ollama\lib\ollama\cuda_v13
time=2026-04-02T14:00:19.405-04:00 level=INFO source=sched.go:484 msg="system memory" total="93.6 GiB" free="76.2 GiB" free_swap="76.3 GiB"
time=2026-04-02T14:00:19.405-04:00 level=INFO source=sched.go:491 msg="gpu memory" id=GPU-68a69638-eb9a-ef06-c025-5d8b66415f00 library=CUDA available="29.8 GiB" free="30.3 GiB" minimum="457.0 MiB" overhead="0 B"
time=2026-04-02T14:00:19.406-04:00 level=INFO source=server.go:759 msg="loading model" "model layers"=43 requested=-1
time=2026-04-02T14:00:19.435-04:00 level=INFO source=runner.go:1417 msg="starting ollama engine"
time=2026-04-02T14:00:19.436-04:00 level=INFO source=runner.go:1452 msg="Server listening on 127.0.0.1:58385"
time=2026-04-02T14:00:19.438-04:00 level=INFO source=runner.go:1290 msg=load request="{Operation:fit LoraPath:[] Parallel:1 BatchSize:512 FlashAttention:Enabled KvSize:130000 KvCacheType: NumThreads:16 GPULayers:43[ID:GPU-68a69638-eb9a-ef06-c025-5d8b66415f00 Layers:43(0..42)] MultiUserCache:false ProjectorPath: MainGPU:0 UseMmap:false}"
time=2026-04-02T14:00:19.471-04:00 level=DEBUG source=ggml.go:325 msg="key with type not found" key=general.alignment default=32
time=2026-04-02T14:00:19.473-04:00 level=DEBUG source=ggml.go:325 msg="key with type not found" key=general.name default=""
time=2026-04-02T14:00:19.473-04:00 level=DEBUG source=ggml.go:325 msg="key with type not found" key=general.description default=""
time=2026-04-02T14:00:19.473-04:00 level=INFO source=ggml.go:136 msg="" architecture=gemma4 file_type=F16 name="" description="" num_tensors=2131 num_key_values=55
time=2026-04-02T14:00:19.473-04:00 level=DEBUG source=ggml.go:94 msg="ggml backend load all from path" path=D:\dev\ollama-server\ollama\lib\ollama
load_backend: loaded CPU backend from D:\dev\ollama-server\ollama\lib\ollama\ggml-cpu-icelake.dll
time=2026-04-02T14:00:19.485-04:00 level=DEBUG source=ggml.go:94 msg="ggml backend load all from path" path=D:\dev\ollama-server\ollama\lib\ollama\cuda_v13
ggml_cuda_init: GGML_CUDA_FORCE_MMQ:    no
ggml_cuda_init: GGML_CUDA_FORCE_CUBLAS: no
ggml_cuda_init: found 1 CUDA devices:
  Device 0: NVIDIA GeForce RTX 5090, compute capability 12.0, VMM: yes, ID: GPU-68a69638-eb9a-ef06-c025-5d8b66415f00
load_backend: loaded CUDA backend from D:\dev\ollama-server\ollama\lib\ollama\cuda_v13\ggml-cuda.dll
time=2026-04-02T14:00:19.543-04:00 level=INFO source=ggml.go:104 msg=system CPU.0.SSE3=1 CPU.0.SSSE3=1 CPU.0.AVX=1 CPU.0.AVX2=1 CPU.0.F16C=1 CPU.0.FMA=1 CPU.0.BMI2=1 CPU.0.AVX512=1 CPU.0.AVX512_VBMI=1 CPU.0.AVX512_VNNI=1 CPU.0.LLAMAFILE=1 CPU.1.LLAMAFILE=1 CUDA.0.ARCHS=750,800,860,870,890,900,1000,1030,1100,1200,1210 CUDA.0.USE_GRAPHS=1 CUDA.0.PEER_MAX_BATCH_SIZE=128 compiler=cgo(clang)
time=2026-04-02T14:00:19.552-04:00 level=DEBUG source=ggml.go:325 msg="key with type not found" key=gemma4.pooling_type default=0
time=2026-04-02T14:00:19.552-04:00 level=DEBUG source=ggml.go:325 msg="key with type not found" key=tokenizer.ggml.eot_token_id default=106
time=2026-04-02T14:00:19.553-04:00 level=INFO source=model.go:97 msg="gemma4: token IDs" image=255999 image_end=258882 audio=256000 audio_end=258883
time=2026-04-02T14:00:19.553-04:00 level=DEBUG source=ggml.go:325 msg="key with type not found" key=gemma4.attention.global_head_count_kv default=0
time=2026-04-02T14:00:19.553-04:00 level=DEBUG source=ggml.go:325 msg="key with type not found" key=gemma4.attention.head_count_kv default="&{size:0 values:[]}"
time=2026-04-02T14:00:19.553-04:00 level=DEBUG source=ggml.go:325 msg="key with type not found" key=gemma4.expert_count default=0
time=2026-04-02T14:00:19.553-04:00 level=DEBUG source=ggml.go:325 msg="key with type not found" key=gemma4.expert_used_count default=0
time=2026-04-02T14:00:19.553-04:00 level=DEBUG source=ggml.go:325 msg="key with type not found" key=gemma4.audio.num_mel_bins default=128
time=2026-04-02T14:00:19.564-04:00 level=INFO source=model.go:138 msg="vision: decode" elapsed=1.5334ms bounds=(0,0)-(2048,2048)
time=2026-04-02T14:00:19.627-04:00 level=INFO source=model.go:145 msg="vision: preprocess" elapsed=63.4348ms size="[768 768]"
time=2026-04-02T14:00:19.627-04:00 level=INFO source=model.go:148 msg="vision: pixelValues" shape="[768 768 3]" dim0=768 dim1=768 dim2=3
time=2026-04-02T14:00:19.627-04:00 level=INFO source=model.go:152 msg="vision: patches" patchesX=48 patchesY=48 total=2304 patchSize=16
time=2026-04-02T14:00:19.628-04:00 level=INFO source=model.go:156 msg="vision: encoded" elapsed=65.8333ms shape="[2560 256]"
time=2026-04-02T14:00:19.731-04:00 level=DEBUG source=ggml.go:852 msg="compute graph" nodes=684 splits=1
time=2026-04-02T14:00:19.984-04:00 level=DEBUG source=ggml.go:852 msg="compute graph" nodes=1831 splits=16
time=2026-04-02T14:00:19.996-04:00 level=DEBUG source=ggml.go:852 msg="compute graph" nodes=1829 splits=16
time=2026-04-02T14:00:19.996-04:00 level=DEBUG source=device.go:240 msg="model weights" device=CUDA0 size="14.9 GiB"
time=2026-04-02T14:00:19.996-04:00 level=DEBUG source=device.go:245 msg="model weights" device=CPU size="1.3 GiB"
time=2026-04-02T14:00:19.996-04:00 level=DEBUG source=device.go:251 msg="kv cache" device=CUDA0 size="2.2 GiB"
time=2026-04-02T14:00:19.996-04:00 level=DEBUG source=device.go:262 msg="compute graph" device=CUDA0 size="628.0 MiB"
time=2026-04-02T14:00:19.996-04:00 level=DEBUG source=device.go:267 msg="compute graph" device=CPU size="651.0 MiB"
time=2026-04-02T14:00:19.996-04:00 level=DEBUG source=device.go:272 msg="total memory" size="19.6 GiB"
... (64 lines left)

OS

Windows

GPU

Nvidia

CPU

AMD

Ollama version

0.20.0-rc1

extent analysis

TL;DR

The issue might be related to the model loading into GPU memory and then being transferred to CPU, potentially due to insufficient GPU resources or incorrect configuration.

Guidance

Verify GPU resources: Ensure that the GPU has sufficient memory to handle the model. The log indicates that the GPU has 31.8 GiB of total VRAM and 30.3 GiB of available VRAM.
Check model configuration: Review the model configuration to ensure that it is set up to run on the GPU. The log shows that the model is loaded into GPU memory, but it may be transferred to CPU due to insufficient resources or incorrect configuration.
Adjust Ollama settings: Consider adjusting Ollama settings, such as OLLAMA_MAX_LOADED_MODELS or OLLAMA_GPU_OVERHEAD, to optimize GPU resource utilization.
Monitor system resources: Keep an eye on system resources, including GPU and CPU usage, to identify potential bottlenecks.

Example

No specific code example is provided, as the issue appears to be related to configuration and resource utilization rather than code.

Notes

The issue may be specific to the Ollama version (0.20.0-rc1) or the combination of hardware (Nvidia GPU and AMD CPU) and software (Windows OS) being used.

Recommendation

Apply a workaround by adjusting Ollama settings to optimize GPU resource utilization, such as reducing the number of loaded models or adjusting the GPU overhead setting.

Vote matrix · Quick signals

Works

Did the solution work? Tap to confirm.

Easy Fix

Was it a quick fix?

Time Saver

Did it save you time?

Blocking

Was it severely blocking?

Common Issue

Are others likely hitting this too?

Flaky / Intermittent

Is it intermittent?

Verified / Reproducible

Can you reproduce it reliably?

#api #ssr #ISR setup #authentication setup #request error

Still need to ship something?

×6

Another batch ranked right after the header list — different links, same matching logic.

ollama - ✅(Solved) Fix New Gemma 4 models run on CPU, they say they are running on GPU [2 pull requests, 42 comments, 26 participants]

Recommended Tools

GitHub issue graph ai analysis

Fix Action

Fix / Workaround

PR fix notes

PR #15332: ggml: add CUDA flash attention support for head dimension 512 for Gemma4

Description (problem / solution / changelog)

Summary

Why this is needed:

Changes:

Related issues:

Test plan

Evaluation steps used:

Changed files

PR #15378: gemma4: enable flash attention

Description (problem / solution / changelog)

Changed files

Code Example

What is the issue?

Relevant log output

OS

GPU

CPU

Ollama version

extent analysis

TL;DR

Guidance

Example

Notes

Recommendation

Still need to ship something?

RELATED_DISCOVERY

TRENDING