ollama - 💡(How to fix) Fix 500 Internal Server Error: unable to load model:

ollama2026-05-15 02:01:48

ON THIS PAGE

Recommended Tools

×6

Utilities matched from this issue’s tags and category — try them while you read without losing context.

GitHub issue graph ai analysis

Paste a GitHub issue URL. We fetch that issue, discover linked issues from bodies/comments/timeline, collect linked pull requests, and produce a structured English report.

The report is written in English Markdown for sharing and archival.

GitHub issue URL

Helpful · Quick feedback

Error Message

The model downloaded fine with no errors but when I try to use the model, I get the 500 error shown in the Title. Log info posted below. Exact Error Was:- 500 Internal Server Error: unable to load model: F:\AI_Art_Stuff\Ollama_Models\blobs\sha256-bb44ce787b29b8918d40d14383d5f8b10f279c19fb4d27357f78e82328f7276a llama_model_load: error loading model: error loading model architecture: unknown model architecture: 'gemma4' time=2026-05-15T02:18:57.740+01:00 level=INFO source=sched.go:462 msg="failed to create server" model=huihui_ai/gemma-4-abliterated:e4b error="unable to load model: F:\AI_Art_Stuff\Ollama_Models\blobs\sha256-bb44ce787b29b8918d40d14383d5f8b10f279c19fb4d27357f78e82328f7276a"

Fix Action

Fix / Workaround

time=2026-05-15T02:18:55.797+01:00 level=INFO source=routes.go:1727 msg="server config" env="map[CUDA_VISIBLE_DEVICES: GGML_VK_VISIBLE_DEVICES: GPU_DEVICE_ORDINAL: HIP_VISIBLE_DEVICES: HSA_OVERRIDE_GFX_VERSION: HTTPS_PROXY: HTTP_PROXY: NO_PROXY: OLLAMA_CONTEXT_LENGTH:262144 OLLAMA_DEBUG:INFO OLLAMA_EDITOR: OLLAMA_FLASH_ATTENTION:false OLLAMA_GPU_OVERHEAD:0 OLLAMA_HOST:http://127.0.0.1:11434 OLLAMA_KEEP_ALIVE:5m0s OLLAMA_KV_CACHE_TYPE: OLLAMA_LLM_LIBRARY: OLLAMA_LOAD_TIMEOUT:5m0s OLLAMA_MAX_LOADED_MODELS:0 OLLAMA_MAX_QUEUE:512 OLLAMA_MODELS:F:\\AI_Art_Stuff\\Ollama_Models OLLAMA_MULTIUSER_CACHE:false OLLAMA_NEW_ENGINE:false OLLAMA_NOHISTORY:false OLLAMA_NOPRUNE:false OLLAMA_NO_CLOUD:true OLLAMA_NUM_PARALLEL:1 OLLAMA_ORIGINS:[http://localhost https://localhost http://localhost:* https://localhost:* http://127.0.0.1 https://127.0.0.1 http://127.0.0.1:* https://127.0.0.1:* http://0.0.0.0 https://0.0.0.0 http://0.0.0.0:* https://0.0.0.0:* app://* file://* tauri://* vscode-webview://* vscode-file://*] OLLAMA_REMOTES:[ollama.com] OLLAMA_SCHED_SPREAD:false OLLAMA_VULKAN:false ROCR_VISIBLE_DEVICES:]"
time=2026-05-15T02:18:55.798+01:00 level=INFO source=routes.go:1729 msg="Ollama cloud disabled: true"
time=2026-05-15T02:18:55.800+01:00 level=INFO source=images.go:477 msg="total blobs: 51"
time=2026-05-15T02:18:55.801+01:00 level=INFO source=images.go:484 msg="total unused blobs removed: 0"
time=2026-05-15T02:18:55.802+01:00 level=INFO source=routes.go:1782 msg="Listening on 127.0.0.1:11434 (version 0.18.2)"
time=2026-05-15T02:18:55.803+01:00 level=INFO source=runner.go:67 msg="discovering available GPUs..."
time=2026-05-15T02:18:55.812+01:00 level=INFO source=server.go:430 msg="starting runner" cmd="C:\\Users\\Lee\\AppData\\Local\\Programs\\Ollama\\ollama.exe runner --ollama-engine --port 53583"
time=2026-05-15T02:18:56.013+01:00 level=INFO source=server.go:430 msg="starting runner" cmd="C:\\Users\\Lee\\AppData\\Local\\Programs\\Ollama\\ollama.exe runner --ollama-engine --port 53594"
time=2026-05-15T02:18:56.165+01:00 level=INFO source=runner.go:106 msg="experimental Vulkan support disabled.  To enable, set OLLAMA_VULKAN=1"
time=2026-05-15T02:18:56.166+01:00 level=INFO source=server.go:430 msg="starting runner" cmd="C:\\Users\\Lee\\AppData\\Local\\Programs\\Ollama\\ollama.exe runner --ollama-engine --port 53608"
time=2026-05-15T02:18:56.387+01:00 level=INFO source=server.go:430 msg="starting runner" cmd="C:\\Users\\Lee\\AppData\\Local\\Programs\\Ollama\\ollama.exe runner --ollama-engine --port 53620"
time=2026-05-15T02:18:56.387+01:00 level=INFO source=server.go:430 msg="starting runner" cmd="C:\\Users\\Lee\\AppData\\Local\\Programs\\Ollama\\ollama.exe runner --ollama-engine --port 53621"
time=2026-05-15T02:18:56.649+01:00 level=INFO source=types.go:42 msg="inference compute" id=GPU-73eb9140-40cd-3e22-332c-ac14f97cea74 filter_id="" library=CUDA compute=8.9 name=CUDA0 description="NVIDIA GeForce RTX 4070 SUPER" libdirs=ollama,cuda_v13 driver=13.2 pci_id=0000:01:00.0 type=discrete total="12.0 GiB" available="11.0 GiB"
time=2026-05-15T02:18:56.649+01:00 level=INFO source=routes.go:1832 msg="vram-based default context" total_vram="12.0 GiB" default_num_ctx=4096
[GIN] 2026/05/15 - 02:18:56 | 200 |       505.5µs |       127.0.0.1 | HEAD     "/"
[GIN] 2026/05/15 - 02:18:56 | 200 |       505.5µs |       127.0.0.1 | GET      "/api/version"
[GIN] 2026/05/15 - 02:18:56 | 200 |    196.3877ms |       127.0.0.1 | POST     "/api/show"
[GIN] 2026/05/15 - 02:18:57 | 200 |     184.869ms |       127.0.0.1 | POST     "/api/show"
time=2026-05-15T02:18:57.250+01:00 level=INFO source=server.go:430 msg="starting runner" cmd="C:\\Users\\Lee\\AppData\\Local\\Programs\\Ollama\\ollama.exe runner --ollama-engine --port 53650"
time=2026-05-15T02:18:57.433+01:00 level=INFO source=cpu_windows.go:148 msg=packages count=1
time=2026-05-15T02:18:57.433+01:00 level=INFO source=cpu_windows.go:195 msg="" package=0 cores=6 efficiency=0 threads=12
llama_model_loader: loaded meta data with 55 key-value pairs and 2131 tensors from F:\AI_Art_Stuff\Ollama_Models\blobs\sha256-bb44ce787b29b8918d40d14383d5f8b10f279c19fb4d27357f78e82328f7276a (version GGUF V3 (latest))
llama_model_loader: Dumping metadata keys/values. Note: KV overrides do not apply in this output.
llama_model_loader: - kv   0:                gemma4.attention.head_count u32              = 8
llama_model_loader: - kv   1:             gemma4.attention.head_count_kv u32              = 2
llama_model_loader: - kv   2:                gemma4.attention.key_length u32              = 512
llama_model_loader: - kv   3:            gemma4.attention.key_length_swa u32              = 256
llama_model_loader: - kv   4:    gemma4.attention.layer_norm_rms_epsilon f32              = 0.000001
llama_model_loader: - kv   5:          gemma4.attention.shared_kv_layers u32              = 18
llama_model_loader: - kv   6:            gemma4.attention.sliding_window u32              = 512
llama_model_loader: - kv   7:    gemma4.attention.sliding_window_pattern arr[bool,42]     = [true, true, true, true, true, false,...
llama_model_loader: - kv   8:              gemma4.attention.value_length u32              = 512
llama_model_loader: - kv   9:          gemma4.attention.value_length_swa u32              = 256
llama_model_loader: - kv  10:          gemma4.audio.attention.head_count u32              = 8
llama_model_loader: - kv  11:  gemma4.audio.attention.layer_norm_epsilon f32              = 0.000001
llama_model_loader: - kv  12:                   gemma4.audio.block_count u32              = 12
llama_model_loader: - kv  13:              gemma4.audio.conv_kernel_size u32              = 5
llama_model_loader: - kv  14:              gemma4.audio.embedding_length u32              = 1024
llama_model_loader: - kv  15:           gemma4.audio.feed_forward_length u32              = 4096
llama_model_loader: - kv  16:                         gemma4.block_count u32              = 42
llama_model_loader: - kv  17:                      gemma4.context_length u32              = 131072
llama_model_loader: - kv  18:                    gemma4.embedding_length u32              = 2560
llama_model_loader: - kv  19:    gemma4.embedding_length_per_layer_input u32              = 256
llama_model_loader: - kv  20:                 gemma4.feed_forward_length u32              = 10240
llama_model_loader: - kv  21:             gemma4.final_logit_softcapping f32              = 30.000000
llama_model_loader: - kv  22:                gemma4.rope.dimension_count u32              = 512
llama_model_loader: - kv  23:            gemma4.rope.dimension_count_swa u32              = 256
llama_model_loader: - kv  24:                      gemma4.rope.freq_base f32              = 1000000.000000
llama_model_loader: - kv  25:                  gemma4.rope.freq_base_swa f32              = 10000.000000
llama_model_loader: - kv  26:         gemma4.vision.attention.head_count u32              = 12
llama_model_loader: - kv  27: gemma4.vision.attention.layer_norm_epsilon f32              = 0.000001
llama_model_loader: - kv  28:                  gemma4.vision.block_count u32              = 16
llama_model_loader: - kv  29:             gemma4.vision.embedding_length u32              = 768
llama_model_loader: - kv  30:          gemma4.vision.feed_forward_length u32              = 3072
llama_model_loader: - kv  31:                 gemma4.vision.num_channels u32              = 3
llama_model_loader: - kv  32:                   gemma4.vision.patch_size u32              = 16
llama_model_loader: - kv  33:       gemma4.vision.projector.scale_factor u32              = 3
llama_model_loader: - kv  34:                       general.architecture str              = gemma4
llama_model_loader: - kv  35:                          general.file_type u32              = 15
llama_model_loader: - kv  36:                    general.parameter_count u64              = 7996157674
llama_model_loader: - kv  37:               general.quantization_version u32              = 2
llama_model_loader: - kv  38:               tokenizer.ggml.add_bos_token bool             = false
llama_model_loader: - kv  39:               tokenizer.ggml.add_eos_token bool             = false
llama_model_loader: - kv  40:              tokenizer.ggml.add_mask_token bool             = false
llama_model_loader: - kv  41:           tokenizer.ggml.add_padding_token bool             = false
llama_model_loader: - kv  42:           tokenizer.ggml.add_unknown_token bool             = false
llama_model_loader: - kv  43:                tokenizer.ggml.bos_token_id u32              = 2
llama_model_loader: - kv  44:                tokenizer.ggml.eos_token_id u32              = 1
llama_model_loader: - kv  45:               tokenizer.ggml.eos_token_ids arr[i32,3]       = [1, 106, 50]
llama_model_loader: - kv  46:               tokenizer.ggml.mask_token_id u32              = 4
llama_model_loader: - kv  47:                      tokenizer.ggml.merges arr[str,514906]  = ["\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n \n", ...
llama_model_loader: - kv  48:                       tokenizer.ggml.model str              = llama
llama_model_loader: - kv  49:            tokenizer.ggml.padding_token_id u32              = 0
llama_model_loader: - kv  50:                         tokenizer.ggml.pre str              = gemma4
llama_model_loader: - kv  51:                      tokenizer.ggml.scores arr[f32,262144]  = [0.000000, 1.000000, 2.000000, 3.0000...
llama_model_loader: - kv  52:                  tokenizer.ggml.token_type arr[i32,262144]  = [3, 3, 3, 3, 3, 1, 1, 1, 1, 1, 1, 1, ...
llama_model_loader: - kv  53:                      tokenizer.ggml.tokens arr[str,262144]  = ["<pad>", "<eos>", "<bos>", "<unk>", ...
llama_model_loader: - kv  54:            tokenizer.ggml.unknown_token_id u32              = 3
llama_model_loader: - type  f32: 1501 tensors
llama_model_loader: - type  f16:  116 tensors
llama_model_loader: - type q4_K:  339 tensors
llama_model_loader: - type q6_K:   41 tensors
llama_model_loader: - type bf16:  134 tensors
print_info: file format = GGUF V3 (latest)
print_info: file type   = Q4_K - Medium
print_info: file size   = 8.93 GiB (9.60 BPW) 
llama_model_load: error loading model: error loading model architecture: unknown model architecture: 'gemma4'
llama_model_load_from_file_impl: failed to load model
time=2026-05-15T02:18:57.740+01:00 level=INFO source=sched.go:462 msg="failed to create server" model=huihui_ai/gemma-4-abliterated:e4b error="unable to load model: F:\\AI_Art_Stuff\\Ollama_Models\\blobs\\sha256-bb44ce787b29b8918d40d14383d5f8b10f279c19fb4d27357f78e82328f7276a"
[GIN] 2026/05/15 - 02:18:57 | 500 |    701.1002ms |       127.0.0.1 | POST     "/api/generate"

Code Example

time=2026-05-15T02:18:55.797+01:00 level=INFO source=routes.go:1727 msg="server config" env="map[CUDA_VISIBLE_DEVICES: GGML_VK_VISIBLE_DEVICES: GPU_DEVICE_ORDINAL: HIP_VISIBLE_DEVICES: HSA_OVERRIDE_GFX_VERSION: HTTPS_PROXY: HTTP_PROXY: NO_PROXY: OLLAMA_CONTEXT_LENGTH:262144 OLLAMA_DEBUG:INFO OLLAMA_EDITOR: OLLAMA_FLASH_ATTENTION:false OLLAMA_GPU_OVERHEAD:0 OLLAMA_HOST:http://127.0.0.1:11434 OLLAMA_KEEP_ALIVE:5m0s OLLAMA_KV_CACHE_TYPE: OLLAMA_LLM_LIBRARY: OLLAMA_LOAD_TIMEOUT:5m0s OLLAMA_MAX_LOADED_MODELS:0 OLLAMA_MAX_QUEUE:512 OLLAMA_MODELS:F:\\AI_Art_Stuff\\Ollama_Models OLLAMA_MULTIUSER_CACHE:false OLLAMA_NEW_ENGINE:false OLLAMA_NOHISTORY:false OLLAMA_NOPRUNE:false OLLAMA_NO_CLOUD:true OLLAMA_NUM_PARALLEL:1 OLLAMA_ORIGINS:[http://localhost https://localhost http://localhost:* https://localhost:* http://127.0.0.1 https://127.0.0.1 http://127.0.0.1:* https://127.0.0.1:* http://0.0.0.0 https://0.0.0.0 http://0.0.0.0:* https://0.0.0.0:* app://* file://* tauri://* vscode-webview://* vscode-file://*] OLLAMA_REMOTES:[ollama.com] OLLAMA_SCHED_SPREAD:false OLLAMA_VULKAN:false ROCR_VISIBLE_DEVICES:]"
time=2026-05-15T02:18:55.798+01:00 level=INFO source=routes.go:1729 msg="Ollama cloud disabled: true"
time=2026-05-15T02:18:55.800+01:00 level=INFO source=images.go:477 msg="total blobs: 51"
time=2026-05-15T02:18:55.801+01:00 level=INFO source=images.go:484 msg="total unused blobs removed: 0"
time=2026-05-15T02:18:55.802+01:00 level=INFO source=routes.go:1782 msg="Listening on 127.0.0.1:11434 (version 0.18.2)"
time=2026-05-15T02:18:55.803+01:00 level=INFO source=runner.go:67 msg="discovering available GPUs..."
time=2026-05-15T02:18:55.812+01:00 level=INFO source=server.go:430 msg="starting runner" cmd="C:\\Users\\Lee\\AppData\\Local\\Programs\\Ollama\\ollama.exe runner --ollama-engine --port 53583"
time=2026-05-15T02:18:56.013+01:00 level=INFO source=server.go:430 msg="starting runner" cmd="C:\\Users\\Lee\\AppData\\Local\\Programs\\Ollama\\ollama.exe runner --ollama-engine --port 53594"
time=2026-05-15T02:18:56.165+01:00 level=INFO source=runner.go:106 msg="experimental Vulkan support disabled.  To enable, set OLLAMA_VULKAN=1"
time=2026-05-15T02:18:56.166+01:00 level=INFO source=server.go:430 msg="starting runner" cmd="C:\\Users\\Lee\\AppData\\Local\\Programs\\Ollama\\ollama.exe runner --ollama-engine --port 53608"
time=2026-05-15T02:18:56.387+01:00 level=INFO source=server.go:430 msg="starting runner" cmd="C:\\Users\\Lee\\AppData\\Local\\Programs\\Ollama\\ollama.exe runner --ollama-engine --port 53620"
time=2026-05-15T02:18:56.387+01:00 level=INFO source=server.go:430 msg="starting runner" cmd="C:\\Users\\Lee\\AppData\\Local\\Programs\\Ollama\\ollama.exe runner --ollama-engine --port 53621"
time=2026-05-15T02:18:56.649+01:00 level=INFO source=types.go:42 msg="inference compute" id=GPU-73eb9140-40cd-3e22-332c-ac14f97cea74 filter_id="" library=CUDA compute=8.9 name=CUDA0 description="NVIDIA GeForce RTX 4070 SUPER" libdirs=ollama,cuda_v13 driver=13.2 pci_id=0000:01:00.0 type=discrete total="12.0 GiB" available="11.0 GiB"
time=2026-05-15T02:18:56.649+01:00 level=INFO source=routes.go:1832 msg="vram-based default context" total_vram="12.0 GiB" default_num_ctx=4096
[GIN] 2026/05/15 - 02:18:56 | 200 |       505.5µs |       127.0.0.1 | HEAD     "/"
[GIN] 2026/05/15 - 02:18:56 | 200 |       505.5µs |       127.0.0.1 | GET      "/api/version"
[GIN] 2026/05/15 - 02:18:56 | 200 |    196.3877ms |       127.0.0.1 | POST     "/api/show"
[GIN] 2026/05/15 - 02:18:57 | 200 |     184.869ms |       127.0.0.1 | POST     "/api/show"
time=2026-05-15T02:18:57.250+01:00 level=INFO source=server.go:430 msg="starting runner" cmd="C:\\Users\\Lee\\AppData\\Local\\Programs\\Ollama\\ollama.exe runner --ollama-engine --port 53650"
time=2026-05-15T02:18:57.433+01:00 level=INFO source=cpu_windows.go:148 msg=packages count=1
time=2026-05-15T02:18:57.433+01:00 level=INFO source=cpu_windows.go:195 msg="" package=0 cores=6 efficiency=0 threads=12
llama_model_loader: loaded meta data with 55 key-value pairs and 2131 tensors from F:\AI_Art_Stuff\Ollama_Models\blobs\sha256-bb44ce787b29b8918d40d14383d5f8b10f279c19fb4d27357f78e82328f7276a (version GGUF V3 (latest))
llama_model_loader: Dumping metadata keys/values. Note: KV overrides do not apply in this output.
llama_model_loader: - kv   0:                gemma4.attention.head_count u32              = 8
llama_model_loader: - kv   1:             gemma4.attention.head_count_kv u32              = 2
llama_model_loader: - kv   2:                gemma4.attention.key_length u32              = 512
llama_model_loader: - kv   3:            gemma4.attention.key_length_swa u32              = 256
llama_model_loader: - kv   4:    gemma4.attention.layer_norm_rms_epsilon f32              = 0.000001
llama_model_loader: - kv   5:          gemma4.attention.shared_kv_layers u32              = 18
llama_model_loader: - kv   6:            gemma4.attention.sliding_window u32              = 512
llama_model_loader: - kv   7:    gemma4.attention.sliding_window_pattern arr[bool,42]     = [true, true, true, true, true, false,...
llama_model_loader: - kv   8:              gemma4.attention.value_length u32              = 512
llama_model_loader: - kv   9:          gemma4.attention.value_length_swa u32              = 256
llama_model_loader: - kv  10:          gemma4.audio.attention.head_count u32              = 8
llama_model_loader: - kv  11:  gemma4.audio.attention.layer_norm_epsilon f32              = 0.000001
llama_model_loader: - kv  12:                   gemma4.audio.block_count u32              = 12
llama_model_loader: - kv  13:              gemma4.audio.conv_kernel_size u32              = 5
llama_model_loader: - kv  14:              gemma4.audio.embedding_length u32              = 1024
llama_model_loader: - kv  15:           gemma4.audio.feed_forward_length u32              = 4096
llama_model_loader: - kv  16:                         gemma4.block_count u32              = 42
llama_model_loader: - kv  17:                      gemma4.context_length u32              = 131072
llama_model_loader: - kv  18:                    gemma4.embedding_length u32              = 2560
llama_model_loader: - kv  19:    gemma4.embedding_length_per_layer_input u32              = 256
llama_model_loader: - kv  20:                 gemma4.feed_forward_length u32              = 10240
llama_model_loader: - kv  21:             gemma4.final_logit_softcapping f32              = 30.000000
llama_model_loader: - kv  22:                gemma4.rope.dimension_count u32              = 512
llama_model_loader: - kv  23:            gemma4.rope.dimension_count_swa u32              = 256
llama_model_loader: - kv  24:                      gemma4.rope.freq_base f32              = 1000000.000000
llama_model_loader: - kv  25:                  gemma4.rope.freq_base_swa f32              = 10000.000000
llama_model_loader: - kv  26:         gemma4.vision.attention.head_count u32              = 12
llama_model_loader: - kv  27: gemma4.vision.attention.layer_norm_epsilon f32              = 0.000001
llama_model_loader: - kv  28:                  gemma4.vision.block_count u32              = 16
llama_model_loader: - kv  29:             gemma4.vision.embedding_length u32              = 768
llama_model_loader: - kv  30:          gemma4.vision.feed_forward_length u32              = 3072
llama_model_loader: - kv  31:                 gemma4.vision.num_channels u32              = 3
llama_model_loader: - kv  32:                   gemma4.vision.patch_size u32              = 16
llama_model_loader: - kv  33:       gemma4.vision.projector.scale_factor u32              = 3
llama_model_loader: - kv  34:                       general.architecture str              = gemma4
llama_model_loader: - kv  35:                          general.file_type u32              = 15
llama_model_loader: - kv  36:                    general.parameter_count u64              = 7996157674
llama_model_loader: - kv  37:               general.quantization_version u32              = 2
llama_model_loader: - kv  38:               tokenizer.ggml.add_bos_token bool             = false
llama_model_loader: - kv  39:               tokenizer.ggml.add_eos_token bool             = false
llama_model_loader: - kv  40:              tokenizer.ggml.add_mask_token bool             = false
llama_model_loader: - kv  41:           tokenizer.ggml.add_padding_token bool             = false
llama_model_loader: - kv  42:           tokenizer.ggml.add_unknown_token bool             = false
llama_model_loader: - kv  43:                tokenizer.ggml.bos_token_id u32              = 2
llama_model_loader: - kv  44:                tokenizer.ggml.eos_token_id u32              = 1
llama_model_loader: - kv  45:               tokenizer.ggml.eos_token_ids arr[i32,3]       = [1, 106, 50]
llama_model_loader: - kv  46:               tokenizer.ggml.mask_token_id u32              = 4
llama_model_loader: - kv  47:                      tokenizer.ggml.merges arr[str,514906]  = ["\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n \n", ...
llama_model_loader: - kv  48:                       tokenizer.ggml.model str              = llama
llama_model_loader: - kv  49:            tokenizer.ggml.padding_token_id u32              = 0
llama_model_loader: - kv  50:                         tokenizer.ggml.pre str              = gemma4
llama_model_loader: - kv  51:                      tokenizer.ggml.scores arr[f32,262144]  = [0.000000, 1.000000, 2.000000, 3.0000...
llama_model_loader: - kv  52:                  tokenizer.ggml.token_type arr[i32,262144]  = [3, 3, 3, 3, 3, 1, 1, 1, 1, 1, 1, 1, ...
llama_model_loader: - kv  53:                      tokenizer.ggml.tokens arr[str,262144]  = ["<pad>", "<eos>", "<bos>", "<unk>", ...
llama_model_loader: - kv  54:            tokenizer.ggml.unknown_token_id u32              = 3
llama_model_loader: - type  f32: 1501 tensors
llama_model_loader: - type  f16:  116 tensors
llama_model_loader: - type q4_K:  339 tensors
llama_model_loader: - type q6_K:   41 tensors
llama_model_loader: - type bf16:  134 tensors
print_info: file format = GGUF V3 (latest)
print_info: file type   = Q4_K - Medium
print_info: file size   = 8.93 GiB (9.60 BPW) 
llama_model_load: error loading model: error loading model architecture: unknown model architecture: 'gemma4'
llama_model_load_from_file_impl: failed to load model
time=2026-05-15T02:18:57.740+01:00 level=INFO source=sched.go:462 msg="failed to create server" model=huihui_ai/gemma-4-abliterated:e4b error="unable to load model: F:\\AI_Art_Stuff\\Ollama_Models\\blobs\\sha256-bb44ce787b29b8918d40d14383d5f8b10f279c19fb4d27357f78e82328f7276a"
[GIN] 2026/05/15 - 02:18:57 | 500 |    701.1002ms |       127.0.0.1 | POST     "/api/generate"

RAW_BUFFERClick to expand / collapse

What is the issue?

I downloaded a model today on PC using "ollama pull huihui_ai/gemma-4-abliterated:e4b"

The model downloaded fine with no errors but when I try to use the model, I get the 500 error shown in the Title. Log info posted below.

Exact Error Was:- 500 Internal Server Error: unable to load model: F:\AI_Art_Stuff\Ollama_Models\blobs\sha256-bb44ce787b29b8918d40d14383d5f8b10f279c19fb4d27357f78e82328f7276a

This is the first model I have downloaded that didn't work and it was downloaded direct from the Ollama model pages so it's not a third party sourced model.

System Specs: Windows 10 Pro 64-bit 64GB RAM 4070 Super GPU (12GB VRAM) Intel i5 12400F CPU

P.s. Put the version number in the app somewhere. Whilst it's bad enough not having that, not having it in the exe file is about as unprofessional as you can get. Every exe file should contain the version number info as part of the information displayed in the Details Tab of the Properties window... that's standard practice, which is exactly what I have been doing with my exe files for the past 30+ years of writing windows apps.

Relevant log output

time=2026-05-15T02:18:55.797+01:00 level=INFO source=routes.go:1727 msg="server config" env="map[CUDA_VISIBLE_DEVICES: GGML_VK_VISIBLE_DEVICES: GPU_DEVICE_ORDINAL: HIP_VISIBLE_DEVICES: HSA_OVERRIDE_GFX_VERSION: HTTPS_PROXY: HTTP_PROXY: NO_PROXY: OLLAMA_CONTEXT_LENGTH:262144 OLLAMA_DEBUG:INFO OLLAMA_EDITOR: OLLAMA_FLASH_ATTENTION:false OLLAMA_GPU_OVERHEAD:0 OLLAMA_HOST:http://127.0.0.1:11434 OLLAMA_KEEP_ALIVE:5m0s OLLAMA_KV_CACHE_TYPE: OLLAMA_LLM_LIBRARY: OLLAMA_LOAD_TIMEOUT:5m0s OLLAMA_MAX_LOADED_MODELS:0 OLLAMA_MAX_QUEUE:512 OLLAMA_MODELS:F:\\AI_Art_Stuff\\Ollama_Models OLLAMA_MULTIUSER_CACHE:false OLLAMA_NEW_ENGINE:false OLLAMA_NOHISTORY:false OLLAMA_NOPRUNE:false OLLAMA_NO_CLOUD:true OLLAMA_NUM_PARALLEL:1 OLLAMA_ORIGINS:[http://localhost https://localhost http://localhost:* https://localhost:* http://127.0.0.1 https://127.0.0.1 http://127.0.0.1:* https://127.0.0.1:* http://0.0.0.0 https://0.0.0.0 http://0.0.0.0:* https://0.0.0.0:* app://* file://* tauri://* vscode-webview://* vscode-file://*] OLLAMA_REMOTES:[ollama.com] OLLAMA_SCHED_SPREAD:false OLLAMA_VULKAN:false ROCR_VISIBLE_DEVICES:]"
time=2026-05-15T02:18:55.798+01:00 level=INFO source=routes.go:1729 msg="Ollama cloud disabled: true"
time=2026-05-15T02:18:55.800+01:00 level=INFO source=images.go:477 msg="total blobs: 51"
time=2026-05-15T02:18:55.801+01:00 level=INFO source=images.go:484 msg="total unused blobs removed: 0"
time=2026-05-15T02:18:55.802+01:00 level=INFO source=routes.go:1782 msg="Listening on 127.0.0.1:11434 (version 0.18.2)"
time=2026-05-15T02:18:55.803+01:00 level=INFO source=runner.go:67 msg="discovering available GPUs..."
time=2026-05-15T02:18:55.812+01:00 level=INFO source=server.go:430 msg="starting runner" cmd="C:\\Users\\Lee\\AppData\\Local\\Programs\\Ollama\\ollama.exe runner --ollama-engine --port 53583"
time=2026-05-15T02:18:56.013+01:00 level=INFO source=server.go:430 msg="starting runner" cmd="C:\\Users\\Lee\\AppData\\Local\\Programs\\Ollama\\ollama.exe runner --ollama-engine --port 53594"
time=2026-05-15T02:18:56.165+01:00 level=INFO source=runner.go:106 msg="experimental Vulkan support disabled.  To enable, set OLLAMA_VULKAN=1"
time=2026-05-15T02:18:56.166+01:00 level=INFO source=server.go:430 msg="starting runner" cmd="C:\\Users\\Lee\\AppData\\Local\\Programs\\Ollama\\ollama.exe runner --ollama-engine --port 53608"
time=2026-05-15T02:18:56.387+01:00 level=INFO source=server.go:430 msg="starting runner" cmd="C:\\Users\\Lee\\AppData\\Local\\Programs\\Ollama\\ollama.exe runner --ollama-engine --port 53620"
time=2026-05-15T02:18:56.387+01:00 level=INFO source=server.go:430 msg="starting runner" cmd="C:\\Users\\Lee\\AppData\\Local\\Programs\\Ollama\\ollama.exe runner --ollama-engine --port 53621"
time=2026-05-15T02:18:56.649+01:00 level=INFO source=types.go:42 msg="inference compute" id=GPU-73eb9140-40cd-3e22-332c-ac14f97cea74 filter_id="" library=CUDA compute=8.9 name=CUDA0 description="NVIDIA GeForce RTX 4070 SUPER" libdirs=ollama,cuda_v13 driver=13.2 pci_id=0000:01:00.0 type=discrete total="12.0 GiB" available="11.0 GiB"
time=2026-05-15T02:18:56.649+01:00 level=INFO source=routes.go:1832 msg="vram-based default context" total_vram="12.0 GiB" default_num_ctx=4096
[GIN] 2026/05/15 - 02:18:56 | 200 |       505.5µs |       127.0.0.1 | HEAD     "/"
[GIN] 2026/05/15 - 02:18:56 | 200 |       505.5µs |       127.0.0.1 | GET      "/api/version"
[GIN] 2026/05/15 - 02:18:56 | 200 |    196.3877ms |       127.0.0.1 | POST     "/api/show"
[GIN] 2026/05/15 - 02:18:57 | 200 |     184.869ms |       127.0.0.1 | POST     "/api/show"
time=2026-05-15T02:18:57.250+01:00 level=INFO source=server.go:430 msg="starting runner" cmd="C:\\Users\\Lee\\AppData\\Local\\Programs\\Ollama\\ollama.exe runner --ollama-engine --port 53650"
time=2026-05-15T02:18:57.433+01:00 level=INFO source=cpu_windows.go:148 msg=packages count=1
time=2026-05-15T02:18:57.433+01:00 level=INFO source=cpu_windows.go:195 msg="" package=0 cores=6 efficiency=0 threads=12
llama_model_loader: loaded meta data with 55 key-value pairs and 2131 tensors from F:\AI_Art_Stuff\Ollama_Models\blobs\sha256-bb44ce787b29b8918d40d14383d5f8b10f279c19fb4d27357f78e82328f7276a (version GGUF V3 (latest))
llama_model_loader: Dumping metadata keys/values. Note: KV overrides do not apply in this output.
llama_model_loader: - kv   0:                gemma4.attention.head_count u32              = 8
llama_model_loader: - kv   1:             gemma4.attention.head_count_kv u32              = 2
llama_model_loader: - kv   2:                gemma4.attention.key_length u32              = 512
llama_model_loader: - kv   3:            gemma4.attention.key_length_swa u32              = 256
llama_model_loader: - kv   4:    gemma4.attention.layer_norm_rms_epsilon f32              = 0.000001
llama_model_loader: - kv   5:          gemma4.attention.shared_kv_layers u32              = 18
llama_model_loader: - kv   6:            gemma4.attention.sliding_window u32              = 512
llama_model_loader: - kv   7:    gemma4.attention.sliding_window_pattern arr[bool,42]     = [true, true, true, true, true, false,...
llama_model_loader: - kv   8:              gemma4.attention.value_length u32              = 512
llama_model_loader: - kv   9:          gemma4.attention.value_length_swa u32              = 256
llama_model_loader: - kv  10:          gemma4.audio.attention.head_count u32              = 8
llama_model_loader: - kv  11:  gemma4.audio.attention.layer_norm_epsilon f32              = 0.000001
llama_model_loader: - kv  12:                   gemma4.audio.block_count u32              = 12
llama_model_loader: - kv  13:              gemma4.audio.conv_kernel_size u32              = 5
llama_model_loader: - kv  14:              gemma4.audio.embedding_length u32              = 1024
llama_model_loader: - kv  15:           gemma4.audio.feed_forward_length u32              = 4096
llama_model_loader: - kv  16:                         gemma4.block_count u32              = 42
llama_model_loader: - kv  17:                      gemma4.context_length u32              = 131072
llama_model_loader: - kv  18:                    gemma4.embedding_length u32              = 2560
llama_model_loader: - kv  19:    gemma4.embedding_length_per_layer_input u32              = 256
llama_model_loader: - kv  20:                 gemma4.feed_forward_length u32              = 10240
llama_model_loader: - kv  21:             gemma4.final_logit_softcapping f32              = 30.000000
llama_model_loader: - kv  22:                gemma4.rope.dimension_count u32              = 512
llama_model_loader: - kv  23:            gemma4.rope.dimension_count_swa u32              = 256
llama_model_loader: - kv  24:                      gemma4.rope.freq_base f32              = 1000000.000000
llama_model_loader: - kv  25:                  gemma4.rope.freq_base_swa f32              = 10000.000000
llama_model_loader: - kv  26:         gemma4.vision.attention.head_count u32              = 12
llama_model_loader: - kv  27: gemma4.vision.attention.layer_norm_epsilon f32              = 0.000001
llama_model_loader: - kv  28:                  gemma4.vision.block_count u32              = 16
llama_model_loader: - kv  29:             gemma4.vision.embedding_length u32              = 768
llama_model_loader: - kv  30:          gemma4.vision.feed_forward_length u32              = 3072
llama_model_loader: - kv  31:                 gemma4.vision.num_channels u32              = 3
llama_model_loader: - kv  32:                   gemma4.vision.patch_size u32              = 16
llama_model_loader: - kv  33:       gemma4.vision.projector.scale_factor u32              = 3
llama_model_loader: - kv  34:                       general.architecture str              = gemma4
llama_model_loader: - kv  35:                          general.file_type u32              = 15
llama_model_loader: - kv  36:                    general.parameter_count u64              = 7996157674
llama_model_loader: - kv  37:               general.quantization_version u32              = 2
llama_model_loader: - kv  38:               tokenizer.ggml.add_bos_token bool             = false
llama_model_loader: - kv  39:               tokenizer.ggml.add_eos_token bool             = false
llama_model_loader: - kv  40:              tokenizer.ggml.add_mask_token bool             = false
llama_model_loader: - kv  41:           tokenizer.ggml.add_padding_token bool             = false
llama_model_loader: - kv  42:           tokenizer.ggml.add_unknown_token bool             = false
llama_model_loader: - kv  43:                tokenizer.ggml.bos_token_id u32              = 2
llama_model_loader: - kv  44:                tokenizer.ggml.eos_token_id u32              = 1
llama_model_loader: - kv  45:               tokenizer.ggml.eos_token_ids arr[i32,3]       = [1, 106, 50]
llama_model_loader: - kv  46:               tokenizer.ggml.mask_token_id u32              = 4
llama_model_loader: - kv  47:                      tokenizer.ggml.merges arr[str,514906]  = ["\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n \n", ...
llama_model_loader: - kv  48:                       tokenizer.ggml.model str              = llama
llama_model_loader: - kv  49:            tokenizer.ggml.padding_token_id u32              = 0
llama_model_loader: - kv  50:                         tokenizer.ggml.pre str              = gemma4
llama_model_loader: - kv  51:                      tokenizer.ggml.scores arr[f32,262144]  = [0.000000, 1.000000, 2.000000, 3.0000...
llama_model_loader: - kv  52:                  tokenizer.ggml.token_type arr[i32,262144]  = [3, 3, 3, 3, 3, 1, 1, 1, 1, 1, 1, 1, ...
llama_model_loader: - kv  53:                      tokenizer.ggml.tokens arr[str,262144]  = ["<pad>", "<eos>", "<bos>", "<unk>", ...
llama_model_loader: - kv  54:            tokenizer.ggml.unknown_token_id u32              = 3
llama_model_loader: - type  f32: 1501 tensors
llama_model_loader: - type  f16:  116 tensors
llama_model_loader: - type q4_K:  339 tensors
llama_model_loader: - type q6_K:   41 tensors
llama_model_loader: - type bf16:  134 tensors
print_info: file format = GGUF V3 (latest)
print_info: file type   = Q4_K - Medium
print_info: file size   = 8.93 GiB (9.60 BPW) 
llama_model_load: error loading model: error loading model architecture: unknown model architecture: 'gemma4'
llama_model_load_from_file_impl: failed to load model
time=2026-05-15T02:18:57.740+01:00 level=INFO source=sched.go:462 msg="failed to create server" model=huihui_ai/gemma-4-abliterated:e4b error="unable to load model: F:\\AI_Art_Stuff\\Ollama_Models\\blobs\\sha256-bb44ce787b29b8918d40d14383d5f8b10f279c19fb4d27357f78e82328f7276a"
[GIN] 2026/05/15 - 02:18:57 | 500 |    701.1002ms |       127.0.0.1 | POST     "/api/generate"

OS

Windows

GPU

Nvidia

CPU

Intel

Ollama version

0.18.2

Vote matrix · Quick signals

Works

Did the solution work? Tap to confirm.

Easy Fix

Was it a quick fix?

Time Saver

Did it save you time?

Blocking

Was it severely blocking?

Common Issue

Are others likely hitting this too?

Flaky / Intermittent

Is it intermittent?

Verified / Reproducible

Can you reproduce it reliably?

#api #ssr #model download #API rate limit #retriever error

Still need to ship something?

×6

Another batch ranked right after the header list — different links, same matching logic.

Data

Security

Network

Code

UI/UX

Text

System

Multimedia

Protocol

API

Engineering

ollama - 💡(How to fix) Fix 500 Internal Server Error: unable to load model:

Recommended Tools

GitHub issue graph ai analysis

Error Message

Fix Action

Fix / Workaround

Code Example

What is the issue?

Relevant log output

OS

GPU

CPU

Ollama version

Still need to ship something?

TRENDING

ollama - 💡(How to fix) Fix 500 Internal Server Error: unable to load model:

Recommended Tools

GitHub issue graph ai analysis

Error Message

Fix Action

Fix / Workaround

Code Example

What is the issue?

Relevant log output

OS

GPU

CPU

Ollama version

Still need to ship something?

RELATED_DISCOVERY

TRENDING