vllm - 💡(How to fix) Fix [Bug]: Segfault in Triton LLVM (MachineCSE / translateLLVMIRToASM) when serving Qwen3.5-4B on RTX 4090 (WSL2) with vLLM 0.19.0 [1 comments, 1 participants]

vllm2026-04-07 03:47:40

ON THIS PAGE

Recommended Tools

×6

Utilities matched from this issue’s tags and category — try them while you read without losing context.

GitHub issue graph ai analysis

Paste a GitHub issue URL. We fetch that issue, discover linked issues from bodies/comments/timeline, collect linked pull requests, and produce a structured English report.

The report is written in English Markdown for sharing and archival.

GitHub issue URL

Helpful · Quick feedback

GitHub stats

vllm-project/vllm#39149•Fetched 2026-04-08 03:01:44

View on GitHub

Comments

Participants

Timeline

Reactions

Author

1220856302

Participants

1220856302

Timeline (top)

closed ×1commented ×1cross-referenced ×1labeled ×1

Error Message

(APIServer pid=11166) Traceback (most recent call last): warnings.warn('resource_tracker: There appear to be %d '

Root Cause

(APIServer pid=11166) Traceback (most recent call last): (APIServer pid=11166) File "/home/cc/venv-vllm-qwen35/bin/vllm", line 6, in <module> (APIServer pid=11166) sys.exit(main()) (APIServer pid=11166) ^^^^^^ (APIServer pid=11166) File "/home/cc/venv-vllm-qwen35/lib/python3.12/site-packages/vllm/entrypoints/cli/main.py", line 75, in main (APIServer pid=11166) args.dispatch_function(args) (APIServer pid=11166) File "/home/cc/venv-vllm-qwen35/lib/python3.12/site-packages/vllm/entrypoints/cli/serve.py", line 122, in cmd (APIServer pid=11166) uvloop.run(run_server(args)) (APIServer pid=11166) File "/home/cc/venv-vllm-qwen35/lib/python3.12/site-packages/uvloop/init.py", line 96, in run (APIServer pid=11166) return __asyncio.run( (APIServer pid=11166) ^^^^^^^^^^^^^^ (APIServer pid=11166) File "/usr/lib/python3.12/asyncio/runners.py", line 194, in run (APIServer pid=11166) return runner.run(main) (APIServer pid=11166) ^^^^^^^^^^^^^^^^ (APIServer pid=11166) File "/usr/lib/python3.12/asyncio/runners.py", line 118, in run (APIServer pid=11166) return self._loop.run_until_complete(task) (APIServer pid=11166) ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^ (APIServer pid=11166) File "uvloop/loop.pyx", line 1518, in uvloop.loop.Loop.run_until_complete (APIServer pid=11166) File "/home/cc/venv-vllm-qwen35/lib/python3.12/site-packages/uvloop/init.py", line 48, in wrapper (APIServer pid=11166) return await main (APIServer pid=11166) ^^^^^^^^^^ (APIServer pid=11166) File "/home/cc/venv-vllm-qwen35/lib/python3.12/site-packages/vllm/entrypoints/openai/api_server.py", line 670, in run_server (APIServer pid=11166) await run_server_worker(listen_address, sock, args, **uvicorn_kwargs) (APIServer pid=11166) File "/home/cc/venv-vllm-qwen35/lib/python3.12/site-packages/vllm/entrypoints/openai/api_server.py", line 684, in run_server_worker (APIServer pid=11166) async with build_async_engine_client( (APIServer pid=11166) File "/usr/lib/python3.12/contextlib.py", line 210, in aenter (APIServer pid=11166) return await anext(self.gen) (APIServer pid=11166) ^^^^^^^^^^^^^^^^^^^^^ (APIServer pid=11166) File "/home/cc/venv-vllm-qwen35/lib/python3.12/site-packages/vllm/entrypoints/openai/api_server.py", line 100, in build_async_engine_client (APIServer pid=11166) async with build_async_engine_client_from_engine_args( (APIServer pid=11166) File "/usr/lib/python3.12/contextlib.py", line 210, in aenter (APIServer pid=11166) return await anext(self.gen) (APIServer pid=11166) ^^^^^^^^^^^^^^^^^^^^^ (APIServer pid=11166) File "/home/cc/venv-vllm-qwen35/lib/python3.12/site-packages/vllm/entrypoints/openai/api_server.py", line 136, in build_async_engine_client_from_engine_args (APIServer pid=11166) async_llm = AsyncLLM.from_vllm_config( (APIServer pid=11166) ^^^^^^^^^^^^^^^^^^^^^^^^^^ (APIServer pid=11166) File "/home/cc/venv-vllm-qwen35/lib/python3.12/site-packages/vllm/v1/engine/async_llm.py", line 225, in from_vllm_config (APIServer pid=11166) return cls( (APIServer pid=11166) ^^^^ (APIServer pid=11166) File "/home/cc/venv-vllm-qwen35/lib/python3.12/site-packages/vllm/v1/engine/async_llm.py", line 154, in init (APIServer pid=11166) self.engine_core = EngineCoreClient.make_async_mp_client( (APIServer pid=11166) ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^ (APIServer pid=11166) File "/home/cc/venv-vllm-qwen35/lib/python3.12/site-packages/vllm/tracing/otel.py", line 178, in sync_wrapper (APIServer pid=11166) return func(*args, **kwargs) (APIServer pid=11166) ^^^^^^^^^^^^^^^^^^^^^ (APIServer pid=11166) File "/home/cc/venv-vllm-qwen35/lib/python3.12/site-packages/vllm/v1/engine/core_client.py", line 130, in make_async_mp_client (APIServer pid=11166) return AsyncMPClient(*client_args) (APIServer pid=11166) ^^^^^^^^^^^^^^^^^^^^^^^^^^^ (APIServer pid=11166) File "/home/cc/venv-vllm-qwen35/lib/python3.12/site-packages/vllm/tracing/otel.py", line 178, in sync_wrapper (APIServer pid=11166) return func(*args, **kwargs) (APIServer pid=11166) ^^^^^^^^^^^^^^^^^^^^^ (APIServer pid=11166) File "/home/cc/venv-vllm-qwen35/lib/python3.12/site-packages/vllm/v1/engine/core_client.py", line 887, in init (APIServer pid=11166) super().init( (APIServer pid=11166) File "/home/cc/venv-vllm-qwen35/lib/python3.12/site-packages/vllm/v1/engine/core_client.py", line 535, in init (APIServer pid=11166) with launch_core_engines( (APIServer pid=11166) File "/usr/lib/python3.12/contextlib.py", line 144, in exit (APIServer pid=11166) next(self.gen) (APIServer pid=11166) File "/home/cc/venv-vllm-qwen35/lib/python3.12/site-packages/vllm/v1/engine/utils.py", line 998, in launch_core_engines (APIServer pid=11166) wait_for_engine_startup( (APIServer pid=11166) File "/home/cc/venv-vllm-qwen35/lib/python3.12/site-packages/vllm/v1/engine/utils.py", line 1057, in wait_for_engine_startup (APIServer pid=11166) raise RuntimeError( (APIServer pid=11166) RuntimeError: Engine core initialization failed. See root cause above. Failed core proc(s): {} /usr/lib/python3.12/multiprocessing/resource_tracker.py:254: UserWarning: resource_tracker: There appear to be 1 leaked semaphore objects to clean up at shutdown warnings.warn('resource_tracker: There appear to be %d '

Fix Action

Fix / Workaround

============================== CPU Info

Architecture: x86_64 CPU op-mode(s): 32-bit, 64-bit Address sizes: 39 bits physical, 48 bits virtual Byte Order: Little Endian CPU(s): 32 On-line CPU(s) list: 0-31 Vendor ID: GenuineIntel Model name: Intel(R) Core(TM) i9-14900HX CPU family: 6 Model: 183 Thread(s) per core: 2 Core(s) per socket: 16 Socket(s): 1 Stepping: 1 BogoMIPS: 4838.39 Flags: fpu vme de pse tsc msr pae mce cx8 apic sep mtrr pge mca cmov pat pse36 clflush mmx fxsr sse sse2 ss ht syscall nx pdpe1gb rdtscp lm constant_tsc rep_good nopl xtopology tsc_reliable nonstop_tsc cpuid tsc_known_freq pni pclmulqdq vmx ssse3 fma cx16 pcid sse4_1 sse4_2 x2apic movbe popcnt tsc_deadline_timer aes xsave avx f16c rdrand hypervisor lahf_lm abm 3dnowprefetch ssbd ibrs ibpb stibp ibrs_enhanced tpr_shadow ept vpid ept_ad fsgsbase tsc_adjust bmi1 avx2 smep bmi2 erms invpcid rdseed adx smap clflushopt clwb sha_ni xsaveopt xsavec xgetbv1 xsaves avx_vnni vnmi umip waitpkg gfni vaes vpclmulqdq rdpid movdiri movdir64b fsrm md_clear serialize flush_l1d arch_capabilities Virtualization: VT-x Hypervisor vendor: Microsoft Virtualization type: full L1d cache: 768 KiB (16 instances) L1i cache: 512 KiB (16 instances) L2 cache: 32 MiB (16 instances) L3 cache: 36 MiB (1 instance) NUMA node(s): 1 NUMA node0 CPU(s): 0-31 Vulnerability Gather data sampling: Not affected Vulnerability Itlb multihit: Not affected Vulnerability L1tf: Not affected Vulnerability Mds: Not affected Vulnerability Meltdown: Not affected Vulnerability Mmio stale data: Not affected Vulnerability Reg file data sampling: Vulnerable: No microcode Vulnerability Retbleed: Mitigation; Enhanced IBRS Vulnerability Spec rstack overflow: Not affected Vulnerability Spec store bypass: Mitigation; Speculative Store Bypass disabled via prctl Vulnerability Spectre v1: Mitigation; usercopy/swapgs barriers and __user pointer sanitization Vulnerability Spectre v2: Mitigation; Enhanced / Automatic IBRS; IBPB conditional; RSB filling; PBRSB-eIBRS SW sequence; BHI BHI_DIS_S Vulnerability Srbds: Not affected Vulnerability Tsx async abort: Not affected

Logs / stack trace (APIServer pid=11166) INFO 04-07 11:26:46 [utils.py:299] (APIServer pid=11166) INFO 04-07 11:26:46 [utils.py:299] █ █ █▄ ▄█ (APIServer pid=11166) INFO 04-07 11:26:46 [utils.py:299] ▄▄ ▄█ █ █ █ ▀▄▀ █ version 0.19.0 (APIServer pid=11166) INFO 04-07 11:26:46 [utils.py:299] █▄█▀ █ █ █ █ model /mnt/d/python/qw3-8b/models/Qwen/Qwen3.5-4B (APIServer pid=11166) INFO 04-07 11:26:46 [utils.py:299] ▀▀ ▀▀▀▀▀ ▀▀▀▀▀ ▀ ▀ (APIServer pid=11166) INFO 04-07 11:26:46 [utils.py:299] (APIServer pid=11166) INFO 04-07 11:26:46 [utils.py:233] non-default args: {'model_tag': '/mnt/d/python/qw3-8b/models/Qwen/Qwen3.5-4B', 'host': '0.0.0.0', 'model': '/mnt/d/python/qw3-8b/models/Qwen/Qwen3.5-4B', 'max_model_len': 8192, 'enforce_eager': True, 'reasoning_parser': 'qwen3', 'gpu_memory_utilization': 0.88} (APIServer pid=11166) INFO 04-07 11:26:47 [model.py:549] Resolved architecture: Qwen3_5ForConditionalGeneration (APIServer pid=11166) INFO 04-07 11:26:47 [model.py:1678] Using max model len 8192 (APIServer pid=11166) INFO 04-07 11:26:47 [config.py:281] Setting attention block size to 528 tokens to ensure that attention page size is >= mamba page size. (APIServer pid=11166) INFO 04-07 11:26:47 [config.py:312] Padding mamba page size by 0.76% to ensure that mamba page size and attention page size are exactly equal. (APIServer pid=11166) INFO 04-07 11:26:47 [vllm.py:790] Asynchronous scheduling is enabled. (APIServer pid=11166) WARNING 04-07 11:26:47 [vllm.py:848] Enforce eager set, disabling torch.compile and CUDAGraphs. This is equivalent to setting -cc.mode=none -cc.cudagraph_mode=none (APIServer pid=11166) WARNING 04-07 11:26:47 [vllm.py:859] Inductor compilation was disabled by user settings, optimizations settings that are only active during inductor compilation will be ignored. (APIServer pid=11166) INFO 04-07 11:26:47 [vllm.py:1025] Cudagraph is disabled under eager mode (APIServer pid=11166) INFO 04-07 11:26:47 [compilation.py:290] Enabled custom fusions: norm_quant, act_quant (EngineCore pid=11249) INFO 04-07 11:26:56 [core.py:105] Initializing a V1 LLM engine (v0.19.0) with config: model='/mnt/d/python/qw3-8b/models/Qwen/Qwen3.5-4B', speculative_config=None, tokenizer='/mnt/d/python/qw3-8b/models/Qwen/Qwen3.5-4B', skip_tokenizer_init=False, tokenizer_mode=auto, revision=None, tokenizer_revision=None, trust_remote_code=False, dtype=torch.bfloat16, max_seq_len=8192, download_dir=None, load_format=auto, tensor_parallel_size=1, pipeline_parallel_size=1, data_parallel_size=1, decode_context_parallel_size=1, dcp_comm_backend=ag_rs, disable_custom_all_reduce=False, quantization=None, enforce_eager=True, enable_return_routed_experts=False, kv_cache_dtype=auto, device_config=cuda, structured_outputs_config=StructuredOutputsConfig(backend='auto', disable_any_whitespace=False, disable_additional_properties=False, reasoning_parser='qwen3', reasoning_parser_plugin='', enable_in_reasoning=False), observability_config=ObservabilityConfig(show_hidden_metrics_for_version=None, otlp_traces_endpoint=None, collect_detailed_traces=None, kv_cache_metrics=False, kv_cache_metrics_sample=0.01, cudagraph_metrics=False, enable_layerwise_nvtx_tracing=False, enable_mfu_metrics=False, enable_mm_processor_stats=False, enable_logging_iteration_details=False), seed=0, served_model_name=/mnt/d/python/qw3-8b/models/Qwen/Qwen3.5-4B, enable_prefix_caching=False, enable_chunked_prefill=True, pooler_config=None, compilation_config={'mode': <CompilationMode.NONE: 0>, 'debug_dump_path': None, 'cache_dir': '', 'compile_cache_save_format': 'binary', 'backend': 'inductor', 'custom_ops': ['all'], 'splitting_ops': [], 'compile_mm_encoder': False, 'cudagraph_mm_encoder': False, 'encoder_cudagraph_token_budgets': [], 'encoder_cudagraph_max_images_per_batch': 0, 'compile_sizes': [], 'compile_ranges_endpoints': [2048], 'inductor_compile_config': {'enable_auto_functionalized_v2': False, 'size_asserts': False, 'alignment_asserts': False, 'scalar_asserts': False, 'combo_kernels': True, 'benchmark_combo_kernel': True}, 'inductor_passes': {}, 'cudagraph_mode': <CUDAGraphMode.NONE: 0>, 'cudagraph_num_of_warmups': 0, 'cudagraph_capture_sizes': [], 'cudagraph_copy_inputs': False, 'cudagraph_specialize_lora': True, 'use_inductor_graph_partition': False, 'pass_config': {'fuse_norm_quant': True, 'fuse_act_quant': True, 'fuse_attn_quant': False, 'enable_sp': False, 'fuse_gemm_comms': False, 'fuse_allreduce_rms': False}, 'max_cudagraph_capture_size': 0, 'dynamic_shapes_config': {'type': <DynamicShapesType.BACKED: 'backed'>, 'evaluate_guards': False, 'assume_32_bit_indexing': False}, 'local_cache_dir': None, 'fast_moe_cold_start': True, 'static_all_moe_layers': []} (EngineCore pid=11249) WARNING 04-07 11:26:57 [interface.py:525] Using 'pin_memory=False' as WSL is detected. This may slow down the performance. (EngineCore pid=11249) INFO 04-07 11:26:57 [parallel_state.py:1400] world_size=1 rank=0 local_rank=0 distributed_init_method=tcp://172.26.194.97:56397 backend=nccl [W407 11:27:07.164358669 socket.cpp:207] [c10d] The hostname of the client socket cannot be retrieved. err=-3 (EngineCore pid=11249) INFO 04-07 11:27:07 [parallel_state.py:1716] rank 0 in world size 1 is assigned as DP rank 0, PP rank 0, PCP rank 0, TP rank 0, EP rank N/A, EPLB rank N/A (EngineCore pid=11249) INFO 04-07 11:27:10 [gpu_model_runner.py:4735] Starting to load model /mnt/d/python/qw3-8b/models/Qwen/Qwen3.5-4B... (EngineCore pid=11249) INFO 04-07 11:27:11 [cuda.py:390] Using backend AttentionBackendEnum.FLASH_ATTN for vit attention (EngineCore pid=11249) INFO 04-07 11:27:11 [mm_encoder_attention.py:230] Using AttentionBackendEnum.FLASH_ATTN for MMEncoderAttention. (EngineCore pid=11249) INFO 04-07 11:27:11 [gdn_linear_attn.py:147] Using Triton/FLA GDN prefill kernel (EngineCore pid=11249) INFO 04-07 11:27:11 [cuda.py:334] Using FLASH_ATTN attention backend out of potential backends: ['FLASH_ATTN', 'FLASHINFER', 'TRITON_ATTN', 'FLEX_ATTENTION']. (EngineCore pid=11249) INFO 04-07 11:27:11 [flash_attn.py:596] Using FlashAttention version 2 (EngineCore pid=11249) Loading safetensors checkpoint shards: 0% Completed | 0/2 [00:00<?, ?it/s] (EngineCore pid=11249) Loading safetensors checkpoint shards: 50% Completed | 1/2 [00:30<00:30, 30.35s/it] (EngineCore pid=11249) Loading safetensors checkpoint shards: 100% Completed | 2/2 [00:56<00:00, 28.15s/it] (EngineCore pid=11249) Loading safetensors checkpoint shards: 100% Completed | 2/2 [00:56<00:00, 28.48s/it] (EngineCore pid=11249) (EngineCore pid=11249) INFO 04-07 11:28:09 [default_loader.py:384] Loading weights took 58.31 seconds (EngineCore pid=11249) INFO 04-07 11:28:09 [gpu_model_runner.py:4820] Model loading took 8.61 GiB memory and 59.098428 seconds (EngineCore pid=11249) INFO 04-07 11:28:09 [gpu_model_runner.py:5753] Encoder cache will be initialized with a budget of 16384 tokens, and profiled with 1 image items of the maximum feature size. (EngineCore pid=11249) /home/cc/venv-vllm-qwen35/lib/python3.12/site-packages/vllm/model_executor/layers/fla/ops/utils.py:113: UserWarning: Input tensor shape suggests potential format mismatch: seq_len (16) < num_heads (32). This may indicate the inputs were passed in head-first format [B, H, T, ...] when head_first=False was specified. Please verify your input tensor format matches the expected shape [B, T, H, ...]. (EngineCore pid=11249) return fn(contiguous_args, contiguous_kwargs) !!!!!!! Segfault encountered !!!!!!! File "<unknown>", line 0, in llvm::SmallVectorBase<unsigned int>::grow_pod(void, unsigned long, unsigned long) File "<unknown>", line 0, in llvm::MachineInstrExpressionTrait::getHashValue(llvm::MachineInstr const const&) File "<unknown>", line 0, in llvm::MachineInstrExpressionTrait::getHashValue(llvm::MachineInstr const const&) File "<unknown>", line 0, in bool llvm::DenseMapBase<llvm::DenseMap<llvm::MachineInstr*, llvm::MachineBasicBlock*, llvm::MachineInstrExpressionTrait, llvm::detail::DenseMapPair<llvm::MachineInstr*, llvm::MachineBasicBlock*> >, llvm::MachineInstr*, llvm::MachineBasicBlock*, llvm::MachineInstrExpressionTrait, llvm::detail::DenseMapPair<llvm::MachineInstr*, llvm::MachineBasicBlock*> >::LookupBucketForllvm::MachineInstr*(llvm::MachineInstr* const&, llvm::detail::DenseMapPair<llvm::MachineInstr*, llvm::MachineBasicBlock*>&) File "<unknown>", line 0, in llvm::DenseMapBase<llvm::DenseMap<llvm::MachineInstr, llvm::MachineBasicBlock*, llvm::MachineInstrExpressionTrait, llvm::detail::DenseMapPair<llvm::MachineInstr*, llvm::MachineBasicBlock*> >, llvm::MachineInstr*, llvm::MachineBasicBlock*, llvm::MachineInstrExpressionTrait, llvm::detail::DenseMapPair<llvm::MachineInstr*, llvm::MachineBasicBlock*> >::moveFromOldBuckets(llvm::iterator_range<llvm::detail::DenseMapPair<llvm::MachineInstr*, llvm::MachineBasicBlock*>>) File "<unknown>", line 0, in llvm::DenseMap<llvm::MachineInstr, llvm::MachineBasicBlock*, llvm::MachineInstrExpressionTrait, llvm::detail::DenseMapPair<llvm::MachineInstr*, llvm::MachineBasicBlock*> >::grow(unsigned int) File "<unknown>", line 0, in llvm::detail::DenseMapPair<llvm::MachineInstr*, llvm::MachineBasicBlock*>* llvm::DenseMapBase<llvm::DenseMap<llvm::MachineInstr*, llvm::MachineBasicBlock*, llvm::MachineInstrExpressionTrait, llvm::detail::DenseMapPair<llvm::MachineInstr*, llvm::MachineBasicBlock*> >, llvm::MachineInstr*, llvm::MachineBasicBlock*, llvm::MachineInstrExpressionTrait, llvm::detail::DenseMapPair<llvm::MachineInstr*, llvm::MachineBasicBlock*> >::findBucketForInsertionllvm::MachineInstr*(llvm::MachineInstr* const&, llvm::detail::DenseMapPair<llvm::MachineInstr*, llvm::MachineBasicBlock*>) File "<unknown>", line 0, in (anonymous namespace)::MachineCSEImpl::run(llvm::MachineFunction&) File "<unknown>", line 0, in (anonymous namespace)::MachineCSELegacy::runOnMachineFunction(llvm::MachineFunction&) File "<unknown>", line 0, in llvm::MachineFunctionPass::runOnFunction(llvm::Function&) File "<unknown>", line 0, in llvm::FPPassManager::runOnFunction(llvm::Function&) File "<unknown>", line 0, in llvm::FPPassManager::runOnModule(llvm::Module&) File "<unknown>", line 0, in llvm::legacy::PassManagerImpl::run(llvm::Module&) File "/project/python/src/llvm.cc", line 371, in translateLLVMIRToASM(llvm::Module&, std::__cxx11::basic_string<char, std::char_traits<char>, std::allocator<char> > const&, std::__cxx11::basic_string<char, std::char_traits<char>, std::allocator<char> > const&, std::__cxx11::basic_string<char, std::char_traits<char>, std::allocator<char> > const&, std::vector<std::__cxx11::basic_string<char, std::char_traits<char>, std::allocator<char> >, std::allocator<std::_cxx11::basic_string<char, std::char_traits<char>, std::allocator<char> > > > const&, bool, bool) File "/project/python/src/llvm.cc", line 674, in init_triton_llvm(pybind11::module&&)::$_14::operator()(std::__cxx11::basic_string<char, std::char_traits<char>, std::allocator<char> >, std::__cxx11::basic_string<char, std::char_traits<char>, std::allocator<char> >, std::__cxx11::basic_string<char, std::char_traits<char>, std::allocator<char> >, std::__cxx11::basic_string<char, std::char_traits<char>, std::allocator<char> >, std::vector<std::__cxx11::basic_string<char, std::char_traits<char>, std::allocator<char> >, std::allocator<std::__cxx11::basic_string<char, std::char_traits<char>, std::allocator<char> > > >, bool, bool) const File "/tmp/build-env-3wsfqmws/lib/python3.12/site-packages/pybind11/include/pybind11/cast.h", line 2137, in pybind11::object pybind11::detail::argument_loader<std::__cxx11::basic_string<char, std::char_traits<char>, std::allocator<char> >, std::__cxx11::basic_string<char, std::char_traits<char>, std::allocator<char> >, std::__cxx11::basic_string<char, std::char_traits<char>, std::allocator<char> >, std::__cxx11::basic_string<char, std::char_traits<char>, std::allocator<char> >, std::vector<std::__cxx11::basic_string<char, std::char_traits<char>, std::allocator<char> >, std::allocator<std::_cxx11::basic_string<char, std::char_traits<char>, std::allocator<char> > > >, bool, bool>::call_impl<pybind11::object, init_triton_llvm(pybind11::module&&)::$14&, 0ul, 1ul, 2ul, 3ul, 4ul, 5ul, 6ul, pybind11::detail::void_type>(init_triton_llvm(pybind11::module&&)::$_14&, std::integer_sequence<unsigned long, 0ul, 1ul, 2ul, 3ul, 4ul, 5ul, 6ul>, pybind11::detail::void_type&&) && File "/tmp/build-env-3wsfqmws/lib/python3.12/site-packages/pybind11/include/pybind11/cast.h", line 2105, in std::enable_if<!std::is_void<pybind11::object>::value, pybind11::object>::type pybind11::detail::argument_loader<std::__cxx11::basic_string<char, std::char_traits<char>, std::allocator<char> >, std::__cxx11::basic_string<char, std::char_traits<char>, std::allocator<char> >, std::__cxx11::basic_string<char, std::char_traits<char>, std::allocator<char> >, std::__cxx11::basic_string<char, std::char_traits<char>, std::allocator<char> >, std::vector<std::__cxx11::basic_string<char, std::char_traits<char>, std::allocator<char> >, std::allocator<std::_cxx11::basic_string<char, std::char_traits<char>, std::allocator<char> > > >, bool, bool>::call<pybind11::object, pybind11::detail::void_type, init_triton_llvm(pybind11::module&&)::$14&>(init_triton_llvm(pybind11::module&&)::$14&) && File "/tmp/build-env-3wsfqmws/lib/python3.12/site-packages/pybind11/include/pybind11/pybind11.h", line 430, in pybind11::cpp_function::initialize<init_triton_llvm(pybind11::module&&)::$_14, pybind11::object, std::__cxx11::basic_string<char, std::char_traits<char>, std::allocator<char> >, std::__cxx11::basic_string<char, std::char_traits<char>, std::allocator<char> >, std::__cxx11::basic_string<char, std::char_traits<char>, std::allocator<char> >, std::__cxx11::basic_string<char, std::char_traits<char>, std::allocator<char> >, std::vector<std::__cxx11::basic_string<char, std::char_traits<char>, std::allocator<char> >, std::allocator<std::_cxx11::basic_string<char, std::char_traits<char>, std::allocator<char> > > >, bool, bool, pybind11::name, pybind11::scope, pybind11::sibling, pybind11::return_value_policy>(init_triton_llvm(pybind11::module&&)::$_14&&, pybind11::object ()(std::__cxx11::basic_string<char, std::char_traits<char>, std::allocator<char> >, std::__cxx11::basic_string<char, std::char_traits<char>, std::allocator<char> >, std::__cxx11::basic_string<char, std::char_traits<char>, std::allocator<char> >, std::__cxx11::basic_string<char, std::char_traits<char>, std::allocator<char> >, std::vector<std::__cxx11::basic_string<char, std::char_traits<char>, std::allocator<char> >, std::allocator<std::_cxx11::basic_string<char, std::char_traits<char>, std::allocator<char> > > >, bool, bool), pybind11::name const&, pybind11::scope const&, pybind11::sibling const&, pybind11::return_value_policy const&)::{lambda(pybind11::detail::function_call&)#1}::operator()(pybind11::detail::function_call&) const File "/tmp/build-env-3wsfqmws/lib/python3.12/site-packages/pybind11/include/pybind11/pybind11.h", line 400, in pybind11::cpp_function::initialize<init_triton_llvm(pybind11::module&&)::$_14, pybind11::object, std::__cxx11::basic_string<char, std::char_traits<char>, std::allocator<char> >, std::__cxx11::basic_string<char, std::char_traits<char>, std::allocator<char> >, std::__cxx11::basic_string<char, std::char_traits<char>, std::allocator<char> >, std::__cxx11::basic_string<char, std::char_traits<char>, std::allocator<char> >, std::vector<std::__cxx11::basic_string<char, std::char_traits<char>, std::allocator<char> >, std::allocator<std::_cxx11::basic_string<char, std::char_traits<char>, std::allocator<char> > > >, bool, bool, pybind11::name, pybind11::scope, pybind11::sibling, pybind11::return_value_policy>(init_triton_llvm(pybind11::module&&)::$_14&&, pybind11::object ()(std::__cxx11::basic_string<char, std::char_traits<char>, std::allocator<char> >, std::__cxx11::basic_string<char, std::char_traits<char>, std::allocator<char> >, std::__cxx11::basic_string<char, std::char_traits<char>, std::allocator<char> >, std::__cxx11::basic_string<char, std::char_traits<char>, std::allocator<char> >, std::vector<std::__cxx11::basic_string<char, std::char_traits<char>, std::allocator<char> >, std::allocator<std::__cxx11::basic_string<char, std::char_traits<char>, std::allocator<char> > > >, bool, bool), pybind11::name const&, pybind11::scope const&, pybind11::sibling const&, pybind11::return_value_policy const&)::{lambda(pybind11::detail::function_call&)#1}::__invoke(pybind11::detail::function_call&) File "/tmp/build-env-3wsfqmws/lib/python3.12/site-packages/pybind11/include/pybind11/pybind11.h", line 1063, in pybind11::cpp_function::dispatcher(_object, _object*, _object*) File "<unknown>", line 0, in _PyObject_MakeTpCall File "<unknown>", line 0, in _PyEval_EvalFrameDefault File "<unknown>", line 0, in PyObject_Call File "<unknown>", line 0, in _PyEval_EvalFrameDefault File "<unknown>", line 0, in PyObject_Call File "<unknown>", line 0, in _PyEval_EvalFrameDefault File "<unknown>", line 0, in PyObject_Call File "<unknown>", line 0, in _PyEval_EvalFrameDefault File "<unknown>", line 0, in PyObject_Call File "<unknown>", line 0, in _PyEval_EvalFrameDefault File "<unknown>", line 0, in (anonymous namespace)::THPFunction_apply(_object*, _object*) File "<unknown>", line 0, in PyObject_Call File "<unknown>", line 0, in _PyEval_EvalFrameDefault File "<unknown>", line 0, in PyObject_Call File "<unknown>", line 0, in _PyEval_EvalFrameDefault File "<unknown>", line 0, in PyObject_Call File "<unknown>", line 0, in _PyEval_EvalFrameDefault File "<unknown>", line 0, in PyObject_Call File "<unknown>", line 0, in _PyEval_EvalFrameDefault File "<unknown>", line 0, in _PyObject_Call_Prepend File "<unknown>", line 0, in _PyObject_MakeTpCall File "<unknown>", line 0, in _PyEval_EvalFrameDefault File "<unknown>", line 0, in pybind11::object pybind11::detail::object_apipybind11::handle::operator()<(pybind11::return_value_policy)1, pybind11::detail::args_proxy, pybind11::detail::kwargs_proxy>(pybind11::detail::args_proxy&&, pybind11::detail::kwargs_proxy&&) const File "<unknown>", line 0, in torch::impl::dispatch::PythonKernelHolder::operator()(c10::OperatorHandle const&, c10::DispatchKeySet, std::vector<c10::IValue, std::allocatorc10::IValue >) File "<unknown>", line 0, in c10::Dispatcher::callBoxed(c10::OperatorHandle const&, std::vector<c10::IValue, std::allocatorc10::IValue >) const [clone .isra.0] File "<unknown>", line 0, in torch::jit::invokeOperatorFromPython(c10::ArrayRef<std::shared_ptrtorch::jit::Operator >, pybind11::args const&, pybind11::kwargs const&, std::optionalc10::DispatchKey) File "<unknown>", line 0, in torch::jit::_get_operation_for_overload_or_packet(c10::ArrayRef<std::shared_ptrtorch::jit::Operator >, c10::Symbol, pybind11::args const&, pybind11::kwargs const&, bool, std::optionalc10::DispatchKey) File "<unknown>", line 0, in torch::jit::_get_operation_for_overload_or_packet(std::vector<std::shared_ptrtorch::jit::Operator, std::allocator<std::shared_ptrtorch::jit::Operator > > const&, c10::Symbol, pybind11::args const&, pybind11::kwargs const&, bool, std::optionalc10::DispatchKey) File "<unknown>", line 0, in pybind11::cpp_function::initialize<torch::jit::initJITBindings(_object*)::{lambda(std::__cxx11::basic_string<char, std::char_traits<char>, std::allocator<char> > const&)#2}::operator()(std::__cxx11::basic_string<char, std::char_traits<char>, std::allocator<char> > const&) const::{lambda(pybind11::args const&, pybind11::kwargs const&)#1}, pybind11::object, pybind11::args const&, pybind11::kwargs const&, pybind11::name, pybind11::doc>(torch::jit::initJITBindings(_object*)::{lambda(std::__cxx11::basic_string<char, std::char_traits<char>, std::allocator<char> > const&)#2}::operator()(std::__cxx11::basic_string<char, std::char_traits<char>, std::allocator<char> > const&) const::{lambda(pybind11::args const&, pybind11::kwargs const&)#1}&&, pybind11::object ()(pybind11::args const&, pybind11::kwargs const&), pybind11::name const&, pybind11::doc const&)::{lambda(pybind11::detail::function_call&)#1}::_FUN(pybind11::detail::function_call&) File "<unknown>", line 0, in pybind11::cpp_function::dispatcher(_object, _object*, _object*) File "<unknown>", line 0, in PyObject_Call File "<unknown>", line 0, in _PyEval_EvalFrameDefault File "<unknown>", line 0, in _PyObject_Call_Prepend File "<unknown>", line 0, in _PyObject_MakeTpCall File "<unknown>", line 0, in _PyEval_EvalFrameDefault File "<unknown>", line 0, in PyObject_Call File "<unknown>", line 0, in _PyEval_EvalFrameDefault File "<unknown>", line 0, in PyObject_Call File "<unknown>", line 0, in _PyEval_EvalFrameDefault File "<unknown>", line 0, in _PyObject_Call_Prepend File "<unknown>", line 0, in _PyObject_MakeTpCall File "<unknown>", line 0, in _PyEval_EvalFrameDefault File "<unknown>", line 0, in PyObject_Call File "<unknown>", line 0, in _PyEval_EvalFrameDefault File "<unknown>", line 0, in PyObject_Call File "<unknown>", line 0, in _PyEval_EvalFrameDefault File "<unknown>", line 0, in _PyObject_Call_Prepend File "<unknown>", line 0, in _PyObject_MakeTpCall File "<unknown>", line 0, in _PyEval_EvalFrameDefault File "<unknown>", line 0, in PyObject_Call File "<unknown>", line 0, in _PyEval_EvalFrameDefault File "<unknown>", line 0, in _PyObject_Call_Prepend File "<unknown>", line 0, in _PyObject_MakeTpCall File "<unknown>", line 0, in _PyEval_EvalFrameDefault File "<unknown>", line 0, in PyObject_Call File "<unknown>", line 0, in _PyEval_EvalFrameDefault File "<unknown>", line 0, in PyObject_Call File "<unknown>", line 0, in _PyEval_EvalFrameDefault File "<unknown>", line 0, in _PyObject_Call_Prepend File "<unknown>", line 0, in PyObject_Call File "<unknown>", line 0, in _PyEval_EvalFrameDefault File "<unknown>", line 0, in _PyEval_EvalFrameDefault File "<unknown>", line 0, in _PyObject_Call_Prepend File "<unknown>", line 0, in PyObject_Call File "<unknown>", line 0, in _PyEval_EvalFrameDefault File "<unknown>", line 0, in PyEval_EvalCode File "<unknown>", line 0, in PyRun_StringFlags File "<unknown>", line 0, in PyRun_SimpleStringFlags File "<unknown>", line 0, in Py_RunMain File "<unknown>", line 0, in Py_BytesMain File "<unknown>", line 0, in _start File "<unknown>", line 0, in 0xffffffffffffffff

Code Example

vllm serve /mnt/d/python/qw3-8b/models/Qwen/Qwen3.5-4B \
  --host 0.0.0.0 --port 8000 \
  --dtype auto \
  --max-model-len 8192 \
  --gpu-memory-utilization 0.88 \
  --tensor-parallel-size 1 \
  --reasoning-parser qwen3 \
  --enforce-eager

RAW_BUFFERClick to expand / collapse

Your current environment

/home/cc/venv-vllm-qwen35/lib/python3.12/site-packages/vllm/collect_env.py Collecting environment information...

    System Info

============================== OS : Ubuntu 24.04.3 LTS (x86_64) GCC version : (Ubuntu 13.3.0-6ubuntu2~24.04.1) 13.3.0 Clang version : Could not collect CMake version : Could not collect Libc version : glibc-2.39

============================== PyTorch Info

PyTorch version : 2.10.0+cu128 Is debug build : False CUDA used to build PyTorch : 12.8 ROCM used to build PyTorch : N/A

============================== Python Environment

Python version : 3.12.3 (main, Mar 3 2026, 12:15:18) [GCC 13.3.0] (64-bit runtime) Python platform : Linux-6.6.87.2-microsoft-standard-WSL2-x86_64-with-glibc2.39

============================== CUDA / GPU Info

Is CUDA available : True CUDA runtime version : 12.6.85 CUDA_MODULE_LOADING set to : GPU models and configuration : GPU 0: NVIDIA GeForce RTX 4090 Laptop GPU Nvidia driver version : 595.97 cuDNN version : Could not collect HIP runtime version : N/A MIOpen runtime version : N/A Is XNNPACK available : True

============================== CPU Info

============================== Versions of relevant libraries

[pip3] flashinfer-python==0.6.6 [pip3] numpy==2.2.6 [pip3] nvidia-cublas-cu12==12.8.4.1 [pip3] nvidia-cuda-cupti-cu12==12.8.90 [pip3] nvidia-cuda-nvrtc-cu12==12.8.93 [pip3] nvidia-cuda-runtime-cu12==12.8.90 [pip3] nvidia-cudnn-cu12==9.10.2.21 [pip3] nvidia-cudnn-frontend==1.18.0 [pip3] nvidia-cufft-cu12==11.3.3.83 [pip3] nvidia-cufile-cu12==1.13.1.3 [pip3] nvidia-curand-cu12==10.3.9.90 [pip3] nvidia-cusolver-cu12==11.7.3.90 [pip3] nvidia-cusparse-cu12==12.5.8.93 [pip3] nvidia-cusparselt-cu12==0.7.1 [pip3] nvidia-cutlass-dsl==4.4.2 [pip3] nvidia-cutlass-dsl-libs-base==4.4.2 [pip3] nvidia-ml-py==13.595.45 [pip3] nvidia-nccl-cu12==2.27.5 [pip3] nvidia-nvjitlink-cu12==12.8.93 [pip3] nvidia-nvshmem-cu12==3.4.5 [pip3] nvidia-nvtx-cu12==12.8.90 [pip3] pyzmq==27.1.0 [pip3] torch==2.10.0 [pip3] torch_c_dlpack_ext==0.1.5 [pip3] torchaudio==2.10.0 [pip3] torchvision==0.25.0 [pip3] transformers==4.57.6 [pip3] triton==3.6.0 [conda] Could not collect

============================== vLLM Info

ROCM Version : Could not collect vLLM Version : 0.19.0 vLLM Build Flags: CUDA Archs: Not Set; ROCm: Disabled GPU Topology: GPU0 CPU Affinity NUMA Affinity GPU NUMA ID GPU0 X N/A

Legend:

X = Self SYS = Connection traversing PCIe as well as the SMP interconnect between NUMA nodes (e.g., QPI/UPI) NODE = Connection traversing PCIe as well as the interconnect between PCIe Host Bridges within a NUMA node PHB = Connection traversing PCIe as well as a PCIe Host Bridge (typically the CPU) PXB = Connection traversing multiple PCIe bridges (without traversing the PCIe Host Bridge) PIX = Connection traversing at most a single PCIe bridge NV# = Connection traversing a bonded set of # NVLinks

============================== Environment Variables

PYTORCH_NVML_BASED_CUDA_CHECK=1 TORCHINDUCTOR_CACHE_DIR=/tmp/torchinductor_cc TORCHINDUCTOR_COMPILE_THREADS=1 CUDA_HOME=/usr/local/cuda CUDA_HOME=/usr/local/cuda

🐛 Describe the bug

Running vLLM 0.19.0 with Qwen3.5-4B (GDN linear attention) on RTX 4090 (SM89) under WSL2, the engine core crashes with segfault during initialization / first compilation of GDN-related Triton kernels. The log shows a Triton → LLVM failure (e.g. LLVM passes like MachineCSE, translateLLVMIRToASM), leading to:

RuntimeError: Engine core initialization failed

VLLM_USE_V1=0 does not help on vLLM 0.15+ (V1-only engine; see project discussion around engine selection).

Minimal reproduction / command

vllm serve /mnt/d/python/qw3-8b/models/Qwen/Qwen3.5-4B \
  --host 0.0.0.0 --port 8000 \
  --dtype auto \
  --max-model-len 8192 \
  --gpu-memory-utilization 0.88 \
  --tensor-parallel-size 1 \
  --reasoning-parser qwen3 \
  --enforce-eager

Environment: WSL2, Ubuntu, CUDA from nvidia-smi / CUDA_HOME as in collect_env.py below.

Expected behavior Server starts and serves requests without crashing on SM89.

Actual behavior Engine core process segfaults; API server reports engine core initialization failure. Full stderr around !!!!!!! Segfault encountered !!!!!!! attached below.

Additional context GPU: NVIDIA RTX 4090, compute capability 8.9 (SM89) Related upstream report (Triton): Notes for maintainers Suspected Triton compiler / LLVM backend issue triggered by Qwen3.5 GDN prefill Triton kernels on this platform; may need coordination with Triton project.

Before submitting a new issue...

Make sure you already searched for relevant issues, and asked the chatbot living at the bottom right corner of the documentation page, which can answer lots of frequently asked questions.

extent analysis

TL;DR

The issue is likely related to a Triton compiler or LLVM backend issue triggered by Qwen3.5 GDN prefill Triton kernels on the NVIDIA RTX 4090 platform, and may require coordination with the Triton project to resolve.

Guidance

Verify that the issue is specific to the Qwen3.5 model and the RTX 4090 GPU by testing other models and GPUs.
Check the Triton compiler and LLVM backend versions for any known issues or updates that may resolve the problem.
Consider reaching out to the Triton project for assistance with debugging and resolving the issue.
Review the stack trace and logs to identify any specific error messages or patterns that may indicate the root cause of the issue.

Example

No specific code example is provided, as the issue appears to be related to a compiler or backend issue rather than a code error.

Notes

The issue may be specific to the combination of the Qwen3.5 model, RTX 4090 GPU, and Triton compiler/LLVM backend, and may require coordination with the Triton project to resolve. Additionally, the issue may be related to a known issue or bug in the Triton compiler or LLVM backend, and checking for updates or patches may be necessary.

Recommendation

Apply a workaround by using a different model or GPU, or by disabling the GDN prefill Triton kernels, until the issue can be resolved with the assistance of the Triton project.

Vote matrix · Quick signals

Works

Did the solution work? Tap to confirm.

Easy Fix

Was it a quick fix?

Time Saver

Did it save you time?

Blocking

Was it severely blocking?

Common Issue

Are others likely hitting this too?

Flaky / Intermittent

Is it intermittent?

Verified / Reproducible

Can you reproduce it reliably?

#api #tensor shape #optimization #model loading #environment variable

Still need to ship something?

×6

Another batch ranked right after the header list — different links, same matching logic.

Data

Security

Network

Code

UI/UX

Text

System

Multimedia

Protocol

API

Engineering

vllm - 💡(How to fix) Fix [Bug]: Segfault in Triton LLVM (MachineCSE / translateLLVMIRToASM) when serving Qwen3.5-4B on RTX 4090 (WSL2) with vLLM 0.19.0 [1 comments, 1 participants]

Recommended Tools

GitHub issue graph ai analysis

Error Message

Root Cause

Fix Action

Fix / Workaround

============================== CPU Info

Code Example

Your current environment

/home/cc/venv-vllm-qwen35/lib/python3.12/site-packages/vllm/collect_env.py Collecting environment information...

============================== PyTorch Info

============================== Python Environment

============================== CUDA / GPU Info

============================== CPU Info

============================== Versions of relevant libraries

============================== vLLM Info

============================== Environment Variables

🐛 Describe the bug

Minimal reproduction / command

Before submitting a new issue...

extent analysis

TL;DR

Guidance

Example

Notes

Recommendation

Still need to ship something?

TRENDING

vllm - 💡(How to fix) Fix [Bug]: Segfault in Triton LLVM (MachineCSE / translateLLVMIRToASM) when serving Qwen3.5-4B on RTX 4090 (WSL2) with vLLM 0.19.0 [1 comments, 1 participants]

Recommended Tools

GitHub issue graph ai analysis

Error Message

Root Cause

Fix Action

Fix / Workaround

============================== CPU Info

Code Example

Your current environment

/home/cc/venv-vllm-qwen35/lib/python3.12/site-packages/vllm/collect_env.py Collecting environment information...

============================== PyTorch Info

============================== Python Environment

============================== CUDA / GPU Info

============================== CPU Info

============================== Versions of relevant libraries

============================== vLLM Info

============================== Environment Variables

🐛 Describe the bug

Minimal reproduction / command

Before submitting a new issue...

extent analysis

TL;DR

Guidance

Example

Notes

Recommendation

Still need to ship something?

RELATED_DISCOVERY

TRENDING