Inference Optimization

community

AI & ML interests

None defined yet.

Recent Activity

krishnateja95 updated a model 2 days ago

inference-optimization/NVIDIA-Nemotron-3-Nano-30B-A3B-FP8

krishnateja95 updated a model 2 days ago

inference-optimization/NVIDIA-Nemotron-3-Nano-30B-A3B-BF16

krishnateja95 updated a model 2 days ago

inference-optimization/Qwen3-Next-80B-A3B-Thinking-FP8

View all activity

inference-optimization 's models 47

inference-optimization/NVIDIA-Nemotron-3-Nano-30B-A3B-FP8

Text Generation • 32B • Updated 2 days ago • 6

inference-optimization/NVIDIA-Nemotron-3-Nano-30B-A3B-BF16

Text Generation • 32B • Updated 2 days ago • 6

inference-optimization/Qwen3-Next-80B-A3B-Thinking-FP8

Text Generation • 81B • Updated 2 days ago • 5

inference-optimization/Qwen3-Next-80B-A3B-Thinking

Text Generation • 81B • Updated 2 days ago • 2

inference-optimization/Qwen3-Next-80B-A3B-Instruct-FP8

Text Generation • 81B • Updated 2 days ago • 4

inference-optimization/Qwen3-Next-80B-A3B-Instruct

Text Generation • 81B • Updated 2 days ago • 2

inference-optimization/NVIDIA-Nemotron-3-Nano-30B-A3B-quantized.w4a16

6B • Updated 4 days ago • 13

inference-optimization/NVIDIA-Nemotron-3-Nano-30B-A3B-NVFP4

18B • Updated 5 days ago • 46

inference-optimization/NVIDIA-Nemotron-3-Nano-30B-A3B-FP8-dynamic

32B • Updated 6 days ago • 75

inference-optimization/Qwen3-Next-80B-A3B-Thinking-FP8-block

Text Generation • 80B • Updated 6 days ago • 61

inference-optimization/Qwen3-Next-80B-A3B-Instruct-FP8-block

Text Generation • 80B • Updated 6 days ago • 101

inference-optimization/Qwen3-Next-80B-A3B-Instruct-quantized.w4a16

Updated 6 days ago • 60

inference-optimization/Qwen3-Next-80B-A3B-Instruct-FP8-dynamic

Text Generation • 80B • Updated 6 days ago • 126

inference-optimization/Qwen3-Next-80B-A3B-Thinking-NVFP4

Text Generation • Updated 6 days ago • 30

inference-optimization/Qwen3-Next-80B-A3B-Instruct-NVFP4

Text Generation • Updated 6 days ago • 35

inference-optimization/Qwen3-Next-80B-A3B-Thinking-FP8-dynamic

Text Generation • 80B • Updated 6 days ago • 120

inference-optimization/Qwen3-Next-80B-A3B-Thinking-quantized.w4a16

Updated 16 days ago • 62

inference-optimization/Qwen3-Next-80B-A3B-Thinking-quantized.w8a8

Updated 18 days ago

inference-optimization/NVIDIA-Nemotron-3-Nano-30B-A3B-FP8-block

Updated 20 days ago

inference-optimization/GLM-4.6-quantized.w8a8

353B • Updated 22 days ago • 96

inference-optimization/GLM-4.6-quantized.w4a16

48B • Updated 23 days ago • 148

inference-optimization/Qwen3-30B-A3B-Thinking-2507.w4a16

Text Generation • 5B • Updated 23 days ago • 9

inference-optimization/Qwen3-4B-Instruct-2507.w4a16

Text Generation • 1B • Updated 23 days ago • 11

inference-optimization/Qwen3-4B-Thinking-2507.w4a16

Text Generation • 1B • Updated 23 days ago • 96

inference-optimization/GLM-4.6-FP8-dynamic

353B • Updated about 1 month ago • 66

inference-optimization/Llama-3.1-8B-Instruct-FP8-dynamic-QKV-Cache-FP8-Per-Head

8B • Updated Dec 11, 2025 • 1

inference-optimization/Llama-3.1-8B-Instruct-QKV-Cache-FP8-Per-Head

8B • Updated Dec 10, 2025 • 1

inference-optimization/Qwen3-Next-80B-A3B-Instruct-quantized.w8a8

Updated Dec 9, 2025

inference-optimization/Llama-3.1-8B-Instruct-HIGGS-quantized-paths

Updated Dec 8, 2025

inference-optimization/Llama-3.1-8B-Instruct-Mixed-NVFP4-FP8_DYNAMIC-gate_up_proj-all

7B • Updated Dec 4, 2025 • 1