Term

vLLM

別名: vLLM

Overview

PagedAttentionなどの技術を用いて、大規模言語モデルの推論スループットを最大化するためのオープンソースライブラリ。TPU 8iなどのハードウェア上で効率的に動作するようサポートされている。

Mentioned Articles

9 件

テクノロジー
AMD製GPUで学習させた推論特化型軽量モデル「ZAYA1-8B」がリリース：NVIDIA一強体制への挑戦とAMDハードウェアの実用性

米Zyphraは、AMD Instinct MI300のみでフルスタック学習させた80億パラメータの推論モデル「ZAYA1-8B」を公開した。独自のアーキテクチャと推論時計算手法「Markovian RSA」により、大手モデルに匹敵する数理・コーディング性能を達成し、Apache 2.0ライセンスで商用利用を促進する。

2026年5月8日 9 分で読める
テクノロジー
Google、Gemma 4向けに推論速度を最大3倍向上させるMTP(Multi-Token Prediction)ドラフトモデルを公開

Googleは、Gemma 4の推論を最大3倍高速化するMulti-Token Prediction対応ドラフトモデルを公開した。このモデルは、投機的デコード技術によりトークン生成と検証を分離し、VRAM帯域幅のボトルネックを解消することで、エッジデバイスやローカルPCでの推論品質を低下させることなく大幅に改善する。

2026年5月6日
テクノロジー
Google、第8世代TPU「8t / 8i」を発表：「エージェントAI時代」に向けた学習・推論アーキテクチャの分離戦略

Googleは、AIエージェントの台頭によるインフラ要求の変化に対応するため、第8世代TPUで学習特化の「TPU 8t」と推論特化の「TPU 8i」という2つの独立したチップを導入した。これにより、フロンティアモデルの学習時間短縮と低遅延推論を実現し、用途特化によるパフォーマンスと電力効率の最大化を追求している。

2026年4月23日
テクノロジー
Triton比6倍超の性能を30行で：MetaのHelionがAIカーネルの標準へ

カーネル最適化は長年、GPUプログラミングの深い知識を持つ一握りの専門家が支配してきた領域だ。NVIDIAのCUDAでAttentionカーネルを書けば数千行に及び、2019年にOpenAIが発表したTritonで約12 […]

2026年4月10日 7 分で読める
テクノロジー
OpenAI、脆弱性の発見から修正案作成まで担う「Codex Security」を研究プレビューで提供開始

OpenAIは3月5日、アプリケーションセキュリティ向けエージェント「Codex Security」を発表した。ChatGPT Pro、Enterprise、Business、Eduの顧客向けに、CodexのWebインタ […]

2026年3月7日 4 分で読める
テクノロジー
Zhipu AI「GLM-4.7」シリーズ徹底解剖：30B級最強の「Flash」と進化する「思考するAI」が描く、ローカルLLMの新たな地平

2026年1月20日、中国の有力AI企業であるZhipu AI（Z.ai）は、オープンソースとオープンサイエンスの精神を掲げ、既に発表していた新たな言語モデルシリーズ「GLM-4.7」に続き、その軽量版である「GLM-4 […]

2026年1月20日 8 分で読める
テクノロジー
Google「FunctionGemma」が告げるエージェントAIの民主化：なぜ270Mの超軽量モデルが「スマホの頭脳」を変えるのか

Googleは同社の軽量言語モデルファミリー「Gemma」の最新ラインナップとして、「FunctionGemma」をリリースした。パラメータ数わずか2億7000万（270M）という、現代のLLM（大規模言語モデル）の基 […]

2025年12月20日
テクノロジー
逆風下のIntelが動く：Linuxカーネルエンジニア採用再開の真意と、提示された「年収4,200万円」の戦略的価値

2025年に向けたホリデーシーズンが近づく中、半導体業界の巨人Intelから興味深い動きが観測された。過去1年間にわたる大規模な人員削減と構造改革の嵐の中で、同社がLinuxカーネルエンジニアの新規採用に乗り出したのだ。 […]

2025年12月1日 8 分で読める
テクノロジー
Red Hatが生成AI開発プラットフォームとなる「RHEL AI」の開発者プレビューを発表

Red Hat Enterprise Linux（RHEL）の開発元であるRed Hatは、親会社であるIBMの開発するオープンソースAIモデル「Granite」をシームレスに開発、テスト、実行するための基盤モデル・プラ […]

2024年5月8日

External Mentions

10 件

Hacker News KVarN: Native vLLM backend for KV-cache quantization by Huawei
▲ 143 theanonymousone 2026年6月4日
Hacker News Show HN: Tiny-vLLM – high performance LLM inference engine in C++ and CUDA
▲ 204 yu3zhou4 2026年5月29日
Hacker News Eagle 3.1: Collaboration Between the EAGLE Team, vLLM Team, and TorchSpec Team
▲ 69 berlianta 2026年5月26日
Hacker News Surpassing vLLM with a Generated Inference Stack
▲ 62 lukebechtel 2026年3月10日
Hacker News Nano-vLLM: How a vLLM-style inference engine works
▲ 271 yz-yu 2026年2月2日
Hacker News Ask HN: What's the current best local/open speech-to-speech setup?
▲ 265 dsrtslnd23 2026年1月23日
Hacker News vLLM large scale serving: DeepSeek 2.2k tok/s/h200 with wide-ep
▲ 147 robertnishihara 2026年1月13日
Hacker News Life of an inference request (vLLM V1): How LLMs are served efficiently at scale
▲ 175 samaysharma 2025年6月28日
Hacker News Nano-Vllm: Lightweight vLLM implementation built from scratch
▲ 125 simonpure 2025年6月23日
Hacker News vLLM: Easy, Fast, and Cheap LLM Serving with PagedAttention
▲ 295 wskwon 2023年6月20日

vLLM

Overview

Mentioned Articles

AMD製GPUで学習させた推論特化型軽量モデル「ZAYA1-8B」がリリース：NVIDIA一強体制への挑戦とAMDハードウェアの実用性

Google、Gemma 4向けに推論速度を最大3倍向上させるMTP(Multi-Token Prediction)ドラフトモデルを公開

Google、第8世代TPU「8t / 8i」を発表：「エージェントAI時代」に向けた学習・推論アーキテクチャの分離戦略

Triton比6倍超の性能を30行で：MetaのHelionがAIカーネルの標準へ

OpenAI、脆弱性の発見から修正案作成まで担う「Codex Security」を研究プレビューで提供開始

Zhipu AI「GLM-4.7」シリーズ徹底解剖：30B級最強の「Flash」と進化する「思考するAI」が描く、ローカルLLMの新たな地平

Google「FunctionGemma」が告げるエージェントAIの民主化：なぜ270Mの超軽量モデルが「スマホの頭脳」を変えるのか

逆風下のIntelが動く：Linuxカーネルエンジニア採用再開の真意と、提示された「年収4,200万円」の戦略的価値

Red Hatが生成AI開発プラットフォームとなる「RHEL AI」の開発者プレビューを発表

External Mentions