Створення універсального рівня висновків AI! Як відкритий проект vLLM стає амбіційним планом глобального рушія висновків?

2026-01-23 08:14:24

Генерація анотацій у процесі

Зі швидким розвитком моделей штучного інтелекту, ефективне виконання (Inference) цих великих моделей стає ключовою проблемою для галузі. Відкритий проект vLLM з UC Berkeley не лише активно протистоїть цій технічній виклику, а й поступово створює свою спільноту та екосистему, навіть сприяючи появі нових стартапів, таких як Inferact, що зосереджені на інфраструктурі для виконання. У цій статті ми детально розглянемо походження vLLM, технічні прориви, розвиток відкритої спільноти та як Inferact прагне створити «універсальний двигун для AI inference».\n\nВід академічних досліджень до зіркового проекту на GitHub: народження vLLM\n\nСпочатку vLLM виник у рамках дослідницького проекту докторантури в UC Berkeley, спрямованого на вирішення проблем низької ефективності inference великих мовних моделей (LLM). Тоді Meta відкрила OPT модель, а один із ранніх внесків у проект vLLM, Woosuk Kwon, намагався оптимізувати демонстраційний сервіс цієї моделі, що привело його до відкриття ще однієї невирішеної проблеми системи inference. «Ми думали, що зможемо завершити за кілька тижнів, але це відкрила новий шлях для досліджень і розробки», — згадує Kwon.\n\nВиклики знизу вгору: чому inference LLM відрізняється від традиційного ML?\n\nvLLM орієнтований на автогресивні (auto-regressive) мовні моделі, процес inference яких є динамічним, асинхронним і не піддається пакетній обробці, що суттєво відрізняється від традиційних моделей обробки зображень або звуку. Вхідна довжина таких моделей може коливатися від однієї фрази до сотень сторінок документів, при цьому потрібно точно розподіляти пам’ять GPU, а обчислювальні кроки (token-level scheduling) та управління пам’яттю (KV cache handling) стають особливо складними.\n\nОдним із важливих технічних проривів vLLM є «Page Attention», ця концепція допомагає системі ефективніше керувати пам’яттю та справлятися з різноманітними запитами і довгими послідовностями виходу.\n\nЦе не просто програмування: ключовий момент у виході з університету до відкритої спільноти\n\nУ 2023 році команда vLLM провела перший meetup з відкритим кодом у Силіконовій долині. Спочатку очікували, що збереться близько десяти учасників, але кількість зареєстрованих перевищила очікування, і зал був переповнений, що стало переломним моментом у розвитку спільноти.\n\nЗ того часу спільнота vLLM швидко зросла: наразі понад 50 постійних внесків, і понад 2000 учасників внесків на GitHub, що робить її однією з найшвидше зростаючих відкритих платформ, підтримуваною такими компаніями, як Meta, Red Hat, NVIDIA, AMD, AWS, Google та іншими.\n\nКонкуренція з різних сил: створення «операційної системи для AI»\n\nОдним із ключових факторів успіху vLLM є створення спільної платформи для розробників моделей, виробників чіпів і застосунків, що дозволяє уникнути складних інтеграцій — достатньо підключитися до vLLM, щоб забезпечити максимальну сумісність моделей і апаратного забезпечення.\n\nЦе означає, що vLLM прагне створити «операційну систему для AI»: щоб усі моделі та апаратне забезпечення могли працювати на одному універсальному двигуні inference.\n\nЗростаючі виклики inference? Триєдині тиски масштабів, апаратного забезпечення та агентного інтелекту\n\nСучасні виклики inference постійно ускладнюються, зокрема:\n\nЗначне зростання масштабів моделей: від початкових сотень мільярдів параметрів до трильйонних моделей, таких як Kim K2, що вимагає все більшої обчислювальної потужності.\n\nРізноманітність моделей і апаратного забезпечення: хоча архітектура Transformer залишається стандартом, внутрішні деталі все більше відрізняються, з’являються варіанти, такі як sparse attention, linear attention тощо.\n\nПоява агентних систем (Agents): моделі вже не просто відповідають на один запит, а беруть участь у безперервних діалогах, викликають зовнішні інструменти, виконують Python-скрипти тощо. Це вимагає тривалого збереження стану, обробки асинхронних входів і підвищує технічну складність.\n\nПрактичний досвід: кейси масштабного впровадження vLLM\n\nvLLM — це не лише академічна забава; вона вже використовується на таких великих платформах, як Amazon, LinkedIn, Character AI. Наприклад, інтелектуальний помічник Amazon «Rufus» працює на базі vLLM і є рушієм inference для пошуку товарів.\n\nНавіть деякі інженери вже розгорнули функції vLLM на сотнях GPU ще на стадії розробки, що свідчить про високий рівень довіри до проекту у спільноті.\n\nРоль компанії за vLLM: Inferact і її бачення\n\nЩоб сприяти подальшому розвитку vLLM, основні розробники заснували компанію Inferact, яка отримала фінансування від кількох інвесторів. На відміну від звичайних комерційних компаній, Inferact ставить відкритий код у пріоритет, і один із засновників, Simon Mo, зазначає: «Наша компанія існує для того, щоб vLLM стала глобальним стандартом inference». Бізнес-модель Inferact базується на підтримці та розширенні екосистеми vLLM, а також на корпоративних рішеннях і підтримці, що дозволяє поєднувати комерційний і відкритий підходи.\n\nInferact активно шукає інженерів з досвідом у ML-інфраструктурі, особливо тих, хто спеціалізується на масштабних моделях inference, розподілених системах і апаратному прискоренні. Для розробників, які прагнуть технічних викликів і глибокої системної оптимізації, це можливість долучитися до створення наступного покоління AI інфраструктури.\n\nКоманда прагне створити «абстрактний шар», подібний до операційної системи або бази даних, щоб AI-моделі могли безперешкодно працювати на різних апаратних платформах і в різних сценаріях застосування.\n\nЦя стаття — створення універсального шару inference для AI! Як відкритий проект vLLM став амбіційним планом створення глобального inference-двигуна? Спершу опубліковано на ABMedia.

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.