ai

Своя LLM на сервере: приватный AI без облака

Приватный AI на вашем железе: открытые модели, API как у OpenAI, RAG и дообучение — данные не уходят в чужое облако.

от 80 000 ₽стоимость
от 3 недельсроки
Посмотреть пакеты
результат услуги
что вы получите
  • Развёрнутая LLM на вашем сервере с OpenAI-совместимым API
  • Документация по эксплуатации и обновлению модели
  • RAG и/или дообученная под домен модель (если в проекте)
  • Рекомендации по масштабированию и оптимизации
ollamapythonfastapiragdocker
{ суть услуги }

Своя LLM на сервере (self-hosted) — это запуск открытых языковых моделей (Llama, Qwen, DeepSeek, Mistral, GigaChat-совместимые) на вашей инфраструктуре, без отправки данных в облака OpenAI или других провайдеров. Подходит компаниям, которым важна конфиденциальность: данные не покидают периметр, что критично под 152-ФЗ, для коммерческой тайны и работы с персональными данными. Мы подбираем модель под задачу и бюджет железа, разворачиваем её через Ollama или vLLM, поднимаем API в формате OpenAI (чтобы ваши приложения подключались без переделки), при необходимости строим RAG по вашим документам и дообучаем модель под домен (fine-tuning, LoRA) на вашей терминологии. Помогаем с выбором сервера и GPU, оптимизацией под нагрузку и квантизацией, чтобы уложиться в имеющиеся ресурсы. На выходе — приватный AI-сервис, который можно использовать как замену внешним API там, где данные нельзя выпускать наружу.

кому подойдёт

Подходит вам или нет

Подойдёт, если…
  • Данные нельзя отправлять во внешние облака (152-ФЗ, коммерческая тайна)
  • Большой объём AI-запросов — облачные API выходят слишком дорого
  • Нужен AI по внутренней документации без утечки наружу
  • Хотите дообучить модель под свою терминологию и домен
  • Уже есть сервер с GPU или готовы его выделить
× Не подойдёт, если…
  • Небольшой объём запросов — облачный API будет проще и дешевле
  • Нет своего сервера/GPU и нет планов его заводить
  • Нужно максимальное качество «как у GPT-4» любой ценой — топовые проприетарные модели пока сильнее
что входит

Что входит в работу

  • Подбор модели под задачу, качество и бюджет железа
  • Рекомендации по серверу и GPU (или аудит имеющегося)
  • Развёртывание через Ollama / vLLM в Docker
  • API в формате OpenAI для подключения ваших приложений
  • Квантизация и оптимизация под доступные ресурсы
  • RAG по вашим документам (при необходимости)
  • Дообучение под домен (fine-tuning / LoRA) при необходимости
как работаем

Этапы работы

  1. 01

    Подбор и архитектура

    4–7 дней

    Определяем задачи и требования к приватности, подбираем модель и конфигурацию сервера/GPU, проектируем архитектуру решения.

  2. 02

    Развёртывание

    10–18 дней

    Разворачиваем модель через Ollama/vLLM, поднимаем OpenAI-совместимый API, настраиваем квантизацию и оптимизацию под нагрузку, при необходимости — RAG и дообучение.

  3. 03

    Интеграция и передача

    4–7 дней

    Подключаем ваши приложения к локальному API, нагрузочно тестируем, передаём документацию и обучаем команду. Гарантия 30 дней.

пакеты и стоимость

Варианты сотрудничества

Все цены — отправная точка. Финальная смета фиксируется после короткого брифа и остаётся неизменной до конца проекта.

Развёртывание

от 80 000 ₽
3–4 недели

Запуск модели на вашем сервере с API под ваши приложения.

  • Подбор модели и конфигурации
  • Развёртывание через Ollama / vLLM
  • OpenAI-совместимый API
  • Оптимизация и квантизация
обычно берут

Приватный AI под ключ

по проекту
от 6 недель

Развёртывание + RAG по документам + дообучение под домен.

  • Всё из «Развёртывания»
  • RAG по вашей документации
  • Дообучение под домен (fine-tuning / LoRA)
  • Нагрузочное тестирование и оптимизация
  • Сопровождение и обновления
на выходе

Что вы получите

  • Развёрнутая LLM на вашем сервере с OpenAI-совместимым API
  • Документация по эксплуатации и обновлению модели
  • RAG и/или дообученная под домен модель (если в проекте)
  • Рекомендации по масштабированию и оптимизации
стек

Технологии

Подбираем стек под задачу — не «всё подряд». На большинстве проектов используем:

  • ollama
  • python
  • fastapi
  • rag
  • docker
вопросы

Частые вопросы по этой услуге

Open-source модель не хуже ChatGPT?
Для многих задач (работа с документами, классификация, извлечение данных, ответы по базе знаний) открытые модели Llama, Qwen, DeepSeek дают сопоставимое качество. На самых сложных рассуждениях топовые проприетарные модели пока сильнее. Под вашу задачу подберём модель так, чтобы качество было достаточным, а данные оставались у вас.
Какое железо нужно?
Зависит от модели: небольшие модели работают на одной видеокарте уровня RTX 4090 или серверной A100, крупным нужно несколько GPU. Мы поможем подобрать конфигурацию под бюджет и задачу или проведём аудит имеющегося сервера. Квантизация позволяет запускать модели на более скромном железе.
Можно подключить к нашим текущим приложениям?
Да. Поднимаем API в формате OpenAI, поэтому приложения, написанные под OpenAI, переключаются на ваш сервер сменой адреса и ключа — переписывать код не нужно.
Это правда безопаснее облака?
Да, в части данных: запросы и документы не покидают ваш периметр, нет передачи третьим лицам и зарубежным провайдерам. Это снимает риски по 152-ФЗ и коммерческой тайне. Безопасность самого сервера настраиваем отдельно (доступы, сеть, обновления).
{ кто это пишет }

Отвечает не менеджер, а тот же человек, который потом будет
делать сайт.

Без скриптов и «давайте сначала созвонимся для уточнения деталей». Можно сразу прислать ТЗ, скрин, ссылку на сайт — отвечу понятно и по делу. Обычно в течение часа в рабочее время.

Написать в Telegram @detalweb · обычно отвечаю за 30 мин Почта kir@detailweb.ru
город Москва
режим пн–пт · 10:00–19:00 МСК
формат удалённо · РФ + СНГ
оплата ИП, безнал · НДС не платим
обсудить задачу

Опишите задачу — а дальше мой ход

Заполните форму или напишите в Telegram выше. Достаточно ссылки на сайт и пары слов — я уточню остальное сам.

Ответ в течение 24 часов в рабочие дни. Обычно — быстрее.

Заполните телефон или email — на что удобнее ответить.