Google опубликовала масштабное исследование: при контекстном окне 1M+ токенов RAG уступает прямой передаче документов по точности, но выигрывает по стоимости. Когда использовать что?
С появлением моделей с контекстным окном в миллион токенов и больше в AI-сообществе разгорелась дискуссия: нужен ли ещё RAG (Retrieval-Augmented Generation), или лучше просто «скормить» модели всю базу знаний целиком?
Что исследовали
Команда Google DeepMind сравнила три подхода на 12 корпоративных датасетах объёмом от 100 до 10 000 документов:
- RAG: векторный поиск + передача топ-K фрагментов
- Long Context (LC): все документы в контексте сразу (модель Gemini 1.5 Pro, 1M токенов)
- Гибрид: RAG для первичного отбора + LC для финального ответа
Результаты
| Метрика | RAG | Long Context | Гибрид |
|---|---|---|---|
| Точность ответов | 71% | 84% | 89% |
| Стоимость на запрос | $0.003 | $0.12 | $0.04 |
| Латентность | 1.2с | 8.4с | 3.1с |
Вывод: зависит от задачи
RAG остаётся оптимальным для высокочастотных запросов с ограниченным бюджетом. Long Context выигрывает при редких, критически важных запросах и небольших корпусах. Гибрид — лучший выбор для enterprise-приложений с умеренной нагрузкой.
Исследователи также отметили, что с падением цен на токены преимущество RAG по стоимости будет сокращаться, и к 2027 году Long Context может стать предпочтительным для большинства задач.
Комментарии (63)
Комментариев пока нет. Будьте первым!