Загруженные документы (PDF/DOCX) как источник данных: RAG с картинками, ссылками и онтологией

Опубликовано: 21 февраля 2026 г.

uploaded-documentsdata-sourcespdfragontologyai-agentknowledge-base

Когда важные знания спрятаны в PDF

Если у вас уже есть знания в PDF / DOC / DOCX (инструкции, регламенты, каталоги, обучение), обычно они работают как «архив»: всё нужное там есть, но достать конкретный ответ быстро — сложно. Хочется, чтобы агент отвечал по документам так же уверенно, как человек: точно, со ссылкой на источник и, когда нужно, со скриншотом/схемой прямо в чате.

Источник данных «Загруженные документы» в Lite.panteo.ai делает именно это: вы загружаете файлы, а платформа строит RAG-индекс — извлекает текст, режет его на чанки, добавляет метаданные (ссылка на документ и номер страницы), вытаскивает иллюстрации и при необходимости включает онтологический поиск (структура разделов, определения, таблицы, списки). В итоге агент отвечает не «где-то в документе», а вот фрагмент + вот картинка + вот ссылка на страницу.

Частые ситуации, которые решает источник

Документы есть, но на вопрос «где именно это написано?» приходится тратить время.
Команда поддержки и продаж отвечает на повторяющиеся вопросы по одним и тем же материалам.
Вопросы вроде «где эта кнопка?» часто требуют иллюстрации — и начинаются скриншоты в переписке.
Документы обновляются, а база Q&A (если она есть) не всегда успевает синхронизироваться.

«Загруженные документы» снимают эту нагрузку: вы поддерживаете один источник правды — ваши файлы, а агент сам достаёт нужный фрагмент и возвращает ответ с удобными ссылками и визуалом.

Сценарии: где это даёт максимум эффекта

Поддержка и документация (help‑центр)

Загрузите руководства пользователя и техдоки в PDF. Агент найдёт нужный фрагмент по смыслу и может подтянуть схему/скриншот из документа и дать ссылку на страницу — пользователю не нужно «идти читать PDF целиком», а вашей поддержке не нужно «рисовать инструкции руками».

Регламенты, комплаенс, нормативка

Когда важны точность и структура, подключайте уровень 3 (онтология): агент лучше ориентируется в разделах и подпунктах, точнее находит определения, таблицы и контекст вокруг формулировок.

Обучение и онбординг

Курсы и методички часто живут в PDF с диаграммами и таблицами. С RAG по документам агент отвечает по смыслу и возвращает в ответе нужную таблицу/картинку плюс ссылку на источник.

Продажи: КП и каталоги

Коммерческие предложения и каталоги в PDF/DOCX становятся «живыми»: агент быстро находит характеристики, условия, комплектацию и может показать изображение товара или страницу каталога, а не пересказывать всё словами.

Почему ответы выглядят «как надо»: 3 ключевые возможности

1) Иллюстрации из PDF — прямо в ответе

Система извлекает изображения из PDF (и при поддержке — из DOC/DOCX) и привязывает их к соответствующим чанкам. В поисковых результатах у агента есть не только текст, но и связанные иллюстрации — поэтому он может вставить нужную картинку в ответ: схему, скриншот интерфейса, фрагмент страницы.

Ответы по документам с иллюстрациями и ссылками

2) Метаданные и ссылки: документ + страница

Каждый чанк хранит source_url (публичная ссылка на файл) и source_page (номер страницы). Это превращает ответы в «проверяемые»: агент может написать «см. стр. 5» и дать ссылку — пользователь сразу видит источник.

3) Онтология (L3): когда важна структура, а не совпадение слов

Как и в источнике «Google Docs» и веб‑парсинге, здесь доступна онтологическая индексация: анализ заголовков, разделов, определений, таблиц и списков. Это особенно полезно для длинных документов, где смысл «распределён» по структуре.

Онтология и контекст в чанках

Как настроить в интерфейсе

Подключение за 10 минут: от файла до ответа

Шаг 1. Создайте источник «Загруженные документы»

Перейдите в Дашборд → Источники данных → Добавить источник.
Выберите тип Загруженные документы (Uploaded Documents).
Задайте название и описание (например, «Руководства и регламенты в PDF»).

Виджет чата с ответами по документам

Шаг 2. Загрузите PDF/DOC/DOCX

На вкладке Основное (или Файлы) нажмите Загрузить документы или перетащите файлы в зону загрузки.
Поддерживаются форматы PDF, DOC, DOCX. Можно загружать несколько файлов за раз (ограничение по размеру файла — до 60 МБ).
После загрузки в списке отображаются имя документа, публичный URL и размер.

Список загруженных файлов источника

Шаг 3. Включите картинки и ссылки на источник

Отметьте Включать иллюстрации — изображения из документов будут извлекаться и привязываться к чанкам; агент сможет показывать их в ответах.
Отметьте Включать ссылки на источник и при необходимости Добавлять ссылку на источник в текст чанка — в ответах появятся ссылки на документ и страницу.

Шаг 4. Выберите глубину поиска (L1/L2/L3)

Уровень 1 — лексический поиск: по ключевым словам, быстро, минимум кеша.
Уровень 2 — смысловой поиск (рекомендуется): эмбеддинги, поиск по смыслу.
Уровень 3 — онтологический поиск: учёт структуры документа (разделы, определения, таблицы, списки) для сложных регламентов и длинных текстов.

В блоке Дополнительно можно настроить размер чанка, перекрытие чанков и число итераций поискового агента.

Шаг 5. Запустите индексацию и проверьте чанки

Нажмите Обновить / Переиндексировать. Система распарсит документы, создаст чанки, извлечёт иллюстрации и построит выбранный уровень индексации (L1/L2/L3).
Во вкладке Чанки можно проверить фрагменты, метаданные (source_url, source_page), привязанные иллюстрации и онтологию.

Предпросмотр чанков с метаданными и иллюстрациями

Шаг 6. Подключите источник к агенту

Откройте Дашборд → Агенты, выберите агента.
В Поля формы (или Источники данных / Знания) привяжите созданный источник «Загруженные документы».
Сохраните агента.

Шаг 7. Протестируйте в чате

Откройте чат-виджет или Telegram и задайте вопросы, ответы на которые должны браться из загруженных документов.
Убедитесь, что ответы точные и что агент при необходимости подставляет иллюстрации и ссылки на документы.

Параметры настройки (кратко)

Параметр	Назначение
Файлы	PDF, DOC, DOCX до 60 МБ; загрузка по кнопке или drag-and-drop.
Включать иллюстрации	Извлекать изображения из документов и показывать их в ответах агента.
Включать ссылки на источник	Добавлять в результаты поиска ссылку на документ и страницу.
Уровень индексации	L1 — лексика, L2 — эмбеддинги (рекомендуется), L3 — онтология.
Размер чанка	Объём текста на один фрагмент (например, 400 токенов).
Перекрытие чанков	Перекрытие между соседними фрагментами для связности.
Обновить	Перезапуск парсинга и индексации после изменения файлов или настроек.

Попробуйте на своих PDF — и увидите разницу

Если вы хотите, чтобы агент отвечал по вашим документам, а не «в среднем по интернету», начните с одного файла: загрузите PDF, включите иллюстрации, выберите уровень индексации (обычно L2, а для регламентов — L3) и задайте в виджете пару «боевых» вопросов. Вы сразу увидите, что меняется: ответы становятся точнее, появляются картинки и ссылки на страницы, а у пользователя остаётся доверие, потому что источник прозрачен.

Зарегистрируйтесь в Lite.panteo.ai и подключите «Загруженные документы» — это один из самых быстрых способов превратить PDF/DOCX в работающую базу знаний (RAG) для вашего агента.

Связанные статьи

Комбинируйте с API-источниками данных, когда нужны живые данные вместе с документами.
Используйте Google Docs как источник для облачных документов по ссылке; загруженные документы — для локальных PDF/DOC/DOCX.
Источник «Веб-парсинг» — для документации на сайте с извлечением иллюстраций; загруженные документы — для файлов.
Храните типовые ответы в Базе знаний Q&A; загруженные документы — для полных текстов и иллюстраций.
Передавайте лидов из диалога в CRM через Интеграции с CRM.
Управление контактами: Управление лидами с полной историей диалогов.