Lite.panteo.ai logo
Lite.panteo.aiAgent Management System
web-parsing
Опубликовано: 20 февраля 2026 г.

Источник данных «Веб-парсинг»: любой сайт как база знаний для AI-агента

Подключайте страницы сайтов как поисковые источники. Агент извлекает текст и изображения, отвечает из вашей документации и показывает иллюстрации в чате.

Источник данных «Веб-парсинг»: любой сайт как база знаний для AI-агента

Кратко о функциональности

Источник данных «Веб-парсинг» позволяет превратить любой публичный сайт или страницу документации в поисковую базу знаний для AI-агента — без API, без таблиц и без ручного копирования. Добавляете URL, настраиваете глубину обхода и разбиение на фрагменты — и агент начинает отвечать на основе этого контента. Важно: система извлекает с страниц не только текст, но и изображения и подставляет их в результаты поиска, поэтому агент может показывать в чате схемы, скриншоты или фото товаров. Посетители получают ответы с нужной картинкой, а у вас одна точка правды — ваш сайт или раздел документации.

Где применимо

Документация и хелп-центры

Документация уже живёт на вашем сайте или в хелпе. Дублировать её вручную в базу Q&A утомительно, и она быстро устаревает. С веб-парсингом вы указываете агенту URL раздела документации. Агент индексирует текст и извлекает иллюстрации — блок-схемы, скриншоты интерфейса, пошаговые картинки — и подставляет их в ответ, когда это уместно. Вопрос «Как сбросить пароль?» превращается в точную инструкцию плюс скриншот с вашей страницы помощи.

Товарные страницы и каталоги

Описания, характеристики и картинки товаров уже есть на сайте. Вместо переноса всего в таблицы или API добавьте URL категорий или карточек товаров как источник веб-парсинга. Агент находит нужный товар по смыслу и может показать изображение товара в чате — диалог выглядит как консультация с визуалом.

Исследования и публичные материалы

Отделам продаж и маркетингу часто нужно опираться на публичные страницы — возможности конкурентов, ценовые страницы, отчёты. Добавьте такие URL как источники только для чтения. Агент может сравнивать, суммировать и цитировать контент (включая графики и схемы), без отдельной ручной базы знаний.

Поддержка и онбординг

Гайды по онбордингу, статьи по устранению неполадок и FAQ идеально подходят для веб-парсинга. Когда клиент спрашивает «Где кнопка экспорта?» или «Что значит эта ошибка?», агент подтягивает нужный фрагмент и может показать иллюстрацию из исходной статьи — меньше переписок со скриншотами и быстрее решение.

Отличительная возможность: картинки в поиске и в диалоге

В отличие от индексации только текста, веб-парсинг извлекает изображения со страниц и привязывает их к соответствующим текстовым фрагментам. При поиске по источнику агент получает не только текст, но и связанные изображения. В результате ассистент может вставить нужную иллюстрацию в ответ — схему, скриншот интерфейса или фото товара — и пользователь видит и ответ, и картинку в одном месте, без перехода по ссылке.

Виджет чата с ответами и изображениями из веб-парсинга

Как настроить в интерфейсе

Шаг 1: Создать источник веб-парсинга

  1. Перейдите в Дашборд → Источники данных → Добавить источник.

  2. Выберите тип Веб-парсинг (или Веб-страница / URL — в зависимости от интерфейса).

  3. Заполните основные параметры:

    Название — внутренний идентификатор (например, docs, product_pages).

    Описание — краткая пометка для команды (например, «Публичная документация и статьи помощи»).

    URL — один или несколько стартовых URL для парсинга (например, https://example.com/docs, https://example.com/help).

Настройка и параметры источника веб-парсинга

Шаг 2: Настроить парсинг и разбиение на фрагменты

  1. Обход / область (если доступно):

    • Ограничьте глубину (только эта страница или эта страница + 1–2 уровня ссылок).
    • Опционально: только определённые пути или исключения (например, исключить /blog, оставить только /docs).
  2. Чанки и извлечение:

    • Размер чанка — объём текста на один поисковый блок (например, 500–1000 символов). Меньшие чанки — точнее поиск, большие — больше контекста.
    • Перекрытие — опциональное перекрытие между чанками, чтобы не терять границы предложений.
    • Извлечение изображений — убедитесь, что опция сохранения изображений включена (по умолчанию в поддерживаемых тарифах). Изображения привязываются к чанку и попадают в результаты поиска для агента.
  3. Обновление / индексация:

    • Запустите полный парсинг (кнопка Обновить или Переиндексировать). Система загружает страницы, извлекает текст и изображения, строит чанки и индексирует их.

Шаг 3: Проверить чанки и изображения

  1. В разделе Предпросмотр или Чанки посмотрите созданные фрагменты и убедитесь, что к ним привязаны изображения (скриншоты, схемы, картинки товаров).

Предпросмотр чанков и извлечённых изображений

Шаг 4: Подключить источник к агенту

  1. Откройте Дашборд → Агенты и выберите агента.
  2. В блоке Поля формы (или Источники данных / Знания) добавьте или привяжите источник веб-парсинга, чтобы агент мог по нему искать (например, как поисковую базу знаний или поле типа «из источника»).
  3. Сохраните агента.

Шаг 5: Проверить в виджете

  1. Откройте чат-виджет (или Telegram) и задайте вопросы, ответы на которые должны браться с распарсенных страниц.
  2. Убедитесь, что ответы точные и что агент подставляет извлечённые изображения в ответ там, где они уместны (например, «Где эта кнопка?» → ответ и скриншот).

Виджет с веб-парсингом на сайте

Параметры настройки (кратко)

Параметр Назначение
URL Стартовые страницы для парсинга (например, корень документации, категория товаров).
Глубина обхода Сколько уровней ссылок обходить от стартового URL.
Размер чанка Размер текстового блока для поиска (например, 500–1000 символов).
Перекрытие Перекрытие между соседними чанками (опционально).
Извлечение изображений Сохранять изображения с чанками, чтобы агент показывал их в диалоге.
Обновить Запустить парсинг заново после изменений на сайте.

Зачем попробовать под свою задачу

Если ваша база знаний уже в интернете — документация, товарные страницы, статьи поддержки — веб-парсинг убирает ручное копирование в другую систему. Один источник правды — ваш сайт; агент обновляет данные по расписанию или по кнопке. То, что изображения извлекаются и участвуют в поиске и в чате, делает ответы по сути «вот нужная страница и нужная картинка» — это повышает доверие и снижает нагрузку на поддержку. Достаточно добавить один URL документации или один раздел каталога, чтобы за несколько минут оценить, подходит ли такой сценарий вам.

Связанные статьи