Кратко о функциональности
Источник данных «Веб-парсинг» позволяет превратить любой публичный сайт или страницу документации в поисковую базу знаний для AI-агента — без API, без таблиц и без ручного копирования. Добавляете URL, настраиваете глубину обхода и разбиение на фрагменты — и агент начинает отвечать на основе этого контента. Важно: система извлекает с страниц не только текст, но и изображения и подставляет их в результаты поиска, поэтому агент может показывать в чате схемы, скриншоты или фото товаров. Посетители получают ответы с нужной картинкой, а у вас одна точка правды — ваш сайт или раздел документации.
Где применимо
Документация и хелп-центры
Документация уже живёт на вашем сайте или в хелпе. Дублировать её вручную в базу Q&A утомительно, и она быстро устаревает. С веб-парсингом вы указываете агенту URL раздела документации. Агент индексирует текст и извлекает иллюстрации — блок-схемы, скриншоты интерфейса, пошаговые картинки — и подставляет их в ответ, когда это уместно. Вопрос «Как сбросить пароль?» превращается в точную инструкцию плюс скриншот с вашей страницы помощи.
Товарные страницы и каталоги
Описания, характеристики и картинки товаров уже есть на сайте. Вместо переноса всего в таблицы или API добавьте URL категорий или карточек товаров как источник веб-парсинга. Агент находит нужный товар по смыслу и может показать изображение товара в чате — диалог выглядит как консультация с визуалом.
Исследования и публичные материалы
Отделам продаж и маркетингу часто нужно опираться на публичные страницы — возможности конкурентов, ценовые страницы, отчёты. Добавьте такие URL как источники только для чтения. Агент может сравнивать, суммировать и цитировать контент (включая графики и схемы), без отдельной ручной базы знаний.
Поддержка и онбординг
Гайды по онбордингу, статьи по устранению неполадок и FAQ идеально подходят для веб-парсинга. Когда клиент спрашивает «Где кнопка экспорта?» или «Что значит эта ошибка?», агент подтягивает нужный фрагмент и может показать иллюстрацию из исходной статьи — меньше переписок со скриншотами и быстрее решение.
Отличительная возможность: картинки в поиске и в диалоге
В отличие от индексации только текста, веб-парсинг извлекает изображения со страниц и привязывает их к соответствующим текстовым фрагментам. При поиске по источнику агент получает не только текст, но и связанные изображения. В результате ассистент может вставить нужную иллюстрацию в ответ — схему, скриншот интерфейса или фото товара — и пользователь видит и ответ, и картинку в одном месте, без перехода по ссылке.

Как настроить в интерфейсе
Шаг 1: Создать источник веб-парсинга
-
Перейдите в Дашборд → Источники данных → Добавить источник.
-
Выберите тип Веб-парсинг (или Веб-страница / URL — в зависимости от интерфейса).
-
Заполните основные параметры:
Название — внутренний идентификатор (например,
docs,product_pages).Описание — краткая пометка для команды (например, «Публичная документация и статьи помощи»).
URL — один или несколько стартовых URL для парсинга (например,
https://example.com/docs,https://example.com/help).

Шаг 2: Настроить парсинг и разбиение на фрагменты
-
Обход / область (если доступно):
- Ограничьте глубину (только эта страница или эта страница + 1–2 уровня ссылок).
- Опционально: только определённые пути или исключения (например, исключить
/blog, оставить только/docs).
-
Чанки и извлечение:
- Размер чанка — объём текста на один поисковый блок (например, 500–1000 символов). Меньшие чанки — точнее поиск, большие — больше контекста.
- Перекрытие — опциональное перекрытие между чанками, чтобы не терять границы предложений.
- Извлечение изображений — убедитесь, что опция сохранения изображений включена (по умолчанию в поддерживаемых тарифах). Изображения привязываются к чанку и попадают в результаты поиска для агента.
-
Обновление / индексация:
- Запустите полный парсинг (кнопка Обновить или Переиндексировать). Система загружает страницы, извлекает текст и изображения, строит чанки и индексирует их.
Шаг 3: Проверить чанки и изображения
- В разделе Предпросмотр или Чанки посмотрите созданные фрагменты и убедитесь, что к ним привязаны изображения (скриншоты, схемы, картинки товаров).

Шаг 4: Подключить источник к агенту
- Откройте Дашборд → Агенты и выберите агента.
- В блоке Поля формы (или Источники данных / Знания) добавьте или привяжите источник веб-парсинга, чтобы агент мог по нему искать (например, как поисковую базу знаний или поле типа «из источника»).
- Сохраните агента.
Шаг 5: Проверить в виджете
- Откройте чат-виджет (или Telegram) и задайте вопросы, ответы на которые должны браться с распарсенных страниц.
- Убедитесь, что ответы точные и что агент подставляет извлечённые изображения в ответ там, где они уместны (например, «Где эта кнопка?» → ответ и скриншот).

Параметры настройки (кратко)
| Параметр | Назначение |
|---|---|
| URL | Стартовые страницы для парсинга (например, корень документации, категория товаров). |
| Глубина обхода | Сколько уровней ссылок обходить от стартового URL. |
| Размер чанка | Размер текстового блока для поиска (например, 500–1000 символов). |
| Перекрытие | Перекрытие между соседними чанками (опционально). |
| Извлечение изображений | Сохранять изображения с чанками, чтобы агент показывал их в диалоге. |
| Обновить | Запустить парсинг заново после изменений на сайте. |
Зачем попробовать под свою задачу
Если ваша база знаний уже в интернете — документация, товарные страницы, статьи поддержки — веб-парсинг убирает ручное копирование в другую систему. Один источник правды — ваш сайт; агент обновляет данные по расписанию или по кнопке. То, что изображения извлекаются и участвуют в поиске и в чате, делает ответы по сути «вот нужная страница и нужная картинка» — это повышает доверие и снижает нагрузку на поддержку. Достаточно добавить один URL документации или один раздел каталога, чтобы за несколько минут оценить, подходит ли такой сценарий вам.
Связанные статьи
- Комбинируйте с API-источниками данных, когда нужны живые API вместе со статичным веб-контентом.
- Используйте Google Таблицы как источник для табличных каталогов; веб-парсинг — для длинных текстов и визуала.
- Храните единые ответы в Базе знаний Q&A; веб-парсинг — для полной документации и иллюстраций.
- Передавайте лидов и контекст в CRM через Интеграции с CRM.
- Смотрите, как диалог превращается в лид, в статье Управление лидами с полной историей диалогов.