Парсинг статей с URL

Цель

Автоматически импортировать контент с существующих веб-страниц в базу знаний.

Предусловия

URL публично доступной страницы
Страница содержит текстовый контент

Возможности парсера

Функция	Описание
Извлечение текста	Основной контент страницы
Извлечение заголовков	H1, H2, H3 для структуры
Сохранение изображений	Загрузка и оптимизация
AI-очистка	Удаление навигации, рекламы, footer
SPA-поддержка	Парсинг динамических сайтов (Playwright)

Пошаговая инструкция

Шаг 1: Откройте импорт

Перейдите Настройки → База знаний
Нажмите «Импорт из URL»

Шаг 2: Введите URL

Вставьте URL страницы для парсинга:

https://example.com/help/how-to-order

Шаг 3: Настройте параметры

Параметр	Описание	Рекомендация
AI-очистка	Использовать AI для фильтрации контента	✅ Включить
Сохранять изображения	Загружать изображения со страницы	✅ Включить
Глубина парсинга	Парсить связанные страницы	0 (только указанный URL)
SPA режим	Для сайтов на React/Vue/Angular	Только если обычный не работает

Шаг 4: Запустите парсинг

Нажмите «Начать парсинг»
Дождитесь завершения (10-60 секунд)
Просмотрите результат

Шаг 5: Проверьте и сохраните

Проверьте извлечённый контент
Отредактируйте при необходимости:
- Исправьте заголовок
- Добавьте категорию и теги
- Удалите лишний текст
Нажмите «Сохранить»

Асинхронный парсинг

Для длительных операций используется асинхронный режим:

Запустите парсинг
Получите Task ID
Проверяйте статус или получите уведомление

Статусы задачи:
⏳ pending — в очереди
🔄 processing — выполняется
✅ completed — завершено
❌ failed — ошибка

Массовый импорт

Для импорта нескольких страниц:

Нажмите «Массовый импорт»
Введите список URL (по одному на строку):

https://example.com/help/ordering
https://example.com/help/payment
https://example.com/help/delivery
https://example.com/help/returns

Запустите парсинг всех страниц
Просмотрите результаты

Поддержка разных типов сайтов

Статические сайты (HTML)

Парсинг работает из коробки:

Обычные HTML страницы
WordPress, Joomla, Drupal
Markdown-based сайты

SPA (Single Page Applications)

Для React, Vue, Angular сайтов:

Включите «SPA режим»
Используется Playwright для рендеринга JavaScript
Время парсинга увеличивается

Защищённые страницы

Ограничения

Парсер не может получить доступ к:

Страницам за авторизацией
Приватным документам
Контенту за paywall

Для таких случаев используйте ручной импорт или API.

AI-очистка контента

AI автоматически:

✅ Извлекает основной контент статьи
✅ Сохраняет структуру (заголовки, списки)
✅ Удаляет навигационные элементы
✅ Удаляет рекламу и баннеры
✅ Удаляет footer и cookie-уведомления
✅ Форматирует текст в Markdown

До очистки:

<nav>Меню сайта...</nav>
<article>
  <h1>Как оформить заказ</h1>
  <p>Текст статьи...</p>
</article>
<aside>Реклама...</aside>
<footer>Контакты...</footer>

После очистки:

# Как оформить заказ

Текст статьи...

Решение проблем

Пустой результат

Причина: Сайт блокирует парсинг или контент загружается динамически.

Решение:

Включите SPA режим
Проверьте, доступна ли страница публично
Попробуйте другой URL

Лишний контент

Причина: AI не определил основной контент.

Решение:

Отредактируйте результат вручную
Или используйте ручной импорт для этой страницы

Изображения не загружаются

Причина: Изображения защищены или заблокированы.

Решение:

Загрузите изображения вручную
Добавьте их в статью через редактор

Ожидаемый результат

Быстрый импорт существующего контента
Автоматическое форматирование
Сохранение изображений

Парсинг статей с URL

Цель​

Предусловия​

Возможности парсера​

Пошаговая инструкция​

Шаг 1: Откройте импорт​

Шаг 2: Введите URL​

Шаг 3: Настройте параметры​

Шаг 4: Запустите парсинг​

Шаг 5: Проверьте и сохраните​

Асинхронный парсинг​

Массовый импорт​

Поддержка разных типов сайтов​

Статические сайты (HTML)​

SPA (Single Page Applications)​

Защищённые страницы​

AI-очистка контента​

Решение проблем​

Пустой результат​

Лишний контент​

Изображения не загружаются​

Ожидаемый результат​

Связанные руководства​

Цель

Предусловия

Возможности парсера

Пошаговая инструкция

Шаг 1: Откройте импорт

Шаг 2: Введите URL

Шаг 3: Настройте параметры

Шаг 4: Запустите парсинг

Шаг 5: Проверьте и сохраните

Асинхронный парсинг

Массовый импорт

Поддержка разных типов сайтов

Статические сайты (HTML)

SPA (Single Page Applications)

Защищённые страницы

AI-очистка контента

Решение проблем

Пустой результат

Лишний контент

Изображения не загружаются

Ожидаемый результат

Связанные руководства