Парсинг статей с URL
Цель
Автоматически импортировать контент с существующих веб-страниц в базу знаний.
Предусловия
- URL публично доступной страницы
- Страница содержит текстовый контент
Возможности парсера
| Функция | Описание |
|---|---|
| Извлечение текста | Основной контент страницы |
| Извлечение заголовков | H1, H2, H3 для структуры |
| Сохранение изображений | Загрузка и оптимизация |
| AI-очистка | Удаление навигации, рекламы, footer |
| SPA-поддержка | Парсинг динамических сайтов (Playwright) |
Пошаговая инструкция
Шаг 1: Откройте импорт
- Перейдите Настройки → База знаний
- Нажмите «Импорт из URL»
Шаг 2: Введите URL
Вставьте URL страницы для парсинга:
https://example.com/help/how-to-order
Шаг 3: Настройте параметры
| Параметр | Описание | Рекомендация |
|---|---|---|
| AI-очистка | Использовать AI для фильтрации контента | ✅ Включить |
| Сохранять изображения | Загружать изображения со страницы | ✅ Включить |
| Глубина парсинга | Парсить связанные страницы | 0 (только указанный URL) |
| SPA режим | Для сайтов на React/Vue/Angular | Только если обычный не работает |
Шаг 4: Запустите парсинг
- Нажмите «Начать парсинг»
- Дождитесь завершения (10-60 секунд)
- Просмотрите результат
Шаг 5: Проверьте и сохраните
- Проверьте извлечённый контент
- Отредактируйте при необходимости:
- Исправьте заголовок
- Добавьте категорию и теги
- Удалите лишний текст
- Нажмите «Сохранить»
Асинхронный парсинг
Для длительных операций используется асинхронный режим:
- Запустите парсинг
- Получите Task ID
- Проверяйте статус или получите уведомление
Статусы задачи:
⏳ pending — в очереди
🔄 processing — выполняется
✅ completed — завершено
❌ failed — ошибка
Массовый импорт
Для импорта нескольких страниц:
- Нажмите «Массовый импорт»
- Введите список URL (по одному на строку):
https://example.com/help/ordering
https://example.com/help/payment
https://example.com/help/delivery
https://example.com/help/returns
- Запустите парсинг всех страниц
- Просмотрите результаты
Поддержка разных типов сайтов
Статические сайты (HTML)
Парсинг работает из коробки:
- Обычные HTML страницы
- WordPress, Joomla, Drupal
- Markdown-based сайты
SPA (Single Page Applications)
Для React, Vue, Angular сайтов:
- Включите «SPA режим»
- Используется Playwright для рендеринга JavaScript
- Время парсинга увеличивается
Защищённые страницы
Ограничения
Парсер не может получить доступ к:
- Страницам за авторизацией
- Приватным документам
- Контенту за paywall
Для таких случаев используйте ручной импорт или API.
AI-очистка контента
AI автоматически:
- ✅ Извлекает основной контент статьи
- ✅ Сохраняет структуру (заголовки, списки)
- ✅ Удаляет навигационные элементы
- ✅ Удаляет рекламу и баннеры
- ✅ Удаляет footer и cookie-уведомления
- ✅ Форматирует текст в Markdown
До очистки:
<nav>Меню сайта...</nav>
<article>
<h1>Как оформить заказ</h1>
<p>Текст статьи...</p>
</article>
<aside>Реклама...</aside>
<footer>Контакты...</footer>
После очистки:
# Как оформить заказ
Текст статьи...
Решение проблем
Пустой результат
Причина: Сайт блокирует парсинг или контент загружается динамически.
Решение:
- Включите SPA режим
- Проверьте, доступна ли страница публично
- Попробуйте другой URL
Лишний контент
Причина: AI не определил основной контент.
Решение:
- Отредактируйте результат вручную
- Или используйте ручной импорт для этой страницы
Изображения не загружаются
Причина: Изображения защищены или заблокированы.
Решение:
- Загрузите изображения вручную
- Добавьте их в статью через редактор
Ожидаемый результат
- Быстрый импорт существующего контента
- Автоматическое форматирование
- Сохранение изображений