Перейти к основному содержимому

Парсинг статей с URL

Цель

Автоматически импортировать контент с существующих веб-страниц в базу знаний.

Предусловия

  • URL публично доступной страницы
  • Страница содержит текстовый контент

Возможности парсера

ФункцияОписание
Извлечение текстаОсновной контент страницы
Извлечение заголовковH1, H2, H3 для структуры
Сохранение изображенийЗагрузка и оптимизация
AI-очисткаУдаление навигации, рекламы, footer
SPA-поддержкаПарсинг динамических сайтов (Playwright)

Пошаговая инструкция

Шаг 1: Откройте импорт

  1. Перейдите Настройки → База знаний
  2. Нажмите «Импорт из URL»

Шаг 2: Введите URL

Вставьте URL страницы для парсинга:

https://example.com/help/how-to-order

Шаг 3: Настройте параметры

ПараметрОписаниеРекомендация
AI-очисткаИспользовать AI для фильтрации контента✅ Включить
Сохранять изображенияЗагружать изображения со страницы✅ Включить
Глубина парсингаПарсить связанные страницы0 (только указанный URL)
SPA режимДля сайтов на React/Vue/AngularТолько если обычный не работает

Шаг 4: Запустите парсинг

  1. Нажмите «Начать парсинг»
  2. Дождитесь завершения (10-60 секунд)
  3. Просмотрите результат

Шаг 5: Проверьте и сохраните

  1. Проверьте извлечённый контент
  2. Отредактируйте при необходимости:
    • Исправьте заголовок
    • Добавьте категорию и теги
    • Удалите лишний текст
  3. Нажмите «Сохранить»

Асинхронный парсинг

Для длительных операций используется асинхронный режим:

  1. Запустите парсинг
  2. Получите Task ID
  3. Проверяйте статус или получите уведомление
Статусы задачи:
⏳ pending — в очереди
🔄 processing — выполняется
✅ completed — завершено
❌ failed — ошибка

Массовый импорт

Для импорта нескольких страниц:

  1. Нажмите «Массовый импорт»
  2. Введите список URL (по одному на строку):
https://example.com/help/ordering
https://example.com/help/payment
https://example.com/help/delivery
https://example.com/help/returns
  1. Запустите парсинг всех страниц
  2. Просмотрите результаты

Поддержка разных типов сайтов

Статические сайты (HTML)

Парсинг работает из коробки:

  • Обычные HTML страницы
  • WordPress, Joomla, Drupal
  • Markdown-based сайты

SPA (Single Page Applications)

Для React, Vue, Angular сайтов:

  1. Включите «SPA режим»
  2. Используется Playwright для рендеринга JavaScript
  3. Время парсинга увеличивается

Защищённые страницы

Ограничения

Парсер не может получить доступ к:

  • Страницам за авторизацией
  • Приватным документам
  • Контенту за paywall

Для таких случаев используйте ручной импорт или API.

AI-очистка контента

AI автоматически:

  • ✅ Извлекает основной контент статьи
  • ✅ Сохраняет структуру (заголовки, списки)
  • ✅ Удаляет навигационные элементы
  • ✅ Удаляет рекламу и баннеры
  • ✅ Удаляет footer и cookie-уведомления
  • ✅ Форматирует текст в Markdown

До очистки:

<nav>Меню сайта...</nav>
<article>
<h1>Как оформить заказ</h1>
<p>Текст статьи...</p>
</article>
<aside>Реклама...</aside>
<footer>Контакты...</footer>

После очистки:

# Как оформить заказ

Текст статьи...

Решение проблем

Пустой результат

Причина: Сайт блокирует парсинг или контент загружается динамически.

Решение:

  1. Включите SPA режим
  2. Проверьте, доступна ли страница публично
  3. Попробуйте другой URL

Лишний контент

Причина: AI не определил основной контент.

Решение:

  1. Отредактируйте результат вручную
  2. Или используйте ручной импорт для этой страницы

Изображения не загружаются

Причина: Изображения защищены или заблокированы.

Решение:

  1. Загрузите изображения вручную
  2. Добавьте их в статью через редактор

Ожидаемый результат

  • Быстрый импорт существующего контента
  • Автоматическое форматирование
  • Сохранение изображений

Связанные руководства