Files
hotels/CRAWLER_STATUS.md
Фёдор 0cf3297290 Проект аудита отелей: основные скрипты и документация
- Краулеры: smart_crawler.py, regional_crawler.py
- Аудит: audit_orel_to_excel.py, audit_chukotka_to_excel.py
- РКН проверка: check_rkn_registry.py, recheck_unclear_rkn.py
- Отчёты: create_orel_horizontal_report.py
- Обработка: process_all_hotels_embeddings.py
- Документация: README.md, DB_SCHEMA_REFERENCE.md
2025-10-16 10:52:09 +03:00

3.9 KiB
Raw Blame History

🚀 МАССОВЫЙ КРАУЛИНГ ЗАПУЩЕН

Дата старта: 14 октября 2025, 07:35
PID: 1439902
Статус: РАБОТАЕТ


📊 СТАТИСТИКА:

Параметр Значение
Всего отелей с сайтами 18,594
Уже обработано 923 (5%)
Осталось обработать 17,672 (95%)
Обработка пачками По 50 отелей
Параллельно 3 браузера
Страниц на сайт До 15 страниц

⏱️ ПРИМЕРНОЕ ВРЕМЯ:

  • Скорость: ~3-5 отелей/минуту
  • Ожидаемое время: ~60-100 часов (2.5-4 дня)
  • Завершение: ~17-18 октября

🎯 ТОП-10 РЕГИОНОВ В ОЧЕРЕДИ:

  1. Краснодарский край: 2,297 отелей
  2. г. Москва: 1,535 отелей
  3. Республика Крым: 968 отелей
  4. Московская область: 928 отелей
  5. Ставропольский край: 433 отелей
  6. Свердловская область: 431 отелей
  7. Республика Татарстан: 431 отелей
  8. Ростовская область: 408 отелей
  9. Республика Башкортостан: 342 отелей
  10. Ленинградская область: 336 отелей

📋 КОМАНДЫ ДЛЯ УПРАВЛЕНИЯ:

Проверить статус:

cd /root/engine/public_oversight/hotels
./check_crawler_status.sh

Посмотреть логи:

tail -f mass_crawler_output.log

или детальный лог:

tail -f mass_crawler_*.log

Остановить краулер:

pkill -f mass_crawler.py

Перезапустить:

cd /root/engine/public_oversight/hotels
nohup python3 mass_crawler.py > mass_crawler_output.log 2>&1 &

Проверить прогресс в БД:

python3 check_progress.py

💾 ЧТО СОХРАНЯЕТСЯ:

1. hotel_website_meta

  • Метаданные о краулинге
  • Количество страниц
  • Статус

2. hotel_website_raw

  • Сырой HTML всех страниц
  • HTTP статусы
  • Временные метки

3. hotel_website_processed

  • Очищенный текст
  • Готов для эмбеддингов
  • Готов для аудита

🔍 МОНИТОРИНГ:

Основной лог: mass_crawler_output.log
Детальный лог: mass_crawler_20251014_073550.log

Что отслеживать:

  • Количество успешных краулингов
  • ⚠️ Ошибки подключения (таймауты)
  • 📊 Скорость обработки (отели/мин)

⚠️ ИЗВЕСТНЫЕ ПРОБЛЕМЫ:

  1. Таймауты - некоторые сайты медленные (30 сек)
  2. Блокировки - редко, но могут блокировать IP
  3. Битые ссылки - ~5-10% сайтов недоступны

Всё это нормально и обрабатывается!


📈 ПОСЛЕ ЗАВЕРШЕНИЯ:

  1. Обработка эмбеддингов - process_all_hotels_embeddings.py
  2. Запуск аудита через n8n - AI Agent + NER
  3. Генерация отчётов - Excel по регионам

ИТОГ:

Краулер работает в фоне 24/7 и обработает все 17,672 отеля за ~3-4 дня!

Можно спокойно заниматься другими делами - всё идёт автоматически! 🚀


Создано: 14 октября 2025, 07:36
Автор: AI Assistant