Files
hotels/SMART_CRAWLER_STATUS.md
Фёдор 0cf3297290 Проект аудита отелей: основные скрипты и документация
- Краулеры: smart_crawler.py, regional_crawler.py
- Аудит: audit_orel_to_excel.py, audit_chukotka_to_excel.py
- РКН проверка: check_rkn_registry.py, recheck_unclear_rkn.py
- Отчёты: create_orel_horizontal_report.py
- Обработка: process_all_hotels_embeddings.py
- Документация: README.md, DB_SCHEMA_REFERENCE.md
2025-10-16 10:52:09 +03:00

5.0 KiB
Raw Blame History

🚀 УМНЫЙ КРАУЛЕР С ПРИОРИТЕТАМИ - ЗАПУЩЕН

Дата старта: 14 октября 2025, 21:02
PID: 1776119
Статус: РАБОТАЕТ
Лог: smart_crawler_output.log


🎯 СТРАТЕГИЯ КРАУЛИНГА:

1 ПРИОРИТЕТ 1: Почти готовые регионы (70%+)

Отелей: 295

Регионы (12):

  • Воронежская область - осталось 18 (89%)
  • Амурская область - осталось 7 (89%)
  • Брянская область - осталось 8 (86%)
  • Алтайский край - осталось 41 (85%)
  • Владимирская область - осталось 25 (85%)
  • Орловская область - осталось 6 (83%)
  • Архангельская область - осталось 23 (82%)
  • Волгоградская область - осталось 42 (82%)
  • Камчатский край - осталось 20 (80%)
  • Вологодская область - осталось 33 (80%)
  • Белгородская область - осталось 21 (77%)
  • Астраханская область - осталось 51 (76%)

Время: ~1-2 часа


2 ПРИОРИТЕТ 2: Крупные регионы

Отелей: 5,533

Регионы (5):

  1. г. Москва - 1,340 отелей
  2. Краснодарский край - 2,297 отелей
  3. Московская область - 928 отелей
  4. Республика Крым - 968 отелей
  5. г. Санкт-Петербург - осталось 153

Время: ~20-30 часов


3 ПРИОРИТЕТ 3: Остальные регионы

Отелей: 10,213

Время: ~40-50 часов


📊 ОБЩАЯ СТАТИСТИКА:

  • Всего к обработке: 16,041 отелей
  • Приоритет 1: 295 отелей (2%)
  • Приоритет 2: 5,533 отелей (35%)
  • Приоритет 3: 10,213 отелей (63%)

Общее время: ~60-80 часов (2.5-3.5 дня)


ЧТО УЛУЧШЕНО:

1. Умная приоритизация:

  • Сначала добиваем почти готовые регионы (70%+)
  • Потом крупные (Москва, Краснодар, Крым)
  • В конце остальные

2. Пометка битых сайтов:

  • 🔴 dns_error - DNS не разрешается (сайт не существует)
  • 🔴 ssl_error - Проблемы с SSL сертификатом
  • 🔴 connection_refused - Сервер отклонил подключение
  • 🔴 timeout - Таймаут (медленный сайт)
  • 🔴 http_error - HTTP ошибка (403, 404, 500 и т.д.)
  • 🔴 no_content - Нет контента
  • 🔴 critical_error - Критическая ошибка

3. Не трогаем повторно:

Битые сайты записываются в hotel_website_meta со статусом failed и больше не обрабатываются!


🔧 КОМАНДЫ:

Проверить статус:

./check_crawler_status.sh

Смотреть логи:

tail -f smart_crawler_output.log

Остановить:

pkill -f smart_crawler.py

Перезапустить:

nohup python3 smart_crawler.py > smart_crawler_output.log 2>&1 &

📈 ОЖИДАЕМЫЕ ЭТАПЫ:

Этап Отелей Время Завершение
Приоритет 1 295 ~2 часа 14.10 ~23:00
Приоритет 2 5,533 ~30 часов 16.10 ~03:00
Приоритет 3 10,213 ~50 часов 17.10 ~05:00

💾 ЧТО СОХРАНЯЕТСЯ:

Успешно скрауленные:

  1. hotel_website_meta - метаданные (crawl_status = 'completed')
  2. hotel_website_raw - сырой HTML
  3. hotel_website_processed - очищенный текст

Проблемные сайты:

  1. hotel_website_meta - запись с:
    • crawl_status = 'failed'
    • error_message = 'ERR_NAME_NOT_RESOLVED' (и т.д.)
    • pages_crawled = 0

Повторно НЕ обрабатываются!


🏆 ПРЕИМУЩЕСТВА:

Добивает почти готовые регионы → быстрые результаты
Помечает битые сайты → не тратим время повторно
Приоритизация → важные регионы первыми
Сохраняет прогресс → можно перезапустить в любой момент


Краулер работает в фоне! Проверим логи через час! 🚀


Создано: 14 октября 2025, 21:03
Автор: AI Assistant