- Краулеры: smart_crawler.py, regional_crawler.py - Аудит: audit_orel_to_excel.py, audit_chukotka_to_excel.py - РКН проверка: check_rkn_registry.py, recheck_unclear_rkn.py - Отчёты: create_orel_horizontal_report.py - Обработка: process_all_hotels_embeddings.py - Документация: README.md, DB_SCHEMA_REFERENCE.md
5.0 KiB
5.0 KiB
🚀 УМНЫЙ КРАУЛЕР С ПРИОРИТЕТАМИ - ЗАПУЩЕН
Дата старта: 14 октября 2025, 21:02
PID: 1776119
Статус: ✅ РАБОТАЕТ
Лог: smart_crawler_output.log
🎯 СТРАТЕГИЯ КРАУЛИНГА:
1️⃣ ПРИОРИТЕТ 1: Почти готовые регионы (70%+)
Отелей: 295
Регионы (12):
- Воронежская область - осталось 18 (89%)
- Амурская область - осталось 7 (89%)
- Брянская область - осталось 8 (86%)
- Алтайский край - осталось 41 (85%)
- Владимирская область - осталось 25 (85%)
- Орловская область - осталось 6 (83%)
- Архангельская область - осталось 23 (82%)
- Волгоградская область - осталось 42 (82%)
- Камчатский край - осталось 20 (80%)
- Вологодская область - осталось 33 (80%)
- Белгородская область - осталось 21 (77%)
- Астраханская область - осталось 51 (76%)
Время: ~1-2 часа
2️⃣ ПРИОРИТЕТ 2: Крупные регионы
Отелей: 5,533
Регионы (5):
- г. Москва - 1,340 отелей
- Краснодарский край - 2,297 отелей
- Московская область - 928 отелей
- Республика Крым - 968 отелей
- г. Санкт-Петербург - осталось 153
Время: ~20-30 часов
3️⃣ ПРИОРИТЕТ 3: Остальные регионы
Отелей: 10,213
Время: ~40-50 часов
📊 ОБЩАЯ СТАТИСТИКА:
- Всего к обработке: 16,041 отелей
- Приоритет 1: 295 отелей (2%)
- Приоритет 2: 5,533 отелей (35%)
- Приоритет 3: 10,213 отелей (63%)
Общее время: ~60-80 часов (2.5-3.5 дня)
✅ ЧТО УЛУЧШЕНО:
1. Умная приоритизация:
- ✅ Сначала добиваем почти готовые регионы (70%+)
- ✅ Потом крупные (Москва, Краснодар, Крым)
- ✅ В конце остальные
2. Пометка битых сайтов:
- 🔴 dns_error - DNS не разрешается (сайт не существует)
- 🔴 ssl_error - Проблемы с SSL сертификатом
- 🔴 connection_refused - Сервер отклонил подключение
- 🔴 timeout - Таймаут (медленный сайт)
- 🔴 http_error - HTTP ошибка (403, 404, 500 и т.д.)
- 🔴 no_content - Нет контента
- 🔴 critical_error - Критическая ошибка
3. Не трогаем повторно:
Битые сайты записываются в hotel_website_meta со статусом failed и больше не обрабатываются!
🔧 КОМАНДЫ:
Проверить статус:
./check_crawler_status.sh
Смотреть логи:
tail -f smart_crawler_output.log
Остановить:
pkill -f smart_crawler.py
Перезапустить:
nohup python3 smart_crawler.py > smart_crawler_output.log 2>&1 &
📈 ОЖИДАЕМЫЕ ЭТАПЫ:
| Этап | Отелей | Время | Завершение |
|---|---|---|---|
| Приоритет 1 | 295 | ~2 часа | 14.10 ~23:00 |
| Приоритет 2 | 5,533 | ~30 часов | 16.10 ~03:00 |
| Приоритет 3 | 10,213 | ~50 часов | 17.10 ~05:00 |
💾 ЧТО СОХРАНЯЕТСЯ:
Успешно скрауленные:
hotel_website_meta- метаданные (crawl_status = 'completed')hotel_website_raw- сырой HTMLhotel_website_processed- очищенный текст
Проблемные сайты:
hotel_website_meta- запись с:crawl_status = 'failed'error_message = 'ERR_NAME_NOT_RESOLVED'(и т.д.)pages_crawled = 0
Повторно НЕ обрабатываются! ✅
🏆 ПРЕИМУЩЕСТВА:
✅ Добивает почти готовые регионы → быстрые результаты
✅ Помечает битые сайты → не тратим время повторно
✅ Приоритизация → важные регионы первыми
✅ Сохраняет прогресс → можно перезапустить в любой момент
Краулер работает в фоне! Проверим логи через час! 🚀
Создано: 14 октября 2025, 21:03
Автор: AI Assistant