- Краулеры: smart_crawler.py, regional_crawler.py - Аудит: audit_orel_to_excel.py, audit_chukotka_to_excel.py - РКН проверка: check_rkn_registry.py, recheck_unclear_rkn.py - Отчёты: create_orel_horizontal_report.py - Обработка: process_all_hotels_embeddings.py - Документация: README.md, DB_SCHEMA_REFERENCE.md
3.9 KiB
3.9 KiB
🚀 МАССОВЫЙ КРАУЛИНГ ЗАПУЩЕН
Дата старта: 14 октября 2025, 07:35
PID: 1439902
Статус: ✅ РАБОТАЕТ
📊 СТАТИСТИКА:
| Параметр | Значение |
|---|---|
| Всего отелей с сайтами | 18,594 |
| Уже обработано | 923 (5%) |
| Осталось обработать | 17,672 (95%) |
| Обработка пачками | По 50 отелей |
| Параллельно | 3 браузера |
| Страниц на сайт | До 15 страниц |
⏱️ ПРИМЕРНОЕ ВРЕМЯ:
- Скорость: ~3-5 отелей/минуту
- Ожидаемое время: ~60-100 часов (2.5-4 дня)
- Завершение: ~17-18 октября
🎯 ТОП-10 РЕГИОНОВ В ОЧЕРЕДИ:
- Краснодарский край: 2,297 отелей
- г. Москва: 1,535 отелей
- Республика Крым: 968 отелей
- Московская область: 928 отелей
- Ставропольский край: 433 отелей
- Свердловская область: 431 отелей
- Республика Татарстан: 431 отелей
- Ростовская область: 408 отелей
- Республика Башкортостан: 342 отелей
- Ленинградская область: 336 отелей
📋 КОМАНДЫ ДЛЯ УПРАВЛЕНИЯ:
Проверить статус:
cd /root/engine/public_oversight/hotels
./check_crawler_status.sh
Посмотреть логи:
tail -f mass_crawler_output.log
или детальный лог:
tail -f mass_crawler_*.log
Остановить краулер:
pkill -f mass_crawler.py
Перезапустить:
cd /root/engine/public_oversight/hotels
nohup python3 mass_crawler.py > mass_crawler_output.log 2>&1 &
Проверить прогресс в БД:
python3 check_progress.py
💾 ЧТО СОХРАНЯЕТСЯ:
1. hotel_website_meta
- Метаданные о краулинге
- Количество страниц
- Статус
2. hotel_website_raw
- Сырой HTML всех страниц
- HTTP статусы
- Временные метки
3. hotel_website_processed
- Очищенный текст
- Готов для эмбеддингов
- Готов для аудита
🔍 МОНИТОРИНГ:
Основной лог: mass_crawler_output.log
Детальный лог: mass_crawler_20251014_073550.log
Что отслеживать:
- ✅ Количество успешных краулингов
- ⚠️ Ошибки подключения (таймауты)
- 📊 Скорость обработки (отели/мин)
⚠️ ИЗВЕСТНЫЕ ПРОБЛЕМЫ:
- Таймауты - некоторые сайты медленные (30 сек)
- Блокировки - редко, но могут блокировать IP
- Битые ссылки - ~5-10% сайтов недоступны
Всё это нормально и обрабатывается! ✅
📈 ПОСЛЕ ЗАВЕРШЕНИЯ:
- Обработка эмбеддингов -
process_all_hotels_embeddings.py - Запуск аудита через n8n - AI Agent + NER
- Генерация отчётов - Excel по регионам
✅ ИТОГ:
Краулер работает в фоне 24/7 и обработает все 17,672 отеля за ~3-4 дня!
Можно спокойно заниматься другими делами - всё идёт автоматически! 🚀
Создано: 14 октября 2025, 07:36
Автор: AI Assistant