Проект аудита отелей: основные скрипты и документация
- Краулеры: smart_crawler.py, regional_crawler.py - Аудит: audit_orel_to_excel.py, audit_chukotka_to_excel.py - РКН проверка: check_rkn_registry.py, recheck_unclear_rkn.py - Отчёты: create_orel_horizontal_report.py - Обработка: process_all_hotels_embeddings.py - Документация: README.md, DB_SCHEMA_REFERENCE.md
This commit is contained in:
152
SMART_CRAWLER_STATUS.md
Normal file
152
SMART_CRAWLER_STATUS.md
Normal file
@@ -0,0 +1,152 @@
|
||||
# 🚀 УМНЫЙ КРАУЛЕР С ПРИОРИТЕТАМИ - ЗАПУЩЕН
|
||||
|
||||
**Дата старта:** 14 октября 2025, 21:02
|
||||
**PID:** 1776119
|
||||
**Статус:** ✅ РАБОТАЕТ
|
||||
**Лог:** `smart_crawler_output.log`
|
||||
|
||||
---
|
||||
|
||||
## 🎯 **СТРАТЕГИЯ КРАУЛИНГА:**
|
||||
|
||||
### **1️⃣ ПРИОРИТЕТ 1: Почти готовые регионы (70%+)**
|
||||
**Отелей:** 295
|
||||
|
||||
**Регионы (12):**
|
||||
- Воронежская область - осталось 18 (89%)
|
||||
- Амурская область - осталось 7 (89%)
|
||||
- Брянская область - осталось 8 (86%)
|
||||
- Алтайский край - осталось 41 (85%)
|
||||
- Владимирская область - осталось 25 (85%)
|
||||
- Орловская область - осталось 6 (83%)
|
||||
- Архангельская область - осталось 23 (82%)
|
||||
- Волгоградская область - осталось 42 (82%)
|
||||
- Камчатский край - осталось 20 (80%)
|
||||
- Вологодская область - осталось 33 (80%)
|
||||
- Белгородская область - осталось 21 (77%)
|
||||
- Астраханская область - осталось 51 (76%)
|
||||
|
||||
**Время:** ~1-2 часа
|
||||
|
||||
---
|
||||
|
||||
### **2️⃣ ПРИОРИТЕТ 2: Крупные регионы**
|
||||
**Отелей:** 5,533
|
||||
|
||||
**Регионы (5):**
|
||||
1. г. Москва - 1,340 отелей
|
||||
2. Краснодарский край - 2,297 отелей
|
||||
3. Московская область - 928 отелей
|
||||
4. Республика Крым - 968 отелей
|
||||
5. г. Санкт-Петербург - осталось 153
|
||||
|
||||
**Время:** ~20-30 часов
|
||||
|
||||
---
|
||||
|
||||
### **3️⃣ ПРИОРИТЕТ 3: Остальные регионы**
|
||||
**Отелей:** 10,213
|
||||
|
||||
**Время:** ~40-50 часов
|
||||
|
||||
---
|
||||
|
||||
## 📊 **ОБЩАЯ СТАТИСТИКА:**
|
||||
|
||||
- **Всего к обработке:** 16,041 отелей
|
||||
- **Приоритет 1:** 295 отелей (2%)
|
||||
- **Приоритет 2:** 5,533 отелей (35%)
|
||||
- **Приоритет 3:** 10,213 отелей (63%)
|
||||
|
||||
**Общее время:** ~60-80 часов (2.5-3.5 дня)
|
||||
|
||||
---
|
||||
|
||||
## ✅ **ЧТО УЛУЧШЕНО:**
|
||||
|
||||
### **1. Умная приоритизация:**
|
||||
- ✅ Сначала **добиваем почти готовые** регионы (70%+)
|
||||
- ✅ Потом **крупные** (Москва, Краснодар, Крым)
|
||||
- ✅ В конце остальные
|
||||
|
||||
### **2. Пометка битых сайтов:**
|
||||
- 🔴 **dns_error** - DNS не разрешается (сайт не существует)
|
||||
- 🔴 **ssl_error** - Проблемы с SSL сертификатом
|
||||
- 🔴 **connection_refused** - Сервер отклонил подключение
|
||||
- 🔴 **timeout** - Таймаут (медленный сайт)
|
||||
- 🔴 **http_error** - HTTP ошибка (403, 404, 500 и т.д.)
|
||||
- 🔴 **no_content** - Нет контента
|
||||
- 🔴 **critical_error** - Критическая ошибка
|
||||
|
||||
### **3. Не трогаем повторно:**
|
||||
Битые сайты записываются в `hotel_website_meta` со статусом `failed` и больше не обрабатываются!
|
||||
|
||||
---
|
||||
|
||||
## 🔧 **КОМАНДЫ:**
|
||||
|
||||
### Проверить статус:
|
||||
```bash
|
||||
./check_crawler_status.sh
|
||||
```
|
||||
|
||||
### Смотреть логи:
|
||||
```bash
|
||||
tail -f smart_crawler_output.log
|
||||
```
|
||||
|
||||
### Остановить:
|
||||
```bash
|
||||
pkill -f smart_crawler.py
|
||||
```
|
||||
|
||||
### Перезапустить:
|
||||
```bash
|
||||
nohup python3 smart_crawler.py > smart_crawler_output.log 2>&1 &
|
||||
```
|
||||
|
||||
---
|
||||
|
||||
## 📈 **ОЖИДАЕМЫЕ ЭТАПЫ:**
|
||||
|
||||
| Этап | Отелей | Время | Завершение |
|
||||
|------|--------|-------|------------|
|
||||
| **Приоритет 1** | 295 | ~2 часа | 14.10 ~23:00 |
|
||||
| **Приоритет 2** | 5,533 | ~30 часов | 16.10 ~03:00 |
|
||||
| **Приоритет 3** | 10,213 | ~50 часов | 17.10 ~05:00 |
|
||||
|
||||
---
|
||||
|
||||
## 💾 **ЧТО СОХРАНЯЕТСЯ:**
|
||||
|
||||
### **Успешно скрауленные:**
|
||||
1. `hotel_website_meta` - метаданные (crawl_status = 'completed')
|
||||
2. `hotel_website_raw` - сырой HTML
|
||||
3. `hotel_website_processed` - очищенный текст
|
||||
|
||||
### **Проблемные сайты:**
|
||||
1. `hotel_website_meta` - запись с:
|
||||
- `crawl_status = 'failed'`
|
||||
- `error_message = 'ERR_NAME_NOT_RESOLVED'` (и т.д.)
|
||||
- `pages_crawled = 0`
|
||||
|
||||
**Повторно НЕ обрабатываются!** ✅
|
||||
|
||||
---
|
||||
|
||||
## 🏆 **ПРЕИМУЩЕСТВА:**
|
||||
|
||||
✅ Добивает почти готовые регионы → быстрые результаты
|
||||
✅ Помечает битые сайты → не тратим время повторно
|
||||
✅ Приоритизация → важные регионы первыми
|
||||
✅ Сохраняет прогресс → можно перезапустить в любой момент
|
||||
|
||||
---
|
||||
|
||||
**Краулер работает в фоне! Проверим логи через час!** 🚀
|
||||
|
||||
---
|
||||
|
||||
**Создано:** 14 октября 2025, 21:03
|
||||
**Автор:** AI Assistant
|
||||
|
||||
Reference in New Issue
Block a user