Проект аудита отелей: основные скрипты и документация

- Краулеры: smart_crawler.py, regional_crawler.py
- Аудит: audit_orel_to_excel.py, audit_chukotka_to_excel.py
- РКН проверка: check_rkn_registry.py, recheck_unclear_rkn.py
- Отчёты: create_orel_horizontal_report.py
- Обработка: process_all_hotels_embeddings.py
- Документация: README.md, DB_SCHEMA_REFERENCE.md
This commit is contained in:
Фёдор
2025-10-16 10:52:09 +03:00
parent 545e199389
commit 0cf3297290
105 changed files with 28743 additions and 0 deletions

152
SMART_CRAWLER_STATUS.md Normal file
View File

@@ -0,0 +1,152 @@
# 🚀 УМНЫЙ КРАУЛЕР С ПРИОРИТЕТАМИ - ЗАПУЩЕН
**Дата старта:** 14 октября 2025, 21:02
**PID:** 1776119
**Статус:** ✅ РАБОТАЕТ
**Лог:** `smart_crawler_output.log`
---
## 🎯 **СТРАТЕГИЯ КРАУЛИНГА:**
### **1⃣ ПРИОРИТЕТ 1: Почти готовые регионы (70%+)**
**Отелей:** 295
**Регионы (12):**
- Воронежская область - осталось 18 (89%)
- Амурская область - осталось 7 (89%)
- Брянская область - осталось 8 (86%)
- Алтайский край - осталось 41 (85%)
- Владимирская область - осталось 25 (85%)
- Орловская область - осталось 6 (83%)
- Архангельская область - осталось 23 (82%)
- Волгоградская область - осталось 42 (82%)
- Камчатский край - осталось 20 (80%)
- Вологодская область - осталось 33 (80%)
- Белгородская область - осталось 21 (77%)
- Астраханская область - осталось 51 (76%)
**Время:** ~1-2 часа
---
### **2⃣ ПРИОРИТЕТ 2: Крупные регионы**
**Отелей:** 5,533
**Регионы (5):**
1. г. Москва - 1,340 отелей
2. Краснодарский край - 2,297 отелей
3. Московская область - 928 отелей
4. Республика Крым - 968 отелей
5. г. Санкт-Петербург - осталось 153
**Время:** ~20-30 часов
---
### **3⃣ ПРИОРИТЕТ 3: Остальные регионы**
**Отелей:** 10,213
**Время:** ~40-50 часов
---
## 📊 **ОБЩАЯ СТАТИСТИКА:**
- **Всего к обработке:** 16,041 отелей
- **Приоритет 1:** 295 отелей (2%)
- **Приоритет 2:** 5,533 отелей (35%)
- **Приоритет 3:** 10,213 отелей (63%)
**Общее время:** ~60-80 часов (2.5-3.5 дня)
---
## ✅ **ЧТО УЛУЧШЕНО:**
### **1. Умная приоритизация:**
- ✅ Сначала **добиваем почти готовые** регионы (70%+)
- ✅ Потом **крупные** (Москва, Краснодар, Крым)
-В конце остальные
### **2. Пометка битых сайтов:**
- 🔴 **dns_error** - DNS не разрешается (сайт не существует)
- 🔴 **ssl_error** - Проблемы с SSL сертификатом
- 🔴 **connection_refused** - Сервер отклонил подключение
- 🔴 **timeout** - Таймаут (медленный сайт)
- 🔴 **http_error** - HTTP ошибка (403, 404, 500 и т.д.)
- 🔴 **no_content** - Нет контента
- 🔴 **critical_error** - Критическая ошибка
### **3. Не трогаем повторно:**
Битые сайты записываются в `hotel_website_meta` со статусом `failed` и больше не обрабатываются!
---
## 🔧 **КОМАНДЫ:**
### Проверить статус:
```bash
./check_crawler_status.sh
```
### Смотреть логи:
```bash
tail -f smart_crawler_output.log
```
### Остановить:
```bash
pkill -f smart_crawler.py
```
### Перезапустить:
```bash
nohup python3 smart_crawler.py > smart_crawler_output.log 2>&1 &
```
---
## 📈 **ОЖИДАЕМЫЕ ЭТАПЫ:**
| Этап | Отелей | Время | Завершение |
|------|--------|-------|------------|
| **Приоритет 1** | 295 | ~2 часа | 14.10 ~23:00 |
| **Приоритет 2** | 5,533 | ~30 часов | 16.10 ~03:00 |
| **Приоритет 3** | 10,213 | ~50 часов | 17.10 ~05:00 |
---
## 💾 **ЧТО СОХРАНЯЕТСЯ:**
### **Успешно скрауленные:**
1. `hotel_website_meta` - метаданные (crawl_status = 'completed')
2. `hotel_website_raw` - сырой HTML
3. `hotel_website_processed` - очищенный текст
### **Проблемные сайты:**
1. `hotel_website_meta` - запись с:
- `crawl_status = 'failed'`
- `error_message = 'ERR_NAME_NOT_RESOLVED'` (и т.д.)
- `pages_crawled = 0`
**Повторно НЕ обрабатываются!**
---
## 🏆 **ПРЕИМУЩЕСТВА:**
✅ Добивает почти готовые регионы → быстрые результаты
✅ Помечает битые сайты → не тратим время повторно
✅ Приоритизация → важные регионы первыми
✅ Сохраняет прогресс → можно перезапустить в любой момент
---
**Краулер работает в фоне! Проверим логи через час!** 🚀
---
**Создано:** 14 октября 2025, 21:03
**Автор:** AI Assistant