Files
hotels/SMART_CRAWLER_STATUS.md
Фёдор 0cf3297290 Проект аудита отелей: основные скрипты и документация
- Краулеры: smart_crawler.py, regional_crawler.py
- Аудит: audit_orel_to_excel.py, audit_chukotka_to_excel.py
- РКН проверка: check_rkn_registry.py, recheck_unclear_rkn.py
- Отчёты: create_orel_horizontal_report.py
- Обработка: process_all_hotels_embeddings.py
- Документация: README.md, DB_SCHEMA_REFERENCE.md
2025-10-16 10:52:09 +03:00

153 lines
5.0 KiB
Markdown
Raw Blame History

This file contains invisible Unicode characters

This file contains invisible Unicode characters that are indistinguishable to humans but may be processed differently by a computer. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

# 🚀 УМНЫЙ КРАУЛЕР С ПРИОРИТЕТАМИ - ЗАПУЩЕН
**Дата старта:** 14 октября 2025, 21:02
**PID:** 1776119
**Статус:** ✅ РАБОТАЕТ
**Лог:** `smart_crawler_output.log`
---
## 🎯 **СТРАТЕГИЯ КРАУЛИНГА:**
### **1⃣ ПРИОРИТЕТ 1: Почти готовые регионы (70%+)**
**Отелей:** 295
**Регионы (12):**
- Воронежская область - осталось 18 (89%)
- Амурская область - осталось 7 (89%)
- Брянская область - осталось 8 (86%)
- Алтайский край - осталось 41 (85%)
- Владимирская область - осталось 25 (85%)
- Орловская область - осталось 6 (83%)
- Архангельская область - осталось 23 (82%)
- Волгоградская область - осталось 42 (82%)
- Камчатский край - осталось 20 (80%)
- Вологодская область - осталось 33 (80%)
- Белгородская область - осталось 21 (77%)
- Астраханская область - осталось 51 (76%)
**Время:** ~1-2 часа
---
### **2⃣ ПРИОРИТЕТ 2: Крупные регионы**
**Отелей:** 5,533
**Регионы (5):**
1. г. Москва - 1,340 отелей
2. Краснодарский край - 2,297 отелей
3. Московская область - 928 отелей
4. Республика Крым - 968 отелей
5. г. Санкт-Петербург - осталось 153
**Время:** ~20-30 часов
---
### **3⃣ ПРИОРИТЕТ 3: Остальные регионы**
**Отелей:** 10,213
**Время:** ~40-50 часов
---
## 📊 **ОБЩАЯ СТАТИСТИКА:**
- **Всего к обработке:** 16,041 отелей
- **Приоритет 1:** 295 отелей (2%)
- **Приоритет 2:** 5,533 отелей (35%)
- **Приоритет 3:** 10,213 отелей (63%)
**Общее время:** ~60-80 часов (2.5-3.5 дня)
---
## ✅ **ЧТО УЛУЧШЕНО:**
### **1. Умная приоритизация:**
- ✅ Сначала **добиваем почти готовые** регионы (70%+)
- ✅ Потом **крупные** (Москва, Краснодар, Крым)
-В конце остальные
### **2. Пометка битых сайтов:**
- 🔴 **dns_error** - DNS не разрешается (сайт не существует)
- 🔴 **ssl_error** - Проблемы с SSL сертификатом
- 🔴 **connection_refused** - Сервер отклонил подключение
- 🔴 **timeout** - Таймаут (медленный сайт)
- 🔴 **http_error** - HTTP ошибка (403, 404, 500 и т.д.)
- 🔴 **no_content** - Нет контента
- 🔴 **critical_error** - Критическая ошибка
### **3. Не трогаем повторно:**
Битые сайты записываются в `hotel_website_meta` со статусом `failed` и больше не обрабатываются!
---
## 🔧 **КОМАНДЫ:**
### Проверить статус:
```bash
./check_crawler_status.sh
```
### Смотреть логи:
```bash
tail -f smart_crawler_output.log
```
### Остановить:
```bash
pkill -f smart_crawler.py
```
### Перезапустить:
```bash
nohup python3 smart_crawler.py > smart_crawler_output.log 2>&1 &
```
---
## 📈 **ОЖИДАЕМЫЕ ЭТАПЫ:**
| Этап | Отелей | Время | Завершение |
|------|--------|-------|------------|
| **Приоритет 1** | 295 | ~2 часа | 14.10 ~23:00 |
| **Приоритет 2** | 5,533 | ~30 часов | 16.10 ~03:00 |
| **Приоритет 3** | 10,213 | ~50 часов | 17.10 ~05:00 |
---
## 💾 **ЧТО СОХРАНЯЕТСЯ:**
### **Успешно скрауленные:**
1. `hotel_website_meta` - метаданные (crawl_status = 'completed')
2. `hotel_website_raw` - сырой HTML
3. `hotel_website_processed` - очищенный текст
### **Проблемные сайты:**
1. `hotel_website_meta` - запись с:
- `crawl_status = 'failed'`
- `error_message = 'ERR_NAME_NOT_RESOLVED'` (и т.д.)
- `pages_crawled = 0`
**Повторно НЕ обрабатываются!**
---
## 🏆 **ПРЕИМУЩЕСТВА:**
✅ Добивает почти готовые регионы → быстрые результаты
✅ Помечает битые сайты → не тратим время повторно
✅ Приоритизация → важные регионы первыми
✅ Сохраняет прогресс → можно перезапустить в любой момент
---
**Краулер работает в фоне! Проверим логи через час!** 🚀
---
**Создано:** 14 октября 2025, 21:03
**Автор:** AI Assistant