153 lines
5.0 KiB
Markdown
153 lines
5.0 KiB
Markdown
|
|
# 🚀 УМНЫЙ КРАУЛЕР С ПРИОРИТЕТАМИ - ЗАПУЩЕН
|
|||
|
|
|
|||
|
|
**Дата старта:** 14 октября 2025, 21:02
|
|||
|
|
**PID:** 1776119
|
|||
|
|
**Статус:** ✅ РАБОТАЕТ
|
|||
|
|
**Лог:** `smart_crawler_output.log`
|
|||
|
|
|
|||
|
|
---
|
|||
|
|
|
|||
|
|
## 🎯 **СТРАТЕГИЯ КРАУЛИНГА:**
|
|||
|
|
|
|||
|
|
### **1️⃣ ПРИОРИТЕТ 1: Почти готовые регионы (70%+)**
|
|||
|
|
**Отелей:** 295
|
|||
|
|
|
|||
|
|
**Регионы (12):**
|
|||
|
|
- Воронежская область - осталось 18 (89%)
|
|||
|
|
- Амурская область - осталось 7 (89%)
|
|||
|
|
- Брянская область - осталось 8 (86%)
|
|||
|
|
- Алтайский край - осталось 41 (85%)
|
|||
|
|
- Владимирская область - осталось 25 (85%)
|
|||
|
|
- Орловская область - осталось 6 (83%)
|
|||
|
|
- Архангельская область - осталось 23 (82%)
|
|||
|
|
- Волгоградская область - осталось 42 (82%)
|
|||
|
|
- Камчатский край - осталось 20 (80%)
|
|||
|
|
- Вологодская область - осталось 33 (80%)
|
|||
|
|
- Белгородская область - осталось 21 (77%)
|
|||
|
|
- Астраханская область - осталось 51 (76%)
|
|||
|
|
|
|||
|
|
**Время:** ~1-2 часа
|
|||
|
|
|
|||
|
|
---
|
|||
|
|
|
|||
|
|
### **2️⃣ ПРИОРИТЕТ 2: Крупные регионы**
|
|||
|
|
**Отелей:** 5,533
|
|||
|
|
|
|||
|
|
**Регионы (5):**
|
|||
|
|
1. г. Москва - 1,340 отелей
|
|||
|
|
2. Краснодарский край - 2,297 отелей
|
|||
|
|
3. Московская область - 928 отелей
|
|||
|
|
4. Республика Крым - 968 отелей
|
|||
|
|
5. г. Санкт-Петербург - осталось 153
|
|||
|
|
|
|||
|
|
**Время:** ~20-30 часов
|
|||
|
|
|
|||
|
|
---
|
|||
|
|
|
|||
|
|
### **3️⃣ ПРИОРИТЕТ 3: Остальные регионы**
|
|||
|
|
**Отелей:** 10,213
|
|||
|
|
|
|||
|
|
**Время:** ~40-50 часов
|
|||
|
|
|
|||
|
|
---
|
|||
|
|
|
|||
|
|
## 📊 **ОБЩАЯ СТАТИСТИКА:**
|
|||
|
|
|
|||
|
|
- **Всего к обработке:** 16,041 отелей
|
|||
|
|
- **Приоритет 1:** 295 отелей (2%)
|
|||
|
|
- **Приоритет 2:** 5,533 отелей (35%)
|
|||
|
|
- **Приоритет 3:** 10,213 отелей (63%)
|
|||
|
|
|
|||
|
|
**Общее время:** ~60-80 часов (2.5-3.5 дня)
|
|||
|
|
|
|||
|
|
---
|
|||
|
|
|
|||
|
|
## ✅ **ЧТО УЛУЧШЕНО:**
|
|||
|
|
|
|||
|
|
### **1. Умная приоритизация:**
|
|||
|
|
- ✅ Сначала **добиваем почти готовые** регионы (70%+)
|
|||
|
|
- ✅ Потом **крупные** (Москва, Краснодар, Крым)
|
|||
|
|
- ✅ В конце остальные
|
|||
|
|
|
|||
|
|
### **2. Пометка битых сайтов:**
|
|||
|
|
- 🔴 **dns_error** - DNS не разрешается (сайт не существует)
|
|||
|
|
- 🔴 **ssl_error** - Проблемы с SSL сертификатом
|
|||
|
|
- 🔴 **connection_refused** - Сервер отклонил подключение
|
|||
|
|
- 🔴 **timeout** - Таймаут (медленный сайт)
|
|||
|
|
- 🔴 **http_error** - HTTP ошибка (403, 404, 500 и т.д.)
|
|||
|
|
- 🔴 **no_content** - Нет контента
|
|||
|
|
- 🔴 **critical_error** - Критическая ошибка
|
|||
|
|
|
|||
|
|
### **3. Не трогаем повторно:**
|
|||
|
|
Битые сайты записываются в `hotel_website_meta` со статусом `failed` и больше не обрабатываются!
|
|||
|
|
|
|||
|
|
---
|
|||
|
|
|
|||
|
|
## 🔧 **КОМАНДЫ:**
|
|||
|
|
|
|||
|
|
### Проверить статус:
|
|||
|
|
```bash
|
|||
|
|
./check_crawler_status.sh
|
|||
|
|
```
|
|||
|
|
|
|||
|
|
### Смотреть логи:
|
|||
|
|
```bash
|
|||
|
|
tail -f smart_crawler_output.log
|
|||
|
|
```
|
|||
|
|
|
|||
|
|
### Остановить:
|
|||
|
|
```bash
|
|||
|
|
pkill -f smart_crawler.py
|
|||
|
|
```
|
|||
|
|
|
|||
|
|
### Перезапустить:
|
|||
|
|
```bash
|
|||
|
|
nohup python3 smart_crawler.py > smart_crawler_output.log 2>&1 &
|
|||
|
|
```
|
|||
|
|
|
|||
|
|
---
|
|||
|
|
|
|||
|
|
## 📈 **ОЖИДАЕМЫЕ ЭТАПЫ:**
|
|||
|
|
|
|||
|
|
| Этап | Отелей | Время | Завершение |
|
|||
|
|
|------|--------|-------|------------|
|
|||
|
|
| **Приоритет 1** | 295 | ~2 часа | 14.10 ~23:00 |
|
|||
|
|
| **Приоритет 2** | 5,533 | ~30 часов | 16.10 ~03:00 |
|
|||
|
|
| **Приоритет 3** | 10,213 | ~50 часов | 17.10 ~05:00 |
|
|||
|
|
|
|||
|
|
---
|
|||
|
|
|
|||
|
|
## 💾 **ЧТО СОХРАНЯЕТСЯ:**
|
|||
|
|
|
|||
|
|
### **Успешно скрауленные:**
|
|||
|
|
1. `hotel_website_meta` - метаданные (crawl_status = 'completed')
|
|||
|
|
2. `hotel_website_raw` - сырой HTML
|
|||
|
|
3. `hotel_website_processed` - очищенный текст
|
|||
|
|
|
|||
|
|
### **Проблемные сайты:**
|
|||
|
|
1. `hotel_website_meta` - запись с:
|
|||
|
|
- `crawl_status = 'failed'`
|
|||
|
|
- `error_message = 'ERR_NAME_NOT_RESOLVED'` (и т.д.)
|
|||
|
|
- `pages_crawled = 0`
|
|||
|
|
|
|||
|
|
**Повторно НЕ обрабатываются!** ✅
|
|||
|
|
|
|||
|
|
---
|
|||
|
|
|
|||
|
|
## 🏆 **ПРЕИМУЩЕСТВА:**
|
|||
|
|
|
|||
|
|
✅ Добивает почти готовые регионы → быстрые результаты
|
|||
|
|
✅ Помечает битые сайты → не тратим время повторно
|
|||
|
|
✅ Приоритизация → важные регионы первыми
|
|||
|
|
✅ Сохраняет прогресс → можно перезапустить в любой момент
|
|||
|
|
|
|||
|
|
---
|
|||
|
|
|
|||
|
|
**Краулер работает в фоне! Проверим логи через час!** 🚀
|
|||
|
|
|
|||
|
|
---
|
|||
|
|
|
|||
|
|
**Создано:** 14 октября 2025, 21:03
|
|||
|
|
**Автор:** AI Assistant
|
|||
|
|
|