- Краулеры: smart_crawler.py, regional_crawler.py - Аудит: audit_orel_to_excel.py, audit_chukotka_to_excel.py - РКН проверка: check_rkn_registry.py, recheck_unclear_rkn.py - Отчёты: create_orel_horizontal_report.py - Обработка: process_all_hotels_embeddings.py - Документация: README.md, DB_SCHEMA_REFERENCE.md
142 lines
3.9 KiB
Markdown
142 lines
3.9 KiB
Markdown
# 🚀 МАССОВЫЙ КРАУЛИНГ ЗАПУЩЕН
|
||
|
||
**Дата старта:** 14 октября 2025, 07:35
|
||
**PID:** 1439902
|
||
**Статус:** ✅ РАБОТАЕТ
|
||
|
||
---
|
||
|
||
## 📊 СТАТИСТИКА:
|
||
|
||
| Параметр | Значение |
|
||
|----------|----------|
|
||
| **Всего отелей с сайтами** | 18,594 |
|
||
| **Уже обработано** | 923 (5%) |
|
||
| **Осталось обработать** | **17,672 (95%)** |
|
||
| **Обработка пачками** | По 50 отелей |
|
||
| **Параллельно** | 3 браузера |
|
||
| **Страниц на сайт** | До 15 страниц |
|
||
|
||
---
|
||
|
||
## ⏱️ ПРИМЕРНОЕ ВРЕМЯ:
|
||
|
||
- **Скорость:** ~3-5 отелей/минуту
|
||
- **Ожидаемое время:** ~60-100 часов (2.5-4 дня)
|
||
- **Завершение:** ~17-18 октября
|
||
|
||
---
|
||
|
||
## 🎯 ТОП-10 РЕГИОНОВ В ОЧЕРЕДИ:
|
||
|
||
1. Краснодарский край: 2,297 отелей
|
||
2. г. Москва: 1,535 отелей
|
||
3. Республика Крым: 968 отелей
|
||
4. Московская область: 928 отелей
|
||
5. Ставропольский край: 433 отелей
|
||
6. Свердловская область: 431 отелей
|
||
7. Республика Татарстан: 431 отелей
|
||
8. Ростовская область: 408 отелей
|
||
9. Республика Башкортостан: 342 отелей
|
||
10. Ленинградская область: 336 отелей
|
||
|
||
---
|
||
|
||
## 📋 КОМАНДЫ ДЛЯ УПРАВЛЕНИЯ:
|
||
|
||
### Проверить статус:
|
||
```bash
|
||
cd /root/engine/public_oversight/hotels
|
||
./check_crawler_status.sh
|
||
```
|
||
|
||
### Посмотреть логи:
|
||
```bash
|
||
tail -f mass_crawler_output.log
|
||
```
|
||
|
||
или детальный лог:
|
||
```bash
|
||
tail -f mass_crawler_*.log
|
||
```
|
||
|
||
### Остановить краулер:
|
||
```bash
|
||
pkill -f mass_crawler.py
|
||
```
|
||
|
||
### Перезапустить:
|
||
```bash
|
||
cd /root/engine/public_oversight/hotels
|
||
nohup python3 mass_crawler.py > mass_crawler_output.log 2>&1 &
|
||
```
|
||
|
||
### Проверить прогресс в БД:
|
||
```bash
|
||
python3 check_progress.py
|
||
```
|
||
|
||
---
|
||
|
||
## 💾 ЧТО СОХРАНЯЕТСЯ:
|
||
|
||
### 1. `hotel_website_meta`
|
||
- Метаданные о краулинге
|
||
- Количество страниц
|
||
- Статус
|
||
|
||
### 2. `hotel_website_raw`
|
||
- Сырой HTML всех страниц
|
||
- HTTP статусы
|
||
- Временные метки
|
||
|
||
### 3. `hotel_website_processed`
|
||
- Очищенный текст
|
||
- Готов для эмбеддингов
|
||
- Готов для аудита
|
||
|
||
---
|
||
|
||
## 🔍 МОНИТОРИНГ:
|
||
|
||
**Основной лог:** `mass_crawler_output.log`
|
||
**Детальный лог:** `mass_crawler_20251014_073550.log`
|
||
|
||
**Что отслеживать:**
|
||
- ✅ Количество успешных краулингов
|
||
- ⚠️ Ошибки подключения (таймауты)
|
||
- 📊 Скорость обработки (отели/мин)
|
||
|
||
---
|
||
|
||
## ⚠️ ИЗВЕСТНЫЕ ПРОБЛЕМЫ:
|
||
|
||
1. **Таймауты** - некоторые сайты медленные (30 сек)
|
||
2. **Блокировки** - редко, но могут блокировать IP
|
||
3. **Битые ссылки** - ~5-10% сайтов недоступны
|
||
|
||
**Всё это нормально и обрабатывается!** ✅
|
||
|
||
---
|
||
|
||
## 📈 ПОСЛЕ ЗАВЕРШЕНИЯ:
|
||
|
||
1. **Обработка эмбеддингов** - `process_all_hotels_embeddings.py`
|
||
2. **Запуск аудита через n8n** - AI Agent + NER
|
||
3. **Генерация отчётов** - Excel по регионам
|
||
|
||
---
|
||
|
||
## ✅ ИТОГ:
|
||
|
||
**Краулер работает в фоне 24/7 и обработает все 17,672 отеля за ~3-4 дня!**
|
||
|
||
Можно спокойно заниматься другими делами - всё идёт автоматически! 🚀
|
||
|
||
---
|
||
|
||
**Создано:** 14 октября 2025, 07:36
|
||
**Автор:** AI Assistant
|
||
|
||
|