Проект аудита отелей: основные скрипты и документация
- Краулеры: smart_crawler.py, regional_crawler.py - Аудит: audit_orel_to_excel.py, audit_chukotka_to_excel.py - РКН проверка: check_rkn_registry.py, recheck_unclear_rkn.py - Отчёты: create_orel_horizontal_report.py - Обработка: process_all_hotels_embeddings.py - Документация: README.md, DB_SCHEMA_REFERENCE.md
This commit is contained in:
141
CRAWLER_STATUS.md
Normal file
141
CRAWLER_STATUS.md
Normal file
@@ -0,0 +1,141 @@
|
||||
# 🚀 МАССОВЫЙ КРАУЛИНГ ЗАПУЩЕН
|
||||
|
||||
**Дата старта:** 14 октября 2025, 07:35
|
||||
**PID:** 1439902
|
||||
**Статус:** ✅ РАБОТАЕТ
|
||||
|
||||
---
|
||||
|
||||
## 📊 СТАТИСТИКА:
|
||||
|
||||
| Параметр | Значение |
|
||||
|----------|----------|
|
||||
| **Всего отелей с сайтами** | 18,594 |
|
||||
| **Уже обработано** | 923 (5%) |
|
||||
| **Осталось обработать** | **17,672 (95%)** |
|
||||
| **Обработка пачками** | По 50 отелей |
|
||||
| **Параллельно** | 3 браузера |
|
||||
| **Страниц на сайт** | До 15 страниц |
|
||||
|
||||
---
|
||||
|
||||
## ⏱️ ПРИМЕРНОЕ ВРЕМЯ:
|
||||
|
||||
- **Скорость:** ~3-5 отелей/минуту
|
||||
- **Ожидаемое время:** ~60-100 часов (2.5-4 дня)
|
||||
- **Завершение:** ~17-18 октября
|
||||
|
||||
---
|
||||
|
||||
## 🎯 ТОП-10 РЕГИОНОВ В ОЧЕРЕДИ:
|
||||
|
||||
1. Краснодарский край: 2,297 отелей
|
||||
2. г. Москва: 1,535 отелей
|
||||
3. Республика Крым: 968 отелей
|
||||
4. Московская область: 928 отелей
|
||||
5. Ставропольский край: 433 отелей
|
||||
6. Свердловская область: 431 отелей
|
||||
7. Республика Татарстан: 431 отелей
|
||||
8. Ростовская область: 408 отелей
|
||||
9. Республика Башкортостан: 342 отелей
|
||||
10. Ленинградская область: 336 отелей
|
||||
|
||||
---
|
||||
|
||||
## 📋 КОМАНДЫ ДЛЯ УПРАВЛЕНИЯ:
|
||||
|
||||
### Проверить статус:
|
||||
```bash
|
||||
cd /root/engine/public_oversight/hotels
|
||||
./check_crawler_status.sh
|
||||
```
|
||||
|
||||
### Посмотреть логи:
|
||||
```bash
|
||||
tail -f mass_crawler_output.log
|
||||
```
|
||||
|
||||
или детальный лог:
|
||||
```bash
|
||||
tail -f mass_crawler_*.log
|
||||
```
|
||||
|
||||
### Остановить краулер:
|
||||
```bash
|
||||
pkill -f mass_crawler.py
|
||||
```
|
||||
|
||||
### Перезапустить:
|
||||
```bash
|
||||
cd /root/engine/public_oversight/hotels
|
||||
nohup python3 mass_crawler.py > mass_crawler_output.log 2>&1 &
|
||||
```
|
||||
|
||||
### Проверить прогресс в БД:
|
||||
```bash
|
||||
python3 check_progress.py
|
||||
```
|
||||
|
||||
---
|
||||
|
||||
## 💾 ЧТО СОХРАНЯЕТСЯ:
|
||||
|
||||
### 1. `hotel_website_meta`
|
||||
- Метаданные о краулинге
|
||||
- Количество страниц
|
||||
- Статус
|
||||
|
||||
### 2. `hotel_website_raw`
|
||||
- Сырой HTML всех страниц
|
||||
- HTTP статусы
|
||||
- Временные метки
|
||||
|
||||
### 3. `hotel_website_processed`
|
||||
- Очищенный текст
|
||||
- Готов для эмбеддингов
|
||||
- Готов для аудита
|
||||
|
||||
---
|
||||
|
||||
## 🔍 МОНИТОРИНГ:
|
||||
|
||||
**Основной лог:** `mass_crawler_output.log`
|
||||
**Детальный лог:** `mass_crawler_20251014_073550.log`
|
||||
|
||||
**Что отслеживать:**
|
||||
- ✅ Количество успешных краулингов
|
||||
- ⚠️ Ошибки подключения (таймауты)
|
||||
- 📊 Скорость обработки (отели/мин)
|
||||
|
||||
---
|
||||
|
||||
## ⚠️ ИЗВЕСТНЫЕ ПРОБЛЕМЫ:
|
||||
|
||||
1. **Таймауты** - некоторые сайты медленные (30 сек)
|
||||
2. **Блокировки** - редко, но могут блокировать IP
|
||||
3. **Битые ссылки** - ~5-10% сайтов недоступны
|
||||
|
||||
**Всё это нормально и обрабатывается!** ✅
|
||||
|
||||
---
|
||||
|
||||
## 📈 ПОСЛЕ ЗАВЕРШЕНИЯ:
|
||||
|
||||
1. **Обработка эмбеддингов** - `process_all_hotels_embeddings.py`
|
||||
2. **Запуск аудита через n8n** - AI Agent + NER
|
||||
3. **Генерация отчётов** - Excel по регионам
|
||||
|
||||
---
|
||||
|
||||
## ✅ ИТОГ:
|
||||
|
||||
**Краулер работает в фоне 24/7 и обработает все 17,672 отеля за ~3-4 дня!**
|
||||
|
||||
Можно спокойно заниматься другими делами - всё идёт автоматически! 🚀
|
||||
|
||||
---
|
||||
|
||||
**Создано:** 14 октября 2025, 07:36
|
||||
**Автор:** AI Assistant
|
||||
|
||||
|
||||
Reference in New Issue
Block a user