Проект аудита отелей: основные скрипты и документация

- Краулеры: smart_crawler.py, regional_crawler.py
- Аудит: audit_orel_to_excel.py, audit_chukotka_to_excel.py
- РКН проверка: check_rkn_registry.py, recheck_unclear_rkn.py
- Отчёты: create_orel_horizontal_report.py
- Обработка: process_all_hotels_embeddings.py
- Документация: README.md, DB_SCHEMA_REFERENCE.md
This commit is contained in:
Фёдор
2025-10-16 10:52:09 +03:00
parent 545e199389
commit 0cf3297290
105 changed files with 28743 additions and 0 deletions

141
CRAWLER_STATUS.md Normal file
View File

@@ -0,0 +1,141 @@
# 🚀 МАССОВЫЙ КРАУЛИНГ ЗАПУЩЕН
**Дата старта:** 14 октября 2025, 07:35
**PID:** 1439902
**Статус:** ✅ РАБОТАЕТ
---
## 📊 СТАТИСТИКА:
| Параметр | Значение |
|----------|----------|
| **Всего отелей с сайтами** | 18,594 |
| **Уже обработано** | 923 (5%) |
| **Осталось обработать** | **17,672 (95%)** |
| **Обработка пачками** | По 50 отелей |
| **Параллельно** | 3 браузера |
| **Страниц на сайт** | До 15 страниц |
---
## ⏱️ ПРИМЕРНОЕ ВРЕМЯ:
- **Скорость:** ~3-5 отелей/минуту
- **Ожидаемое время:** ~60-100 часов (2.5-4 дня)
- **Завершение:** ~17-18 октября
---
## 🎯 ТОП-10 РЕГИОНОВ В ОЧЕРЕДИ:
1. Краснодарский край: 2,297 отелей
2. г. Москва: 1,535 отелей
3. Республика Крым: 968 отелей
4. Московская область: 928 отелей
5. Ставропольский край: 433 отелей
6. Свердловская область: 431 отелей
7. Республика Татарстан: 431 отелей
8. Ростовская область: 408 отелей
9. Республика Башкортостан: 342 отелей
10. Ленинградская область: 336 отелей
---
## 📋 КОМАНДЫ ДЛЯ УПРАВЛЕНИЯ:
### Проверить статус:
```bash
cd /root/engine/public_oversight/hotels
./check_crawler_status.sh
```
### Посмотреть логи:
```bash
tail -f mass_crawler_output.log
```
или детальный лог:
```bash
tail -f mass_crawler_*.log
```
### Остановить краулер:
```bash
pkill -f mass_crawler.py
```
### Перезапустить:
```bash
cd /root/engine/public_oversight/hotels
nohup python3 mass_crawler.py > mass_crawler_output.log 2>&1 &
```
### Проверить прогресс в БД:
```bash
python3 check_progress.py
```
---
## 💾 ЧТО СОХРАНЯЕТСЯ:
### 1. `hotel_website_meta`
- Метаданные о краулинге
- Количество страниц
- Статус
### 2. `hotel_website_raw`
- Сырой HTML всех страниц
- HTTP статусы
- Временные метки
### 3. `hotel_website_processed`
- Очищенный текст
- Готов для эмбеддингов
- Готов для аудита
---
## 🔍 МОНИТОРИНГ:
**Основной лог:** `mass_crawler_output.log`
**Детальный лог:** `mass_crawler_20251014_073550.log`
**Что отслеживать:**
- ✅ Количество успешных краулингов
- ⚠️ Ошибки подключения (таймауты)
- 📊 Скорость обработки (отели/мин)
---
## ⚠️ ИЗВЕСТНЫЕ ПРОБЛЕМЫ:
1. **Таймауты** - некоторые сайты медленные (30 сек)
2. **Блокировки** - редко, но могут блокировать IP
3. **Битые ссылки** - ~5-10% сайтов недоступны
**Всё это нормально и обрабатывается!**
---
## 📈 ПОСЛЕ ЗАВЕРШЕНИЯ:
1. **Обработка эмбеддингов** - `process_all_hotels_embeddings.py`
2. **Запуск аудита через n8n** - AI Agent + NER
3. **Генерация отчётов** - Excel по регионам
---
## ✅ ИТОГ:
**Краулер работает в фоне 24/7 и обработает все 17,672 отеля за ~3-4 дня!**
Можно спокойно заниматься другими делами - всё идёт автоматически! 🚀
---
**Создано:** 14 октября 2025, 07:36
**Автор:** AI Assistant