Files
hotels/CRAWLER_STATUS.md
Фёдор 0cf3297290 Проект аудита отелей: основные скрипты и документация
- Краулеры: smart_crawler.py, regional_crawler.py
- Аудит: audit_orel_to_excel.py, audit_chukotka_to_excel.py
- РКН проверка: check_rkn_registry.py, recheck_unclear_rkn.py
- Отчёты: create_orel_horizontal_report.py
- Обработка: process_all_hotels_embeddings.py
- Документация: README.md, DB_SCHEMA_REFERENCE.md
2025-10-16 10:52:09 +03:00

142 lines
3.9 KiB
Markdown
Raw Permalink Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

# 🚀 МАССОВЫЙ КРАУЛИНГ ЗАПУЩЕН
**Дата старта:** 14 октября 2025, 07:35
**PID:** 1439902
**Статус:** ✅ РАБОТАЕТ
---
## 📊 СТАТИСТИКА:
| Параметр | Значение |
|----------|----------|
| **Всего отелей с сайтами** | 18,594 |
| **Уже обработано** | 923 (5%) |
| **Осталось обработать** | **17,672 (95%)** |
| **Обработка пачками** | По 50 отелей |
| **Параллельно** | 3 браузера |
| **Страниц на сайт** | До 15 страниц |
---
## ⏱️ ПРИМЕРНОЕ ВРЕМЯ:
- **Скорость:** ~3-5 отелей/минуту
- **Ожидаемое время:** ~60-100 часов (2.5-4 дня)
- **Завершение:** ~17-18 октября
---
## 🎯 ТОП-10 РЕГИОНОВ В ОЧЕРЕДИ:
1. Краснодарский край: 2,297 отелей
2. г. Москва: 1,535 отелей
3. Республика Крым: 968 отелей
4. Московская область: 928 отелей
5. Ставропольский край: 433 отелей
6. Свердловская область: 431 отелей
7. Республика Татарстан: 431 отелей
8. Ростовская область: 408 отелей
9. Республика Башкортостан: 342 отелей
10. Ленинградская область: 336 отелей
---
## 📋 КОМАНДЫ ДЛЯ УПРАВЛЕНИЯ:
### Проверить статус:
```bash
cd /root/engine/public_oversight/hotels
./check_crawler_status.sh
```
### Посмотреть логи:
```bash
tail -f mass_crawler_output.log
```
или детальный лог:
```bash
tail -f mass_crawler_*.log
```
### Остановить краулер:
```bash
pkill -f mass_crawler.py
```
### Перезапустить:
```bash
cd /root/engine/public_oversight/hotels
nohup python3 mass_crawler.py > mass_crawler_output.log 2>&1 &
```
### Проверить прогресс в БД:
```bash
python3 check_progress.py
```
---
## 💾 ЧТО СОХРАНЯЕТСЯ:
### 1. `hotel_website_meta`
- Метаданные о краулинге
- Количество страниц
- Статус
### 2. `hotel_website_raw`
- Сырой HTML всех страниц
- HTTP статусы
- Временные метки
### 3. `hotel_website_processed`
- Очищенный текст
- Готов для эмбеддингов
- Готов для аудита
---
## 🔍 МОНИТОРИНГ:
**Основной лог:** `mass_crawler_output.log`
**Детальный лог:** `mass_crawler_20251014_073550.log`
**Что отслеживать:**
- ✅ Количество успешных краулингов
- ⚠️ Ошибки подключения (таймауты)
- 📊 Скорость обработки (отели/мин)
---
## ⚠️ ИЗВЕСТНЫЕ ПРОБЛЕМЫ:
1. **Таймауты** - некоторые сайты медленные (30 сек)
2. **Блокировки** - редко, но могут блокировать IP
3. **Битые ссылки** - ~5-10% сайтов недоступны
**Всё это нормально и обрабатывается!**
---
## 📈 ПОСЛЕ ЗАВЕРШЕНИЯ:
1. **Обработка эмбеддингов** - `process_all_hotels_embeddings.py`
2. **Запуск аудита через n8n** - AI Agent + NER
3. **Генерация отчётов** - Excel по регионам
---
## ✅ ИТОГ:
**Краулер работает в фоне 24/7 и обработает все 17,672 отеля за ~3-4 дня!**
Можно спокойно заниматься другими делами - всё идёт автоматически! 🚀
---
**Создано:** 14 октября 2025, 07:36
**Автор:** AI Assistant