Files
hotels/BROWSERLESS_PARALLEL_STATUS.md

63 lines
1.8 KiB
Markdown
Raw Normal View History

# 🚀 МНОГОПОТОЧНЫЙ BROWSERLESS КРАУЛЕР
## ✅ ЗАПУЩЕН В ФОНЕ
**Процесс:** `python3 browserless_crawler_parallel.py`
**Потоков:** 5 параллельных
**Лог:** `browserless_parallel.log`
## ⚡ СКОРОСТЬ
**Однопоточный:** ~6-7 часов
**5 потоков:** ~1.5-2 часа ⚡ (в 5 раз быстрее!)
## 📊 ЗАДАЧА
Перекраулинг **2,045 failed отелей** через Browserless API
### Особенности:
-**5 параллельных потоков**
- ✅ HTTP и HTTPS
-С www и без www
- ✅ До 6 вариантов URL на отель
-Не падает при ошибках
- ✅ Работает даже при закрытии терминала
- 📊 Промежуточная статистика каждые 50 отелей
## 🔧 ПРОВЕРКА СТАТУСА
```bash
# Процесс работает?
ps aux | grep browserless_crawler_parallel | grep -v grep
# Последние логи
tail -20 browserless_parallel.log
# Прогресс в реальном времени
tail -f browserless_parallel.log
# Сколько успешно
grep "✅ Найден:" browserless_parallel.log | wc -l
# Промежуточная статистика
grep "ПРОМЕЖУТОЧНАЯ СТАТИСТИКА" browserless_parallel.log | tail -1
```
## 🛑 ОСТАНОВИТЬ
```bash
pkill -f browserless_crawler_parallel
```
## 📈 ОЖИДАЕМЫЕ ПОКАЗАТЕЛИ
- **Скорость:** ~1-2 отеля/сек
- **Время:** ~1.5-2 часа для 2,045 отелей
- **Успешность:** ~5-10% (100-200 отелей из 2,045)
---
**Создано:** 2025-10-18 14:25
**Потоков:** 5
**Отелей:** 2,045