63 lines
1.8 KiB
Markdown
63 lines
1.8 KiB
Markdown
|
|
# 🚀 МНОГОПОТОЧНЫЙ BROWSERLESS КРАУЛЕР
|
|||
|
|
|
|||
|
|
## ✅ ЗАПУЩЕН В ФОНЕ
|
|||
|
|
|
|||
|
|
**Процесс:** `python3 browserless_crawler_parallel.py`
|
|||
|
|
**Потоков:** 5 параллельных
|
|||
|
|
**Лог:** `browserless_parallel.log`
|
|||
|
|
|
|||
|
|
## ⚡ СКОРОСТЬ
|
|||
|
|
|
|||
|
|
**Однопоточный:** ~6-7 часов
|
|||
|
|
**5 потоков:** ~1.5-2 часа ⚡ (в 5 раз быстрее!)
|
|||
|
|
|
|||
|
|
## 📊 ЗАДАЧА
|
|||
|
|
|
|||
|
|
Перекраулинг **2,045 failed отелей** через Browserless API
|
|||
|
|
|
|||
|
|
### Особенности:
|
|||
|
|
- ⚡ **5 параллельных потоков**
|
|||
|
|
- ✅ HTTP и HTTPS
|
|||
|
|
- ✅ С www и без www
|
|||
|
|
- ✅ До 6 вариантов URL на отель
|
|||
|
|
- ✅ Не падает при ошибках
|
|||
|
|
- ✅ Работает даже при закрытии терминала
|
|||
|
|
- 📊 Промежуточная статистика каждые 50 отелей
|
|||
|
|
|
|||
|
|
## 🔧 ПРОВЕРКА СТАТУСА
|
|||
|
|
|
|||
|
|
```bash
|
|||
|
|
# Процесс работает?
|
|||
|
|
ps aux | grep browserless_crawler_parallel | grep -v grep
|
|||
|
|
|
|||
|
|
# Последние логи
|
|||
|
|
tail -20 browserless_parallel.log
|
|||
|
|
|
|||
|
|
# Прогресс в реальном времени
|
|||
|
|
tail -f browserless_parallel.log
|
|||
|
|
|
|||
|
|
# Сколько успешно
|
|||
|
|
grep "✅ Найден:" browserless_parallel.log | wc -l
|
|||
|
|
|
|||
|
|
# Промежуточная статистика
|
|||
|
|
grep "ПРОМЕЖУТОЧНАЯ СТАТИСТИКА" browserless_parallel.log | tail -1
|
|||
|
|
```
|
|||
|
|
|
|||
|
|
## 🛑 ОСТАНОВИТЬ
|
|||
|
|
|
|||
|
|
```bash
|
|||
|
|
pkill -f browserless_crawler_parallel
|
|||
|
|
```
|
|||
|
|
|
|||
|
|
## 📈 ОЖИДАЕМЫЕ ПОКАЗАТЕЛИ
|
|||
|
|
|
|||
|
|
- **Скорость:** ~1-2 отеля/сек
|
|||
|
|
- **Время:** ~1.5-2 часа для 2,045 отелей
|
|||
|
|
- **Успешность:** ~5-10% (100-200 отелей из 2,045)
|
|||
|
|
|
|||
|
|
---
|
|||
|
|
|
|||
|
|
**Создано:** 2025-10-18 14:25
|
|||
|
|
**Потоков:** 5
|
|||
|
|
**Отелей:** 2,045
|