Files
hotels/BROWSERLESS_STATUS.md

63 lines
1.8 KiB
Markdown
Raw Normal View History

# 🚀 BROWSERLESS КРАУЛЕР - СТАТУС
## ✅ ЗАПУЩЕНО В ФОНЕ
**Процесс:** `python3 browserless_crawler.py`
**PID:** Проверить через `ps aux | grep browserless_crawler`
**Лог:** `browserless_crawler_all.log`
## 📊 ЗАДАЧА
Перекраулинг **2,045 failed отелей** через Browserless API
### Особенности:
- ✅ Пробует **HTTP и HTTPS**
- ✅ Пробует **с www и без www**
- ✅ До **6 вариантов URL** для каждого отеля
-**Не падает** при ошибках
-**Продолжит работу** даже если терминал закрыт
## 🔧 КАК ПРОВЕРИТЬ СТАТУС
```bash
# Проверить процесс
ps aux | grep browserless_crawler | grep -v grep
# Посмотреть последние логи
tail -20 browserless_crawler_all.log
# Посмотреть прогресс в реальном времени
tail -f browserless_crawler_all.log
# Проверить сколько отелей обработано
grep "✅ Успешно спарсено" browserless_crawler_all.log | wc -l
# Проверить сколько failed
grep "❌ Все варианты URL не сработали" browserless_crawler_all.log | wc -l
```
## 🛑 КАК ОСТАНОВИТЬ
```bash
pkill -f browserless_crawler
```
## 📈 ОЖИДАЕМОЕ ВРЕМЯ
- **2,045 отелей** × ~6 вариантов URL × ~2 сек = **~6-7 часов**
## 📊 СТАТИСТИКА ПО РЕГИОНАМ
Питер: 64 failed отеля
Всего: 2,045 failed отелей
## 🔍 ОСНОВНЫЕ ОШИБКИ
- Page.goto (таймауты): 1,480
- HTTP 404: 204
- HTTP 403: 190
---
Создано: 2025-10-18 14:22