63 lines
1.8 KiB
Markdown
63 lines
1.8 KiB
Markdown
|
|
# 🚀 BROWSERLESS КРАУЛЕР - СТАТУС
|
|||
|
|
|
|||
|
|
## ✅ ЗАПУЩЕНО В ФОНЕ
|
|||
|
|
|
|||
|
|
**Процесс:** `python3 browserless_crawler.py`
|
|||
|
|
**PID:** Проверить через `ps aux | grep browserless_crawler`
|
|||
|
|
**Лог:** `browserless_crawler_all.log`
|
|||
|
|
|
|||
|
|
## 📊 ЗАДАЧА
|
|||
|
|
|
|||
|
|
Перекраулинг **2,045 failed отелей** через Browserless API
|
|||
|
|
|
|||
|
|
### Особенности:
|
|||
|
|
- ✅ Пробует **HTTP и HTTPS**
|
|||
|
|
- ✅ Пробует **с www и без www**
|
|||
|
|
- ✅ До **6 вариантов URL** для каждого отеля
|
|||
|
|
- ✅ **Не падает** при ошибках
|
|||
|
|
- ✅ **Продолжит работу** даже если терминал закрыт
|
|||
|
|
|
|||
|
|
## 🔧 КАК ПРОВЕРИТЬ СТАТУС
|
|||
|
|
|
|||
|
|
```bash
|
|||
|
|
# Проверить процесс
|
|||
|
|
ps aux | grep browserless_crawler | grep -v grep
|
|||
|
|
|
|||
|
|
# Посмотреть последние логи
|
|||
|
|
tail -20 browserless_crawler_all.log
|
|||
|
|
|
|||
|
|
# Посмотреть прогресс в реальном времени
|
|||
|
|
tail -f browserless_crawler_all.log
|
|||
|
|
|
|||
|
|
# Проверить сколько отелей обработано
|
|||
|
|
grep "✅ Успешно спарсено" browserless_crawler_all.log | wc -l
|
|||
|
|
|
|||
|
|
# Проверить сколько failed
|
|||
|
|
grep "❌ Все варианты URL не сработали" browserless_crawler_all.log | wc -l
|
|||
|
|
```
|
|||
|
|
|
|||
|
|
## 🛑 КАК ОСТАНОВИТЬ
|
|||
|
|
|
|||
|
|
```bash
|
|||
|
|
pkill -f browserless_crawler
|
|||
|
|
```
|
|||
|
|
|
|||
|
|
## 📈 ОЖИДАЕМОЕ ВРЕМЯ
|
|||
|
|
|
|||
|
|
- **2,045 отелей** × ~6 вариантов URL × ~2 сек = **~6-7 часов**
|
|||
|
|
|
|||
|
|
## 📊 СТАТИСТИКА ПО РЕГИОНАМ
|
|||
|
|
|
|||
|
|
Питер: 64 failed отеля
|
|||
|
|
Всего: 2,045 failed отелей
|
|||
|
|
|
|||
|
|
## 🔍 ОСНОВНЫЕ ОШИБКИ
|
|||
|
|
|
|||
|
|
- Page.goto (таймауты): 1,480
|
|||
|
|
- HTTP 404: 204
|
|||
|
|
- HTTP 403: 190
|
|||
|
|
|
|||
|
|
---
|
|||
|
|
|
|||
|
|
Создано: 2025-10-18 14:22
|