✨ Major Features: - Complete RAG system for hotel website analysis - Hybrid audit with BGE-M3 embeddings + Natasha NER - Universal horizontal Excel reports with dashboards - Multi-region processing (SPb, Orel, Chukotka, Kamchatka) 📊 Completed Regions: - Орловская область: 100% (36/36) - Чукотский АО: 100% (4/4) - г. Санкт-Петербург: 93% (893/960) - Камчатский край: 87% (89/102) 🔧 Infrastructure: - PostgreSQL with pgvector extension - BGE-M3 embeddings API - Browserless for web scraping - N8N workflows for automation - S3/Nextcloud file storage 📝 Documentation: - Complete DB schemas - API documentation - Setup guides - Status reports
63 lines
1.8 KiB
Markdown
63 lines
1.8 KiB
Markdown
# 🚀 BROWSERLESS КРАУЛЕР - СТАТУС
|
||
|
||
## ✅ ЗАПУЩЕНО В ФОНЕ
|
||
|
||
**Процесс:** `python3 browserless_crawler.py`
|
||
**PID:** Проверить через `ps aux | grep browserless_crawler`
|
||
**Лог:** `browserless_crawler_all.log`
|
||
|
||
## 📊 ЗАДАЧА
|
||
|
||
Перекраулинг **2,045 failed отелей** через Browserless API
|
||
|
||
### Особенности:
|
||
- ✅ Пробует **HTTP и HTTPS**
|
||
- ✅ Пробует **с www и без www**
|
||
- ✅ До **6 вариантов URL** для каждого отеля
|
||
- ✅ **Не падает** при ошибках
|
||
- ✅ **Продолжит работу** даже если терминал закрыт
|
||
|
||
## 🔧 КАК ПРОВЕРИТЬ СТАТУС
|
||
|
||
```bash
|
||
# Проверить процесс
|
||
ps aux | grep browserless_crawler | grep -v grep
|
||
|
||
# Посмотреть последние логи
|
||
tail -20 browserless_crawler_all.log
|
||
|
||
# Посмотреть прогресс в реальном времени
|
||
tail -f browserless_crawler_all.log
|
||
|
||
# Проверить сколько отелей обработано
|
||
grep "✅ Успешно спарсено" browserless_crawler_all.log | wc -l
|
||
|
||
# Проверить сколько failed
|
||
grep "❌ Все варианты URL не сработали" browserless_crawler_all.log | wc -l
|
||
```
|
||
|
||
## 🛑 КАК ОСТАНОВИТЬ
|
||
|
||
```bash
|
||
pkill -f browserless_crawler
|
||
```
|
||
|
||
## 📈 ОЖИДАЕМОЕ ВРЕМЯ
|
||
|
||
- **2,045 отелей** × ~6 вариантов URL × ~2 сек = **~6-7 часов**
|
||
|
||
## 📊 СТАТИСТИКА ПО РЕГИОНАМ
|
||
|
||
Питер: 64 failed отеля
|
||
Всего: 2,045 failed отелей
|
||
|
||
## 🔍 ОСНОВНЫЕ ОШИБКИ
|
||
|
||
- Page.goto (таймауты): 1,480
|
||
- HTTP 404: 204
|
||
- HTTP 403: 190
|
||
|
||
---
|
||
|
||
Создано: 2025-10-18 14:22
|