Files
hotels/BROWSERLESS_STATUS.md
Фёдор 684fada337 🚀 Full project sync: Hotels RAG & Audit System
 Major Features:
- Complete RAG system for hotel website analysis
- Hybrid audit with BGE-M3 embeddings + Natasha NER
- Universal horizontal Excel reports with dashboards
- Multi-region processing (SPb, Orel, Chukotka, Kamchatka)

📊 Completed Regions:
- Орловская область: 100% (36/36)
- Чукотский АО: 100% (4/4)
- г. Санкт-Петербург: 93% (893/960)
- Камчатский край: 87% (89/102)

🔧 Infrastructure:
- PostgreSQL with pgvector extension
- BGE-M3 embeddings API
- Browserless for web scraping
- N8N workflows for automation
- S3/Nextcloud file storage

📝 Documentation:
- Complete DB schemas
- API documentation
- Setup guides
- Status reports
2025-10-27 22:49:42 +03:00

63 lines
1.8 KiB
Markdown
Raw Permalink Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

# 🚀 BROWSERLESS КРАУЛЕР - СТАТУС
## ✅ ЗАПУЩЕНО В ФОНЕ
**Процесс:** `python3 browserless_crawler.py`
**PID:** Проверить через `ps aux | grep browserless_crawler`
**Лог:** `browserless_crawler_all.log`
## 📊 ЗАДАЧА
Перекраулинг **2,045 failed отелей** через Browserless API
### Особенности:
- ✅ Пробует **HTTP и HTTPS**
- ✅ Пробует **с www и без www**
- ✅ До **6 вариантов URL** для каждого отеля
-**Не падает** при ошибках
-**Продолжит работу** даже если терминал закрыт
## 🔧 КАК ПРОВЕРИТЬ СТАТУС
```bash
# Проверить процесс
ps aux | grep browserless_crawler | grep -v grep
# Посмотреть последние логи
tail -20 browserless_crawler_all.log
# Посмотреть прогресс в реальном времени
tail -f browserless_crawler_all.log
# Проверить сколько отелей обработано
grep "✅ Успешно спарсено" browserless_crawler_all.log | wc -l
# Проверить сколько failed
grep "❌ Все варианты URL не сработали" browserless_crawler_all.log | wc -l
```
## 🛑 КАК ОСТАНОВИТЬ
```bash
pkill -f browserless_crawler
```
## 📈 ОЖИДАЕМОЕ ВРЕМЯ
- **2,045 отелей** × ~6 вариантов URL × ~2 сек = **~6-7 часов**
## 📊 СТАТИСТИКА ПО РЕГИОНАМ
Питер: 64 failed отеля
Всего: 2,045 failed отелей
## 🔍 ОСНОВНЫЕ ОШИБКИ
- Page.goto (таймауты): 1,480
- HTTP 404: 204
- HTTP 403: 190
---
Создано: 2025-10-18 14:22