🚀 Full project sync: Hotels RAG & Audit System

 Major Features:
- Complete RAG system for hotel website analysis
- Hybrid audit with BGE-M3 embeddings + Natasha NER
- Universal horizontal Excel reports with dashboards
- Multi-region processing (SPb, Orel, Chukotka, Kamchatka)

📊 Completed Regions:
- Орловская область: 100% (36/36)
- Чукотский АО: 100% (4/4)
- г. Санкт-Петербург: 93% (893/960)
- Камчатский край: 87% (89/102)

🔧 Infrastructure:
- PostgreSQL with pgvector extension
- BGE-M3 embeddings API
- Browserless for web scraping
- N8N workflows for automation
- S3/Nextcloud file storage

📝 Documentation:
- Complete DB schemas
- API documentation
- Setup guides
- Status reports
This commit is contained in:
Фёдор
2025-10-27 22:49:42 +03:00
parent 0cf3297290
commit 684fada337
94 changed files with 14891 additions and 911 deletions

62
BROWSERLESS_STATUS.md Normal file
View File

@@ -0,0 +1,62 @@
# 🚀 BROWSERLESS КРАУЛЕР - СТАТУС
## ✅ ЗАПУЩЕНО В ФОНЕ
**Процесс:** `python3 browserless_crawler.py`
**PID:** Проверить через `ps aux | grep browserless_crawler`
**Лог:** `browserless_crawler_all.log`
## 📊 ЗАДАЧА
Перекраулинг **2,045 failed отелей** через Browserless API
### Особенности:
- ✅ Пробует **HTTP и HTTPS**
- ✅ Пробует **с www и без www**
- ✅ До **6 вариантов URL** для каждого отеля
-**Не падает** при ошибках
-**Продолжит работу** даже если терминал закрыт
## 🔧 КАК ПРОВЕРИТЬ СТАТУС
```bash
# Проверить процесс
ps aux | grep browserless_crawler | grep -v grep
# Посмотреть последние логи
tail -20 browserless_crawler_all.log
# Посмотреть прогресс в реальном времени
tail -f browserless_crawler_all.log
# Проверить сколько отелей обработано
grep "✅ Успешно спарсено" browserless_crawler_all.log | wc -l
# Проверить сколько failed
grep "❌ Все варианты URL не сработали" browserless_crawler_all.log | wc -l
```
## 🛑 КАК ОСТАНОВИТЬ
```bash
pkill -f browserless_crawler
```
## 📈 ОЖИДАЕМОЕ ВРЕМЯ
- **2,045 отелей** × ~6 вариантов URL × ~2 сек = **~6-7 часов**
## 📊 СТАТИСТИКА ПО РЕГИОНАМ
Питер: 64 failed отеля
Всего: 2,045 failed отелей
## 🔍 ОСНОВНЫЕ ОШИБКИ
- Page.goto (таймауты): 1,480
- HTTP 404: 204
- HTTP 403: 190
---
Создано: 2025-10-18 14:22