Files
hotels/BROWSERLESS_PARALLEL_STATUS.md
Фёдор 684fada337 🚀 Full project sync: Hotels RAG & Audit System
 Major Features:
- Complete RAG system for hotel website analysis
- Hybrid audit with BGE-M3 embeddings + Natasha NER
- Universal horizontal Excel reports with dashboards
- Multi-region processing (SPb, Orel, Chukotka, Kamchatka)

📊 Completed Regions:
- Орловская область: 100% (36/36)
- Чукотский АО: 100% (4/4)
- г. Санкт-Петербург: 93% (893/960)
- Камчатский край: 87% (89/102)

🔧 Infrastructure:
- PostgreSQL with pgvector extension
- BGE-M3 embeddings API
- Browserless for web scraping
- N8N workflows for automation
- S3/Nextcloud file storage

📝 Documentation:
- Complete DB schemas
- API documentation
- Setup guides
- Status reports
2025-10-27 22:49:42 +03:00

63 lines
1.8 KiB
Markdown
Raw Permalink Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

# 🚀 МНОГОПОТОЧНЫЙ BROWSERLESS КРАУЛЕР
## ✅ ЗАПУЩЕН В ФОНЕ
**Процесс:** `python3 browserless_crawler_parallel.py`
**Потоков:** 5 параллельных
**Лог:** `browserless_parallel.log`
## ⚡ СКОРОСТЬ
**Однопоточный:** ~6-7 часов
**5 потоков:** ~1.5-2 часа ⚡ (в 5 раз быстрее!)
## 📊 ЗАДАЧА
Перекраулинг **2,045 failed отелей** через Browserless API
### Особенности:
-**5 параллельных потоков**
- ✅ HTTP и HTTPS
-С www и без www
- ✅ До 6 вариантов URL на отель
-Не падает при ошибках
- ✅ Работает даже при закрытии терминала
- 📊 Промежуточная статистика каждые 50 отелей
## 🔧 ПРОВЕРКА СТАТУСА
```bash
# Процесс работает?
ps aux | grep browserless_crawler_parallel | grep -v grep
# Последние логи
tail -20 browserless_parallel.log
# Прогресс в реальном времени
tail -f browserless_parallel.log
# Сколько успешно
grep "✅ Найден:" browserless_parallel.log | wc -l
# Промежуточная статистика
grep "ПРОМЕЖУТОЧНАЯ СТАТИСТИКА" browserless_parallel.log | tail -1
```
## 🛑 ОСТАНОВИТЬ
```bash
pkill -f browserless_crawler_parallel
```
## 📈 ОЖИДАЕМЫЕ ПОКАЗАТЕЛИ
- **Скорость:** ~1-2 отеля/сек
- **Время:** ~1.5-2 часа для 2,045 отелей
- **Успешность:** ~5-10% (100-200 отелей из 2,045)
---
**Создано:** 2025-10-18 14:25
**Потоков:** 5
**Отелей:** 2,045