✨ Major Features: - Complete RAG system for hotel website analysis - Hybrid audit with BGE-M3 embeddings + Natasha NER - Universal horizontal Excel reports with dashboards - Multi-region processing (SPb, Orel, Chukotka, Kamchatka) 📊 Completed Regions: - Орловская область: 100% (36/36) - Чукотский АО: 100% (4/4) - г. Санкт-Петербург: 93% (893/960) - Камчатский край: 87% (89/102) 🔧 Infrastructure: - PostgreSQL with pgvector extension - BGE-M3 embeddings API - Browserless for web scraping - N8N workflows for automation - S3/Nextcloud file storage 📝 Documentation: - Complete DB schemas - API documentation - Setup guides - Status reports
1.8 KiB
1.8 KiB
🚀 BROWSERLESS КРАУЛЕР - СТАТУС
✅ ЗАПУЩЕНО В ФОНЕ
Процесс: python3 browserless_crawler.py
PID: Проверить через ps aux | grep browserless_crawler
Лог: browserless_crawler_all.log
📊 ЗАДАЧА
Перекраулинг 2,045 failed отелей через Browserless API
Особенности:
- ✅ Пробует HTTP и HTTPS
- ✅ Пробует с www и без www
- ✅ До 6 вариантов URL для каждого отеля
- ✅ Не падает при ошибках
- ✅ Продолжит работу даже если терминал закрыт
🔧 КАК ПРОВЕРИТЬ СТАТУС
# Проверить процесс
ps aux | grep browserless_crawler | grep -v grep
# Посмотреть последние логи
tail -20 browserless_crawler_all.log
# Посмотреть прогресс в реальном времени
tail -f browserless_crawler_all.log
# Проверить сколько отелей обработано
grep "✅ Успешно спарсено" browserless_crawler_all.log | wc -l
# Проверить сколько failed
grep "❌ Все варианты URL не сработали" browserless_crawler_all.log | wc -l
🛑 КАК ОСТАНОВИТЬ
pkill -f browserless_crawler
📈 ОЖИДАЕМОЕ ВРЕМЯ
- 2,045 отелей × ~6 вариантов URL × ~2 сек = ~6-7 часов
📊 СТАТИСТИКА ПО РЕГИОНАМ
Питер: 64 failed отеля
Всего: 2,045 failed отелей
🔍 ОСНОВНЫЕ ОШИБКИ
- Page.goto (таймауты): 1,480
- HTTP 404: 204
- HTTP 403: 190
Создано: 2025-10-18 14:22