✨ Major Features: - Complete RAG system for hotel website analysis - Hybrid audit with BGE-M3 embeddings + Natasha NER - Universal horizontal Excel reports with dashboards - Multi-region processing (SPb, Orel, Chukotka, Kamchatka) 📊 Completed Regions: - Орловская область: 100% (36/36) - Чукотский АО: 100% (4/4) - г. Санкт-Петербург: 93% (893/960) - Камчатский край: 87% (89/102) 🔧 Infrastructure: - PostgreSQL with pgvector extension - BGE-M3 embeddings API - Browserless for web scraping - N8N workflows for automation - S3/Nextcloud file storage 📝 Documentation: - Complete DB schemas - API documentation - Setup guides - Status reports
1.8 KiB
1.8 KiB
🚀 МНОГОПОТОЧНЫЙ BROWSERLESS КРАУЛЕР
✅ ЗАПУЩЕН В ФОНЕ
Процесс: python3 browserless_crawler_parallel.py
Потоков: 5 параллельных
Лог: browserless_parallel.log
⚡ СКОРОСТЬ
Однопоточный: ~6-7 часов
5 потоков: ~1.5-2 часа ⚡ (в 5 раз быстрее!)
📊 ЗАДАЧА
Перекраулинг 2,045 failed отелей через Browserless API
Особенности:
- ⚡ 5 параллельных потоков
- ✅ HTTP и HTTPS
- ✅ С www и без www
- ✅ До 6 вариантов URL на отель
- ✅ Не падает при ошибках
- ✅ Работает даже при закрытии терминала
- 📊 Промежуточная статистика каждые 50 отелей
🔧 ПРОВЕРКА СТАТУСА
# Процесс работает?
ps aux | grep browserless_crawler_parallel | grep -v grep
# Последние логи
tail -20 browserless_parallel.log
# Прогресс в реальном времени
tail -f browserless_parallel.log
# Сколько успешно
grep "✅ Найден:" browserless_parallel.log | wc -l
# Промежуточная статистика
grep "ПРОМЕЖУТОЧНАЯ СТАТИСТИКА" browserless_parallel.log | tail -1
🛑 ОСТАНОВИТЬ
pkill -f browserless_crawler_parallel
📈 ОЖИДАЕМЫЕ ПОКАЗАТЕЛИ
- Скорость: ~1-2 отеля/сек
- Время: ~1.5-2 часа для 2,045 отелей
- Успешность: ~5-10% (100-200 отелей из 2,045)
Создано: 2025-10-18 14:25
Потоков: 5
Отелей: 2,045