Files
hotels/BROWSERLESS_PARALLEL_STATUS.md
Фёдор 684fada337 🚀 Full project sync: Hotels RAG & Audit System
 Major Features:
- Complete RAG system for hotel website analysis
- Hybrid audit with BGE-M3 embeddings + Natasha NER
- Universal horizontal Excel reports with dashboards
- Multi-region processing (SPb, Orel, Chukotka, Kamchatka)

📊 Completed Regions:
- Орловская область: 100% (36/36)
- Чукотский АО: 100% (4/4)
- г. Санкт-Петербург: 93% (893/960)
- Камчатский край: 87% (89/102)

🔧 Infrastructure:
- PostgreSQL with pgvector extension
- BGE-M3 embeddings API
- Browserless for web scraping
- N8N workflows for automation
- S3/Nextcloud file storage

📝 Documentation:
- Complete DB schemas
- API documentation
- Setup guides
- Status reports
2025-10-27 22:49:42 +03:00

1.8 KiB
Raw Blame History

🚀 МНОГОПОТОЧНЫЙ BROWSERLESS КРАУЛЕР

ЗАПУЩЕН В ФОНЕ

Процесс: python3 browserless_crawler_parallel.py
Потоков: 5 параллельных
Лог: browserless_parallel.log

СКОРОСТЬ

Однопоточный: ~6-7 часов
5 потоков: ~1.5-2 часа (в 5 раз быстрее!)

📊 ЗАДАЧА

Перекраулинг 2,045 failed отелей через Browserless API

Особенности:

  • 5 параллельных потоков
  • HTTP и HTTPS
  • С www и без www
  • До 6 вариантов URL на отель
  • Не падает при ошибках
  • Работает даже при закрытии терминала
  • 📊 Промежуточная статистика каждые 50 отелей

🔧 ПРОВЕРКА СТАТУСА

# Процесс работает?
ps aux | grep browserless_crawler_parallel | grep -v grep

# Последние логи
tail -20 browserless_parallel.log

# Прогресс в реальном времени
tail -f browserless_parallel.log

# Сколько успешно
grep "✅ Найден:" browserless_parallel.log | wc -l

# Промежуточная статистика
grep "ПРОМЕЖУТОЧНАЯ СТАТИСТИКА" browserless_parallel.log | tail -1

🛑 ОСТАНОВИТЬ

pkill -f browserless_crawler_parallel

📈 ОЖИДАЕМЫЕ ПОКАЗАТЕЛИ

  • Скорость: ~1-2 отеля/сек
  • Время: ~1.5-2 часа для 2,045 отелей
  • Успешность: ~5-10% (100-200 отелей из 2,045)

Создано: 2025-10-18 14:25
Потоков: 5
Отелей: 2,045