Files
hotels/BROWSERLESS_STATUS.md
Фёдор 684fada337 🚀 Full project sync: Hotels RAG & Audit System
 Major Features:
- Complete RAG system for hotel website analysis
- Hybrid audit with BGE-M3 embeddings + Natasha NER
- Universal horizontal Excel reports with dashboards
- Multi-region processing (SPb, Orel, Chukotka, Kamchatka)

📊 Completed Regions:
- Орловская область: 100% (36/36)
- Чукотский АО: 100% (4/4)
- г. Санкт-Петербург: 93% (893/960)
- Камчатский край: 87% (89/102)

🔧 Infrastructure:
- PostgreSQL with pgvector extension
- BGE-M3 embeddings API
- Browserless for web scraping
- N8N workflows for automation
- S3/Nextcloud file storage

📝 Documentation:
- Complete DB schemas
- API documentation
- Setup guides
- Status reports
2025-10-27 22:49:42 +03:00

1.8 KiB
Raw Blame History

🚀 BROWSERLESS КРАУЛЕР - СТАТУС

ЗАПУЩЕНО В ФОНЕ

Процесс: python3 browserless_crawler.py
PID: Проверить через ps aux | grep browserless_crawler
Лог: browserless_crawler_all.log

📊 ЗАДАЧА

Перекраулинг 2,045 failed отелей через Browserless API

Особенности:

  • Пробует HTTP и HTTPS
  • Пробует с www и без www
  • До 6 вариантов URL для каждого отеля
  • Не падает при ошибках
  • Продолжит работу даже если терминал закрыт

🔧 КАК ПРОВЕРИТЬ СТАТУС

# Проверить процесс
ps aux | grep browserless_crawler | grep -v grep

# Посмотреть последние логи
tail -20 browserless_crawler_all.log

# Посмотреть прогресс в реальном времени
tail -f browserless_crawler_all.log

# Проверить сколько отелей обработано
grep "✅ Успешно спарсено" browserless_crawler_all.log | wc -l

# Проверить сколько failed
grep "❌ Все варианты URL не сработали" browserless_crawler_all.log | wc -l

🛑 КАК ОСТАНОВИТЬ

pkill -f browserless_crawler

📈 ОЖИДАЕМОЕ ВРЕМЯ

  • 2,045 отелей × ~6 вариантов URL × ~2 сек = ~6-7 часов

📊 СТАТИСТИКА ПО РЕГИОНАМ

Питер: 64 failed отеля
Всего: 2,045 failed отелей

🔍 ОСНОВНЫЕ ОШИБКИ

  • Page.goto (таймауты): 1,480
  • HTTP 404: 204
  • HTTP 403: 190

Создано: 2025-10-18 14:22