- Краулеры: smart_crawler.py, regional_crawler.py - Аудит: audit_orel_to_excel.py, audit_chukotka_to_excel.py - РКН проверка: check_rkn_registry.py, recheck_unclear_rkn.py - Отчёты: create_orel_horizontal_report.py - Обработка: process_all_hotels_embeddings.py - Документация: README.md, DB_SCHEMA_REFERENCE.md
5.3 KiB
5.3 KiB
🚀 БЫСТРЫЙ СТАРТ - Система Аудита Отелей
🌐 ВЕБ-ИНТЕРФЕЙС
URL: http://185.197.75.249:8888
Возможности:
- 📊 Дашборд с общей статистикой
- 🗺 Выбор региона и запуск аудита
- 🏨 База всех 33,773 отелей
- 💬 Чат-бот с GPT-4o-mini
- 📋 Управление критериями аудита
📊 ТЕКУЩЕЕ СОСТОЯНИЕ
✅ Готово:
База отелей:
- 33,773 отеля из реестра FSA.GOV.RU
- Детальная информация по всем
- ~448,000 услуг собрано
Чукотский АО (ЗАВЕРШЁН):
- 12 отелей проверено
- 4 сайта спарсено (50 страниц)
- 262 эпизода в Graphiti
- Excel отчёт создан
- Средний балл: 3.6/18
Санкт-Петербург:
- 1,646 отелей
- ~1,000 с сайтами (готовы к краулингу)
🔧 ОСНОВНЫЕ СКРИПТЫ
Проверка прогресса:
cd /root/engine/public_oversight/hotels
./check_progress.sh
Краулинг сайтов региона:
# 1. Экспортировать отели региона
python3 export_region.py "Регион" > region_hotels.json
# 2. Запустить краулинг
python website_crawler_db.py region_hotels.json
# 3. Загрузить в Graphiti (автоматически в краулере)
Запуск аудита:
python audit_system.py "Название региона" "group_id"
# Пример:
python audit_system.py "Чукотский автономный округ" "hotel_chukotka"
Запуск веб-интерфейса:
cd /root/engine/public_oversight/hotels
source venv/bin/activate
python web_interface.py
# Доступен на http://185.197.75.249:8888
📊 СТРУКТУРА ДАННЫХ
PostgreSQL (147.45.189.234:5432/default_db)
Основные таблицы:
hotel_main - 33,773 отелей (базовые данные)
hotel_raw_json - детальная информация
hotel_services - услуги
hotel_rooms - номерной фонд
hotel_sanatorium - санаторная инфраструктура
hotel_website_raw - сырой HTML со страниц
hotel_website_processed - очищенный текст
hotel_website_meta - метаданные краулинга
hotel_audit_results - результаты аудита по 18 критериям
Neo4j Graphiti (localhost:7687)
Group IDs:
hotel_chukotka- Чукотский АО (262 эпизода)hotel_spb- Санкт-Петербург (477 эпизодов)hotel_spb_v2- Питер улучшенная версия (35 эпизодов)
🎯 18 КРИТЕРИЕВ АУДИТА
- Юридическая идентификация и верификация (ИНН, ОГРН, ОПФ, ЕГРЮЛ/ЕГРИП)
- Адрес (юридический/фактический)
- Контакты (телефон, email)
- Режим работы
- Политика ПДн (152-ФЗ)
- Роскомнадзор (реестр)
- Договор-оферта / Правила оказания услуг
- Рекламации и споры
- Цены/прайс
- Способы оплаты
- Онлайн-оплата
- Онлайн-бронирование
- FAQ
- Доступность для ЛОВЗ
- Партнёры/бренды
- Команда/сотрудники
- Уголок потребителя
- Актуальность документов
Логика:
- Нет сайта → автоматически "НЕТ" по всем критериям (0/18)
- Есть сайт → проверка через semantic search + keywords
📈 ПРИМЕРЫ РЕЗУЛЬТАТОВ
Чукотский АО:
- Гостевой дом из бруса: 15/18 (83.3%) 🏆
- Гостиница Певек: 15/18 (83.3%)
- Отель "Чукотка": 9/18 (50%)
- 8 отелей без сайтов: 0/18
⚡ API ENDPOINTS
Веб-интерфейс (порт 8888):
GET /- главная страницаGET /api/stats- общая статистикаGET /api/regions- список регионовGET /api/hotels?search=- поиск отелейPOST /api/chat- чат с GPT-4o-miniGET /api/criteria- список критериевPOST /api/audit/run- запуск аудита
Graphiti (порт 9200):
POST /upload- загрузка данныхGET /health- статус
Search (порт 9100):
POST /search- semantic searchGET /health- статус
📞 ТЕХПОДДЕРЖКА
Логи:
tail -f /root/engine/public_oversight/hotels/crawler_*.log
tail -f /root/engine/public_oversight/hotels/scraper_*.log
tail -f /root/engine/public_oversight/hotels/web_interface.log
Перезапуск API:
pkill -f web_interface.py
cd /root/engine/public_oversight/hotels
source venv/bin/activate
nohup python web_interface.py > web_interface.log 2>&1 &