# 🚀 БЫСТРЫЙ СТАРТ - Система Аудита Отелей ## 🌐 ВЕБ-ИНТЕРФЕЙС **URL:** http://185.197.75.249:8888 ### Возможности: - 📊 Дашборд с общей статистикой - 🗺 Выбор региона и запуск аудита - 🏨 База всех 33,773 отелей - 💬 Чат-бот с GPT-4o-mini - 📋 Управление критериями аудита --- ## 📊 ТЕКУЩЕЕ СОСТОЯНИЕ ### ✅ Готово: **База отелей:** - 33,773 отеля из реестра FSA.GOV.RU - Детальная информация по всем - ~448,000 услуг собрано **Чукотский АО (ЗАВЕРШЁН):** - 12 отелей проверено - 4 сайта спарсено (50 страниц) - 262 эпизода в Graphiti - Excel отчёт создан - Средний балл: 3.6/18 **Санкт-Петербург:** - 1,646 отелей - ~1,000 с сайтами (готовы к краулингу) --- ## 🔧 ОСНОВНЫЕ СКРИПТЫ ### Проверка прогресса: ```bash cd /root/engine/public_oversight/hotels ./check_progress.sh ``` ### Краулинг сайтов региона: ```bash # 1. Экспортировать отели региона python3 export_region.py "Регион" > region_hotels.json # 2. Запустить краулинг python website_crawler_db.py region_hotels.json # 3. Загрузить в Graphiti (автоматически в краулере) ``` ### Запуск аудита: ```bash python audit_system.py "Название региона" "group_id" # Пример: python audit_system.py "Чукотский автономный округ" "hotel_chukotka" ``` ### Запуск веб-интерфейса: ```bash cd /root/engine/public_oversight/hotels source venv/bin/activate python web_interface.py # Доступен на http://185.197.75.249:8888 ``` --- ## 📊 СТРУКТУРА ДАННЫХ ### PostgreSQL (147.45.189.234:5432/default_db) **Основные таблицы:** ``` hotel_main - 33,773 отелей (базовые данные) hotel_raw_json - детальная информация hotel_services - услуги hotel_rooms - номерной фонд hotel_sanatorium - санаторная инфраструктура hotel_website_raw - сырой HTML со страниц hotel_website_processed - очищенный текст hotel_website_meta - метаданные краулинга hotel_audit_results - результаты аудита по 18 критериям ``` ### Neo4j Graphiti (localhost:7687) **Group IDs:** - `hotel_chukotka` - Чукотский АО (262 эпизода) - `hotel_spb` - Санкт-Петербург (477 эпизодов) - `hotel_spb_v2` - Питер улучшенная версия (35 эпизодов) --- ## 🎯 18 КРИТЕРИЕВ АУДИТА 1. Юридическая идентификация и верификация (ИНН, ОГРН, ОПФ, ЕГРЮЛ/ЕГРИП) 2. Адрес (юридический/фактический) 3. Контакты (телефон, email) 4. Режим работы 5. Политика ПДн (152-ФЗ) 6. Роскомнадзор (реестр) 7. Договор-оферта / Правила оказания услуг 8. Рекламации и споры 9. Цены/прайс 10. Способы оплаты 11. Онлайн-оплата 12. Онлайн-бронирование 13. FAQ 14. Доступность для ЛОВЗ 15. Партнёры/бренды 16. Команда/сотрудники 17. Уголок потребителя 18. Актуальность документов **Логика:** - Нет сайта → автоматически "НЕТ" по всем критериям (0/18) - Есть сайт → проверка через semantic search + keywords --- ## 📈 ПРИМЕРЫ РЕЗУЛЬТАТОВ **Чукотский АО:** - Гостевой дом из бруса: **15/18** (83.3%) 🏆 - Гостиница Певек: **15/18** (83.3%) - Отель "Чукотка": **9/18** (50%) - 8 отелей без сайтов: **0/18** --- ## ⚡ API ENDPOINTS ### Веб-интерфейс (порт 8888): - `GET /` - главная страница - `GET /api/stats` - общая статистика - `GET /api/regions` - список регионов - `GET /api/hotels?search=` - поиск отелей - `POST /api/chat` - чат с GPT-4o-mini - `GET /api/criteria` - список критериев - `POST /api/audit/run` - запуск аудита ### Graphiti (порт 9200): - `POST /upload` - загрузка данных - `GET /health` - статус ### Search (порт 9100): - `POST /search` - semantic search - `GET /health` - статус --- ## 📞 ТЕХПОДДЕРЖКА Логи: ```bash tail -f /root/engine/public_oversight/hotels/crawler_*.log tail -f /root/engine/public_oversight/hotels/scraper_*.log tail -f /root/engine/public_oversight/hotels/web_interface.log ``` Перезапуск API: ```bash pkill -f web_interface.py cd /root/engine/public_oversight/hotels source venv/bin/activate nohup python web_interface.py > web_interface.log 2>&1 & ```