Files
hotels/QUICK_START.md
Фёдор 0cf3297290 Проект аудита отелей: основные скрипты и документация
- Краулеры: smart_crawler.py, regional_crawler.py
- Аудит: audit_orel_to_excel.py, audit_chukotka_to_excel.py
- РКН проверка: check_rkn_registry.py, recheck_unclear_rkn.py
- Отчёты: create_orel_horizontal_report.py
- Обработка: process_all_hotels_embeddings.py
- Документация: README.md, DB_SCHEMA_REFERENCE.md
2025-10-16 10:52:09 +03:00

5.3 KiB
Raw Permalink Blame History

🚀 БЫСТРЫЙ СТАРТ - Система Аудита Отелей

🌐 ВЕБ-ИНТЕРФЕЙС

URL: http://185.197.75.249:8888

Возможности:

  • 📊 Дашборд с общей статистикой
  • 🗺 Выбор региона и запуск аудита
  • 🏨 База всех 33,773 отелей
  • 💬 Чат-бот с GPT-4o-mini
  • 📋 Управление критериями аудита

📊 ТЕКУЩЕЕ СОСТОЯНИЕ

Готово:

База отелей:

  • 33,773 отеля из реестра FSA.GOV.RU
  • Детальная информация по всем
  • ~448,000 услуг собрано

Чукотский АО (ЗАВЕРШЁН):

  • 12 отелей проверено
  • 4 сайта спарсено (50 страниц)
  • 262 эпизода в Graphiti
  • Excel отчёт создан
  • Средний балл: 3.6/18

Санкт-Петербург:

  • 1,646 отелей
  • ~1,000 с сайтами (готовы к краулингу)

🔧 ОСНОВНЫЕ СКРИПТЫ

Проверка прогресса:

cd /root/engine/public_oversight/hotels
./check_progress.sh

Краулинг сайтов региона:

# 1. Экспортировать отели региона
python3 export_region.py "Регион" > region_hotels.json

# 2. Запустить краулинг
python website_crawler_db.py region_hotels.json

# 3. Загрузить в Graphiti (автоматически в краулере)

Запуск аудита:

python audit_system.py "Название региона" "group_id"

# Пример:
python audit_system.py "Чукотский автономный округ" "hotel_chukotka"

Запуск веб-интерфейса:

cd /root/engine/public_oversight/hotels
source venv/bin/activate
python web_interface.py
# Доступен на http://185.197.75.249:8888

📊 СТРУКТУРА ДАННЫХ

PostgreSQL (147.45.189.234:5432/default_db)

Основные таблицы:

hotel_main              - 33,773 отелей (базовые данные)
hotel_raw_json          - детальная информация
hotel_services          - услуги
hotel_rooms             - номерной фонд
hotel_sanatorium        - санаторная инфраструктура

hotel_website_raw       - сырой HTML со страниц
hotel_website_processed - очищенный текст
hotel_website_meta      - метаданные краулинга

hotel_audit_results     - результаты аудита по 18 критериям

Neo4j Graphiti (localhost:7687)

Group IDs:

  • hotel_chukotka - Чукотский АО (262 эпизода)
  • hotel_spb - Санкт-Петербург (477 эпизодов)
  • hotel_spb_v2 - Питер улучшенная версия (35 эпизодов)

🎯 18 КРИТЕРИЕВ АУДИТА

  1. Юридическая идентификация и верификация (ИНН, ОГРН, ОПФ, ЕГРЮЛ/ЕГРИП)
  2. Адрес (юридический/фактический)
  3. Контакты (телефон, email)
  4. Режим работы
  5. Политика ПДн (152-ФЗ)
  6. Роскомнадзор (реестр)
  7. Договор-оферта / Правила оказания услуг
  8. Рекламации и споры
  9. Цены/прайс
  10. Способы оплаты
  11. Онлайн-оплата
  12. Онлайн-бронирование
  13. FAQ
  14. Доступность для ЛОВЗ
  15. Партнёры/бренды
  16. Команда/сотрудники
  17. Уголок потребителя
  18. Актуальность документов

Логика:

  • Нет сайта → автоматически "НЕТ" по всем критериям (0/18)
  • Есть сайт → проверка через semantic search + keywords

📈 ПРИМЕРЫ РЕЗУЛЬТАТОВ

Чукотский АО:

  • Гостевой дом из бруса: 15/18 (83.3%) 🏆
  • Гостиница Певек: 15/18 (83.3%)
  • Отель "Чукотка": 9/18 (50%)
  • 8 отелей без сайтов: 0/18

API ENDPOINTS

Веб-интерфейс (порт 8888):

  • GET / - главная страница
  • GET /api/stats - общая статистика
  • GET /api/regions - список регионов
  • GET /api/hotels?search= - поиск отелей
  • POST /api/chat - чат с GPT-4o-mini
  • GET /api/criteria - список критериев
  • POST /api/audit/run - запуск аудита

Graphiti (порт 9200):

  • POST /upload - загрузка данных
  • GET /health - статус

Search (порт 9100):

  • POST /search - semantic search
  • GET /health - статус

📞 ТЕХПОДДЕРЖКА

Логи:

tail -f /root/engine/public_oversight/hotels/crawler_*.log
tail -f /root/engine/public_oversight/hotels/scraper_*.log
tail -f /root/engine/public_oversight/hotels/web_interface.log

Перезапуск API:

pkill -f web_interface.py
cd /root/engine/public_oversight/hotels
source venv/bin/activate
nohup python web_interface.py > web_interface.log 2>&1 &