Files
hotels/QUICK_START.md

181 lines
5.3 KiB
Markdown
Raw Permalink Normal View History

# 🚀 БЫСТРЫЙ СТАРТ - Система Аудита Отелей
## 🌐 ВЕБ-ИНТЕРФЕЙС
**URL:** http://185.197.75.249:8888
### Возможности:
- 📊 Дашборд с общей статистикой
- 🗺 Выбор региона и запуск аудита
- 🏨 База всех 33,773 отелей
- 💬 Чат-бот с GPT-4o-mini
- 📋 Управление критериями аудита
---
## 📊 ТЕКУЩЕЕ СОСТОЯНИЕ
### ✅ Готово:
**База отелей:**
- 33,773 отеля из реестра FSA.GOV.RU
- Детальная информация по всем
- ~448,000 услуг собрано
**Чукотский АО (ЗАВЕРШЁН):**
- 12 отелей проверено
- 4 сайта спарсено (50 страниц)
- 262 эпизода в Graphiti
- Excel отчёт создан
- Средний балл: 3.6/18
**Санкт-Петербург:**
- 1,646 отелей
- ~1,000 с сайтами (готовы к краулингу)
---
## 🔧 ОСНОВНЫЕ СКРИПТЫ
### Проверка прогресса:
```bash
cd /root/engine/public_oversight/hotels
./check_progress.sh
```
### Краулинг сайтов региона:
```bash
# 1. Экспортировать отели региона
python3 export_region.py "Регион" > region_hotels.json
# 2. Запустить краулинг
python website_crawler_db.py region_hotels.json
# 3. Загрузить в Graphiti (автоматически в краулере)
```
### Запуск аудита:
```bash
python audit_system.py "Название региона" "group_id"
# Пример:
python audit_system.py "Чукотский автономный округ" "hotel_chukotka"
```
### Запуск веб-интерфейса:
```bash
cd /root/engine/public_oversight/hotels
source venv/bin/activate
python web_interface.py
# Доступен на http://185.197.75.249:8888
```
---
## 📊 СТРУКТУРА ДАННЫХ
### PostgreSQL (147.45.189.234:5432/default_db)
**Основные таблицы:**
```
hotel_main - 33,773 отелей (базовые данные)
hotel_raw_json - детальная информация
hotel_services - услуги
hotel_rooms - номерной фонд
hotel_sanatorium - санаторная инфраструктура
hotel_website_raw - сырой HTML со страниц
hotel_website_processed - очищенный текст
hotel_website_meta - метаданные краулинга
hotel_audit_results - результаты аудита по 18 критериям
```
### Neo4j Graphiti (localhost:7687)
**Group IDs:**
- `hotel_chukotka` - Чукотский АО (262 эпизода)
- `hotel_spb` - Санкт-Петербург (477 эпизодов)
- `hotel_spb_v2` - Питер улучшенная версия (35 эпизодов)
---
## 🎯 18 КРИТЕРИЕВ АУДИТА
1. Юридическая идентификация и верификация (ИНН, ОГРН, ОПФ, ЕГРЮЛ/ЕГРИП)
2. Адрес (юридический/фактический)
3. Контакты (телефон, email)
4. Режим работы
5. Политика ПДн (152-ФЗ)
6. Роскомнадзор (реестр)
7. Договор-оферта / Правила оказания услуг
8. Рекламации и споры
9. Цены/прайс
10. Способы оплаты
11. Онлайн-оплата
12. Онлайн-бронирование
13. FAQ
14. Доступность для ЛОВЗ
15. Партнёры/бренды
16. Команда/сотрудники
17. Уголок потребителя
18. Актуальность документов
**Логика:**
- Нет сайта → автоматически "НЕТ" по всем критериям (0/18)
- Есть сайт → проверка через semantic search + keywords
---
## 📈 ПРИМЕРЫ РЕЗУЛЬТАТОВ
**Чукотский АО:**
- Гостевой дом из бруса: **15/18** (83.3%) 🏆
- Гостиница Певек: **15/18** (83.3%)
- Отель "Чукотка": **9/18** (50%)
- 8 отелей без сайтов: **0/18**
---
## ⚡ API ENDPOINTS
### Веб-интерфейс (порт 8888):
- `GET /` - главная страница
- `GET /api/stats` - общая статистика
- `GET /api/regions` - список регионов
- `GET /api/hotels?search=` - поиск отелей
- `POST /api/chat` - чат с GPT-4o-mini
- `GET /api/criteria` - список критериев
- `POST /api/audit/run` - запуск аудита
### Graphiti (порт 9200):
- `POST /upload` - загрузка данных
- `GET /health` - статус
### Search (порт 9100):
- `POST /search` - semantic search
- `GET /health` - статус
---
## 📞 ТЕХПОДДЕРЖКА
Логи:
```bash
tail -f /root/engine/public_oversight/hotels/crawler_*.log
tail -f /root/engine/public_oversight/hotels/scraper_*.log
tail -f /root/engine/public_oversight/hotels/web_interface.log
```
Перезапуск API:
```bash
pkill -f web_interface.py
cd /root/engine/public_oversight/hotels
source venv/bin/activate
nohup python web_interface.py > web_interface.log 2>&1 &
```