Files
hotels/QUICK_START.md
Фёдор 0cf3297290 Проект аудита отелей: основные скрипты и документация
- Краулеры: smart_crawler.py, regional_crawler.py
- Аудит: audit_orel_to_excel.py, audit_chukotka_to_excel.py
- РКН проверка: check_rkn_registry.py, recheck_unclear_rkn.py
- Отчёты: create_orel_horizontal_report.py
- Обработка: process_all_hotels_embeddings.py
- Документация: README.md, DB_SCHEMA_REFERENCE.md
2025-10-16 10:52:09 +03:00

181 lines
5.3 KiB
Markdown
Raw Permalink Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

# 🚀 БЫСТРЫЙ СТАРТ - Система Аудита Отелей
## 🌐 ВЕБ-ИНТЕРФЕЙС
**URL:** http://185.197.75.249:8888
### Возможности:
- 📊 Дашборд с общей статистикой
- 🗺 Выбор региона и запуск аудита
- 🏨 База всех 33,773 отелей
- 💬 Чат-бот с GPT-4o-mini
- 📋 Управление критериями аудита
---
## 📊 ТЕКУЩЕЕ СОСТОЯНИЕ
### ✅ Готово:
**База отелей:**
- 33,773 отеля из реестра FSA.GOV.RU
- Детальная информация по всем
- ~448,000 услуг собрано
**Чукотский АО (ЗАВЕРШЁН):**
- 12 отелей проверено
- 4 сайта спарсено (50 страниц)
- 262 эпизода в Graphiti
- Excel отчёт создан
- Средний балл: 3.6/18
**Санкт-Петербург:**
- 1,646 отелей
- ~1,000 с сайтами (готовы к краулингу)
---
## 🔧 ОСНОВНЫЕ СКРИПТЫ
### Проверка прогресса:
```bash
cd /root/engine/public_oversight/hotels
./check_progress.sh
```
### Краулинг сайтов региона:
```bash
# 1. Экспортировать отели региона
python3 export_region.py "Регион" > region_hotels.json
# 2. Запустить краулинг
python website_crawler_db.py region_hotels.json
# 3. Загрузить в Graphiti (автоматически в краулере)
```
### Запуск аудита:
```bash
python audit_system.py "Название региона" "group_id"
# Пример:
python audit_system.py "Чукотский автономный округ" "hotel_chukotka"
```
### Запуск веб-интерфейса:
```bash
cd /root/engine/public_oversight/hotels
source venv/bin/activate
python web_interface.py
# Доступен на http://185.197.75.249:8888
```
---
## 📊 СТРУКТУРА ДАННЫХ
### PostgreSQL (147.45.189.234:5432/default_db)
**Основные таблицы:**
```
hotel_main - 33,773 отелей (базовые данные)
hotel_raw_json - детальная информация
hotel_services - услуги
hotel_rooms - номерной фонд
hotel_sanatorium - санаторная инфраструктура
hotel_website_raw - сырой HTML со страниц
hotel_website_processed - очищенный текст
hotel_website_meta - метаданные краулинга
hotel_audit_results - результаты аудита по 18 критериям
```
### Neo4j Graphiti (localhost:7687)
**Group IDs:**
- `hotel_chukotka` - Чукотский АО (262 эпизода)
- `hotel_spb` - Санкт-Петербург (477 эпизодов)
- `hotel_spb_v2` - Питер улучшенная версия (35 эпизодов)
---
## 🎯 18 КРИТЕРИЕВ АУДИТА
1. Юридическая идентификация и верификация (ИНН, ОГРН, ОПФ, ЕГРЮЛ/ЕГРИП)
2. Адрес (юридический/фактический)
3. Контакты (телефон, email)
4. Режим работы
5. Политика ПДн (152-ФЗ)
6. Роскомнадзор (реестр)
7. Договор-оферта / Правила оказания услуг
8. Рекламации и споры
9. Цены/прайс
10. Способы оплаты
11. Онлайн-оплата
12. Онлайн-бронирование
13. FAQ
14. Доступность для ЛОВЗ
15. Партнёры/бренды
16. Команда/сотрудники
17. Уголок потребителя
18. Актуальность документов
**Логика:**
- Нет сайта → автоматически "НЕТ" по всем критериям (0/18)
- Есть сайт → проверка через semantic search + keywords
---
## 📈 ПРИМЕРЫ РЕЗУЛЬТАТОВ
**Чукотский АО:**
- Гостевой дом из бруса: **15/18** (83.3%) 🏆
- Гостиница Певек: **15/18** (83.3%)
- Отель "Чукотка": **9/18** (50%)
- 8 отелей без сайтов: **0/18**
---
## ⚡ API ENDPOINTS
### Веб-интерфейс (порт 8888):
- `GET /` - главная страница
- `GET /api/stats` - общая статистика
- `GET /api/regions` - список регионов
- `GET /api/hotels?search=` - поиск отелей
- `POST /api/chat` - чат с GPT-4o-mini
- `GET /api/criteria` - список критериев
- `POST /api/audit/run` - запуск аудита
### Graphiti (порт 9200):
- `POST /upload` - загрузка данных
- `GET /health` - статус
### Search (порт 9100):
- `POST /search` - semantic search
- `GET /health` - статус
---
## 📞 ТЕХПОДДЕРЖКА
Логи:
```bash
tail -f /root/engine/public_oversight/hotels/crawler_*.log
tail -f /root/engine/public_oversight/hotels/scraper_*.log
tail -f /root/engine/public_oversight/hotels/web_interface.log
```
Перезапуск API:
```bash
pkill -f web_interface.py
cd /root/engine/public_oversight/hotels
source venv/bin/activate
nohup python web_interface.py > web_interface.log 2>&1 &
```