181 lines
5.3 KiB
Markdown
181 lines
5.3 KiB
Markdown
|
|
# 🚀 БЫСТРЫЙ СТАРТ - Система Аудита Отелей
|
|||
|
|
|
|||
|
|
## 🌐 ВЕБ-ИНТЕРФЕЙС
|
|||
|
|
|
|||
|
|
**URL:** http://185.197.75.249:8888
|
|||
|
|
|
|||
|
|
### Возможности:
|
|||
|
|
- 📊 Дашборд с общей статистикой
|
|||
|
|
- 🗺 Выбор региона и запуск аудита
|
|||
|
|
- 🏨 База всех 33,773 отелей
|
|||
|
|
- 💬 Чат-бот с GPT-4o-mini
|
|||
|
|
- 📋 Управление критериями аудита
|
|||
|
|
|
|||
|
|
---
|
|||
|
|
|
|||
|
|
## 📊 ТЕКУЩЕЕ СОСТОЯНИЕ
|
|||
|
|
|
|||
|
|
### ✅ Готово:
|
|||
|
|
|
|||
|
|
**База отелей:**
|
|||
|
|
- 33,773 отеля из реестра FSA.GOV.RU
|
|||
|
|
- Детальная информация по всем
|
|||
|
|
- ~448,000 услуг собрано
|
|||
|
|
|
|||
|
|
**Чукотский АО (ЗАВЕРШЁН):**
|
|||
|
|
- 12 отелей проверено
|
|||
|
|
- 4 сайта спарсено (50 страниц)
|
|||
|
|
- 262 эпизода в Graphiti
|
|||
|
|
- Excel отчёт создан
|
|||
|
|
- Средний балл: 3.6/18
|
|||
|
|
|
|||
|
|
**Санкт-Петербург:**
|
|||
|
|
- 1,646 отелей
|
|||
|
|
- ~1,000 с сайтами (готовы к краулингу)
|
|||
|
|
|
|||
|
|
---
|
|||
|
|
|
|||
|
|
## 🔧 ОСНОВНЫЕ СКРИПТЫ
|
|||
|
|
|
|||
|
|
### Проверка прогресса:
|
|||
|
|
```bash
|
|||
|
|
cd /root/engine/public_oversight/hotels
|
|||
|
|
./check_progress.sh
|
|||
|
|
```
|
|||
|
|
|
|||
|
|
### Краулинг сайтов региона:
|
|||
|
|
```bash
|
|||
|
|
# 1. Экспортировать отели региона
|
|||
|
|
python3 export_region.py "Регион" > region_hotels.json
|
|||
|
|
|
|||
|
|
# 2. Запустить краулинг
|
|||
|
|
python website_crawler_db.py region_hotels.json
|
|||
|
|
|
|||
|
|
# 3. Загрузить в Graphiti (автоматически в краулере)
|
|||
|
|
```
|
|||
|
|
|
|||
|
|
### Запуск аудита:
|
|||
|
|
```bash
|
|||
|
|
python audit_system.py "Название региона" "group_id"
|
|||
|
|
|
|||
|
|
# Пример:
|
|||
|
|
python audit_system.py "Чукотский автономный округ" "hotel_chukotka"
|
|||
|
|
```
|
|||
|
|
|
|||
|
|
### Запуск веб-интерфейса:
|
|||
|
|
```bash
|
|||
|
|
cd /root/engine/public_oversight/hotels
|
|||
|
|
source venv/bin/activate
|
|||
|
|
python web_interface.py
|
|||
|
|
# Доступен на http://185.197.75.249:8888
|
|||
|
|
```
|
|||
|
|
|
|||
|
|
---
|
|||
|
|
|
|||
|
|
## 📊 СТРУКТУРА ДАННЫХ
|
|||
|
|
|
|||
|
|
### PostgreSQL (147.45.189.234:5432/default_db)
|
|||
|
|
|
|||
|
|
**Основные таблицы:**
|
|||
|
|
```
|
|||
|
|
hotel_main - 33,773 отелей (базовые данные)
|
|||
|
|
hotel_raw_json - детальная информация
|
|||
|
|
hotel_services - услуги
|
|||
|
|
hotel_rooms - номерной фонд
|
|||
|
|
hotel_sanatorium - санаторная инфраструктура
|
|||
|
|
|
|||
|
|
hotel_website_raw - сырой HTML со страниц
|
|||
|
|
hotel_website_processed - очищенный текст
|
|||
|
|
hotel_website_meta - метаданные краулинга
|
|||
|
|
|
|||
|
|
hotel_audit_results - результаты аудита по 18 критериям
|
|||
|
|
```
|
|||
|
|
|
|||
|
|
### Neo4j Graphiti (localhost:7687)
|
|||
|
|
|
|||
|
|
**Group IDs:**
|
|||
|
|
- `hotel_chukotka` - Чукотский АО (262 эпизода)
|
|||
|
|
- `hotel_spb` - Санкт-Петербург (477 эпизодов)
|
|||
|
|
- `hotel_spb_v2` - Питер улучшенная версия (35 эпизодов)
|
|||
|
|
|
|||
|
|
---
|
|||
|
|
|
|||
|
|
## 🎯 18 КРИТЕРИЕВ АУДИТА
|
|||
|
|
|
|||
|
|
1. Юридическая идентификация и верификация (ИНН, ОГРН, ОПФ, ЕГРЮЛ/ЕГРИП)
|
|||
|
|
2. Адрес (юридический/фактический)
|
|||
|
|
3. Контакты (телефон, email)
|
|||
|
|
4. Режим работы
|
|||
|
|
5. Политика ПДн (152-ФЗ)
|
|||
|
|
6. Роскомнадзор (реестр)
|
|||
|
|
7. Договор-оферта / Правила оказания услуг
|
|||
|
|
8. Рекламации и споры
|
|||
|
|
9. Цены/прайс
|
|||
|
|
10. Способы оплаты
|
|||
|
|
11. Онлайн-оплата
|
|||
|
|
12. Онлайн-бронирование
|
|||
|
|
13. FAQ
|
|||
|
|
14. Доступность для ЛОВЗ
|
|||
|
|
15. Партнёры/бренды
|
|||
|
|
16. Команда/сотрудники
|
|||
|
|
17. Уголок потребителя
|
|||
|
|
18. Актуальность документов
|
|||
|
|
|
|||
|
|
**Логика:**
|
|||
|
|
- Нет сайта → автоматически "НЕТ" по всем критериям (0/18)
|
|||
|
|
- Есть сайт → проверка через semantic search + keywords
|
|||
|
|
|
|||
|
|
---
|
|||
|
|
|
|||
|
|
## 📈 ПРИМЕРЫ РЕЗУЛЬТАТОВ
|
|||
|
|
|
|||
|
|
**Чукотский АО:**
|
|||
|
|
- Гостевой дом из бруса: **15/18** (83.3%) 🏆
|
|||
|
|
- Гостиница Певек: **15/18** (83.3%)
|
|||
|
|
- Отель "Чукотка": **9/18** (50%)
|
|||
|
|
- 8 отелей без сайтов: **0/18**
|
|||
|
|
|
|||
|
|
---
|
|||
|
|
|
|||
|
|
## ⚡ API ENDPOINTS
|
|||
|
|
|
|||
|
|
### Веб-интерфейс (порт 8888):
|
|||
|
|
- `GET /` - главная страница
|
|||
|
|
- `GET /api/stats` - общая статистика
|
|||
|
|
- `GET /api/regions` - список регионов
|
|||
|
|
- `GET /api/hotels?search=` - поиск отелей
|
|||
|
|
- `POST /api/chat` - чат с GPT-4o-mini
|
|||
|
|
- `GET /api/criteria` - список критериев
|
|||
|
|
- `POST /api/audit/run` - запуск аудита
|
|||
|
|
|
|||
|
|
### Graphiti (порт 9200):
|
|||
|
|
- `POST /upload` - загрузка данных
|
|||
|
|
- `GET /health` - статус
|
|||
|
|
|
|||
|
|
### Search (порт 9100):
|
|||
|
|
- `POST /search` - semantic search
|
|||
|
|
- `GET /health` - статус
|
|||
|
|
|
|||
|
|
---
|
|||
|
|
|
|||
|
|
## 📞 ТЕХПОДДЕРЖКА
|
|||
|
|
|
|||
|
|
Логи:
|
|||
|
|
```bash
|
|||
|
|
tail -f /root/engine/public_oversight/hotels/crawler_*.log
|
|||
|
|
tail -f /root/engine/public_oversight/hotels/scraper_*.log
|
|||
|
|
tail -f /root/engine/public_oversight/hotels/web_interface.log
|
|||
|
|
```
|
|||
|
|
|
|||
|
|
Перезапуск API:
|
|||
|
|
```bash
|
|||
|
|
pkill -f web_interface.py
|
|||
|
|
cd /root/engine/public_oversight/hotels
|
|||
|
|
source venv/bin/activate
|
|||
|
|
nohup python web_interface.py > web_interface.log 2>&1 &
|
|||
|
|
```
|
|||
|
|
|
|||
|
|
|
|||
|
|
|
|||
|
|
|