- Краулеры: smart_crawler.py, regional_crawler.py - Аудит: audit_orel_to_excel.py, audit_chukotka_to_excel.py - РКН проверка: check_rkn_registry.py, recheck_unclear_rkn.py - Отчёты: create_orel_horizontal_report.py - Обработка: process_all_hotels_embeddings.py - Документация: README.md, DB_SCHEMA_REFERENCE.md
181 lines
5.3 KiB
Markdown
181 lines
5.3 KiB
Markdown
# 🚀 БЫСТРЫЙ СТАРТ - Система Аудита Отелей
|
||
|
||
## 🌐 ВЕБ-ИНТЕРФЕЙС
|
||
|
||
**URL:** http://185.197.75.249:8888
|
||
|
||
### Возможности:
|
||
- 📊 Дашборд с общей статистикой
|
||
- 🗺 Выбор региона и запуск аудита
|
||
- 🏨 База всех 33,773 отелей
|
||
- 💬 Чат-бот с GPT-4o-mini
|
||
- 📋 Управление критериями аудита
|
||
|
||
---
|
||
|
||
## 📊 ТЕКУЩЕЕ СОСТОЯНИЕ
|
||
|
||
### ✅ Готово:
|
||
|
||
**База отелей:**
|
||
- 33,773 отеля из реестра FSA.GOV.RU
|
||
- Детальная информация по всем
|
||
- ~448,000 услуг собрано
|
||
|
||
**Чукотский АО (ЗАВЕРШЁН):**
|
||
- 12 отелей проверено
|
||
- 4 сайта спарсено (50 страниц)
|
||
- 262 эпизода в Graphiti
|
||
- Excel отчёт создан
|
||
- Средний балл: 3.6/18
|
||
|
||
**Санкт-Петербург:**
|
||
- 1,646 отелей
|
||
- ~1,000 с сайтами (готовы к краулингу)
|
||
|
||
---
|
||
|
||
## 🔧 ОСНОВНЫЕ СКРИПТЫ
|
||
|
||
### Проверка прогресса:
|
||
```bash
|
||
cd /root/engine/public_oversight/hotels
|
||
./check_progress.sh
|
||
```
|
||
|
||
### Краулинг сайтов региона:
|
||
```bash
|
||
# 1. Экспортировать отели региона
|
||
python3 export_region.py "Регион" > region_hotels.json
|
||
|
||
# 2. Запустить краулинг
|
||
python website_crawler_db.py region_hotels.json
|
||
|
||
# 3. Загрузить в Graphiti (автоматически в краулере)
|
||
```
|
||
|
||
### Запуск аудита:
|
||
```bash
|
||
python audit_system.py "Название региона" "group_id"
|
||
|
||
# Пример:
|
||
python audit_system.py "Чукотский автономный округ" "hotel_chukotka"
|
||
```
|
||
|
||
### Запуск веб-интерфейса:
|
||
```bash
|
||
cd /root/engine/public_oversight/hotels
|
||
source venv/bin/activate
|
||
python web_interface.py
|
||
# Доступен на http://185.197.75.249:8888
|
||
```
|
||
|
||
---
|
||
|
||
## 📊 СТРУКТУРА ДАННЫХ
|
||
|
||
### PostgreSQL (147.45.189.234:5432/default_db)
|
||
|
||
**Основные таблицы:**
|
||
```
|
||
hotel_main - 33,773 отелей (базовые данные)
|
||
hotel_raw_json - детальная информация
|
||
hotel_services - услуги
|
||
hotel_rooms - номерной фонд
|
||
hotel_sanatorium - санаторная инфраструктура
|
||
|
||
hotel_website_raw - сырой HTML со страниц
|
||
hotel_website_processed - очищенный текст
|
||
hotel_website_meta - метаданные краулинга
|
||
|
||
hotel_audit_results - результаты аудита по 18 критериям
|
||
```
|
||
|
||
### Neo4j Graphiti (localhost:7687)
|
||
|
||
**Group IDs:**
|
||
- `hotel_chukotka` - Чукотский АО (262 эпизода)
|
||
- `hotel_spb` - Санкт-Петербург (477 эпизодов)
|
||
- `hotel_spb_v2` - Питер улучшенная версия (35 эпизодов)
|
||
|
||
---
|
||
|
||
## 🎯 18 КРИТЕРИЕВ АУДИТА
|
||
|
||
1. Юридическая идентификация и верификация (ИНН, ОГРН, ОПФ, ЕГРЮЛ/ЕГРИП)
|
||
2. Адрес (юридический/фактический)
|
||
3. Контакты (телефон, email)
|
||
4. Режим работы
|
||
5. Политика ПДн (152-ФЗ)
|
||
6. Роскомнадзор (реестр)
|
||
7. Договор-оферта / Правила оказания услуг
|
||
8. Рекламации и споры
|
||
9. Цены/прайс
|
||
10. Способы оплаты
|
||
11. Онлайн-оплата
|
||
12. Онлайн-бронирование
|
||
13. FAQ
|
||
14. Доступность для ЛОВЗ
|
||
15. Партнёры/бренды
|
||
16. Команда/сотрудники
|
||
17. Уголок потребителя
|
||
18. Актуальность документов
|
||
|
||
**Логика:**
|
||
- Нет сайта → автоматически "НЕТ" по всем критериям (0/18)
|
||
- Есть сайт → проверка через semantic search + keywords
|
||
|
||
---
|
||
|
||
## 📈 ПРИМЕРЫ РЕЗУЛЬТАТОВ
|
||
|
||
**Чукотский АО:**
|
||
- Гостевой дом из бруса: **15/18** (83.3%) 🏆
|
||
- Гостиница Певек: **15/18** (83.3%)
|
||
- Отель "Чукотка": **9/18** (50%)
|
||
- 8 отелей без сайтов: **0/18**
|
||
|
||
---
|
||
|
||
## ⚡ API ENDPOINTS
|
||
|
||
### Веб-интерфейс (порт 8888):
|
||
- `GET /` - главная страница
|
||
- `GET /api/stats` - общая статистика
|
||
- `GET /api/regions` - список регионов
|
||
- `GET /api/hotels?search=` - поиск отелей
|
||
- `POST /api/chat` - чат с GPT-4o-mini
|
||
- `GET /api/criteria` - список критериев
|
||
- `POST /api/audit/run` - запуск аудита
|
||
|
||
### Graphiti (порт 9200):
|
||
- `POST /upload` - загрузка данных
|
||
- `GET /health` - статус
|
||
|
||
### Search (порт 9100):
|
||
- `POST /search` - semantic search
|
||
- `GET /health` - статус
|
||
|
||
---
|
||
|
||
## 📞 ТЕХПОДДЕРЖКА
|
||
|
||
Логи:
|
||
```bash
|
||
tail -f /root/engine/public_oversight/hotels/crawler_*.log
|
||
tail -f /root/engine/public_oversight/hotels/scraper_*.log
|
||
tail -f /root/engine/public_oversight/hotels/web_interface.log
|
||
```
|
||
|
||
Перезапуск API:
|
||
```bash
|
||
pkill -f web_interface.py
|
||
cd /root/engine/public_oversight/hotels
|
||
source venv/bin/activate
|
||
nohup python web_interface.py > web_interface.log 2>&1 &
|
||
```
|
||
|
||
|
||
|
||
|