Проект аудита отелей: основные скрипты и документация
- Краулеры: smart_crawler.py, regional_crawler.py - Аудит: audit_orel_to_excel.py, audit_chukotka_to_excel.py - РКН проверка: check_rkn_registry.py, recheck_unclear_rkn.py - Отчёты: create_orel_horizontal_report.py - Обработка: process_all_hotels_embeddings.py - Документация: README.md, DB_SCHEMA_REFERENCE.md
This commit is contained in:
180
QUICK_START.md
Normal file
180
QUICK_START.md
Normal file
@@ -0,0 +1,180 @@
|
||||
# 🚀 БЫСТРЫЙ СТАРТ - Система Аудита Отелей
|
||||
|
||||
## 🌐 ВЕБ-ИНТЕРФЕЙС
|
||||
|
||||
**URL:** http://185.197.75.249:8888
|
||||
|
||||
### Возможности:
|
||||
- 📊 Дашборд с общей статистикой
|
||||
- 🗺 Выбор региона и запуск аудита
|
||||
- 🏨 База всех 33,773 отелей
|
||||
- 💬 Чат-бот с GPT-4o-mini
|
||||
- 📋 Управление критериями аудита
|
||||
|
||||
---
|
||||
|
||||
## 📊 ТЕКУЩЕЕ СОСТОЯНИЕ
|
||||
|
||||
### ✅ Готово:
|
||||
|
||||
**База отелей:**
|
||||
- 33,773 отеля из реестра FSA.GOV.RU
|
||||
- Детальная информация по всем
|
||||
- ~448,000 услуг собрано
|
||||
|
||||
**Чукотский АО (ЗАВЕРШЁН):**
|
||||
- 12 отелей проверено
|
||||
- 4 сайта спарсено (50 страниц)
|
||||
- 262 эпизода в Graphiti
|
||||
- Excel отчёт создан
|
||||
- Средний балл: 3.6/18
|
||||
|
||||
**Санкт-Петербург:**
|
||||
- 1,646 отелей
|
||||
- ~1,000 с сайтами (готовы к краулингу)
|
||||
|
||||
---
|
||||
|
||||
## 🔧 ОСНОВНЫЕ СКРИПТЫ
|
||||
|
||||
### Проверка прогресса:
|
||||
```bash
|
||||
cd /root/engine/public_oversight/hotels
|
||||
./check_progress.sh
|
||||
```
|
||||
|
||||
### Краулинг сайтов региона:
|
||||
```bash
|
||||
# 1. Экспортировать отели региона
|
||||
python3 export_region.py "Регион" > region_hotels.json
|
||||
|
||||
# 2. Запустить краулинг
|
||||
python website_crawler_db.py region_hotels.json
|
||||
|
||||
# 3. Загрузить в Graphiti (автоматически в краулере)
|
||||
```
|
||||
|
||||
### Запуск аудита:
|
||||
```bash
|
||||
python audit_system.py "Название региона" "group_id"
|
||||
|
||||
# Пример:
|
||||
python audit_system.py "Чукотский автономный округ" "hotel_chukotka"
|
||||
```
|
||||
|
||||
### Запуск веб-интерфейса:
|
||||
```bash
|
||||
cd /root/engine/public_oversight/hotels
|
||||
source venv/bin/activate
|
||||
python web_interface.py
|
||||
# Доступен на http://185.197.75.249:8888
|
||||
```
|
||||
|
||||
---
|
||||
|
||||
## 📊 СТРУКТУРА ДАННЫХ
|
||||
|
||||
### PostgreSQL (147.45.189.234:5432/default_db)
|
||||
|
||||
**Основные таблицы:**
|
||||
```
|
||||
hotel_main - 33,773 отелей (базовые данные)
|
||||
hotel_raw_json - детальная информация
|
||||
hotel_services - услуги
|
||||
hotel_rooms - номерной фонд
|
||||
hotel_sanatorium - санаторная инфраструктура
|
||||
|
||||
hotel_website_raw - сырой HTML со страниц
|
||||
hotel_website_processed - очищенный текст
|
||||
hotel_website_meta - метаданные краулинга
|
||||
|
||||
hotel_audit_results - результаты аудита по 18 критериям
|
||||
```
|
||||
|
||||
### Neo4j Graphiti (localhost:7687)
|
||||
|
||||
**Group IDs:**
|
||||
- `hotel_chukotka` - Чукотский АО (262 эпизода)
|
||||
- `hotel_spb` - Санкт-Петербург (477 эпизодов)
|
||||
- `hotel_spb_v2` - Питер улучшенная версия (35 эпизодов)
|
||||
|
||||
---
|
||||
|
||||
## 🎯 18 КРИТЕРИЕВ АУДИТА
|
||||
|
||||
1. Юридическая идентификация и верификация (ИНН, ОГРН, ОПФ, ЕГРЮЛ/ЕГРИП)
|
||||
2. Адрес (юридический/фактический)
|
||||
3. Контакты (телефон, email)
|
||||
4. Режим работы
|
||||
5. Политика ПДн (152-ФЗ)
|
||||
6. Роскомнадзор (реестр)
|
||||
7. Договор-оферта / Правила оказания услуг
|
||||
8. Рекламации и споры
|
||||
9. Цены/прайс
|
||||
10. Способы оплаты
|
||||
11. Онлайн-оплата
|
||||
12. Онлайн-бронирование
|
||||
13. FAQ
|
||||
14. Доступность для ЛОВЗ
|
||||
15. Партнёры/бренды
|
||||
16. Команда/сотрудники
|
||||
17. Уголок потребителя
|
||||
18. Актуальность документов
|
||||
|
||||
**Логика:**
|
||||
- Нет сайта → автоматически "НЕТ" по всем критериям (0/18)
|
||||
- Есть сайт → проверка через semantic search + keywords
|
||||
|
||||
---
|
||||
|
||||
## 📈 ПРИМЕРЫ РЕЗУЛЬТАТОВ
|
||||
|
||||
**Чукотский АО:**
|
||||
- Гостевой дом из бруса: **15/18** (83.3%) 🏆
|
||||
- Гостиница Певек: **15/18** (83.3%)
|
||||
- Отель "Чукотка": **9/18** (50%)
|
||||
- 8 отелей без сайтов: **0/18**
|
||||
|
||||
---
|
||||
|
||||
## ⚡ API ENDPOINTS
|
||||
|
||||
### Веб-интерфейс (порт 8888):
|
||||
- `GET /` - главная страница
|
||||
- `GET /api/stats` - общая статистика
|
||||
- `GET /api/regions` - список регионов
|
||||
- `GET /api/hotels?search=` - поиск отелей
|
||||
- `POST /api/chat` - чат с GPT-4o-mini
|
||||
- `GET /api/criteria` - список критериев
|
||||
- `POST /api/audit/run` - запуск аудита
|
||||
|
||||
### Graphiti (порт 9200):
|
||||
- `POST /upload` - загрузка данных
|
||||
- `GET /health` - статус
|
||||
|
||||
### Search (порт 9100):
|
||||
- `POST /search` - semantic search
|
||||
- `GET /health` - статус
|
||||
|
||||
---
|
||||
|
||||
## 📞 ТЕХПОДДЕРЖКА
|
||||
|
||||
Логи:
|
||||
```bash
|
||||
tail -f /root/engine/public_oversight/hotels/crawler_*.log
|
||||
tail -f /root/engine/public_oversight/hotels/scraper_*.log
|
||||
tail -f /root/engine/public_oversight/hotels/web_interface.log
|
||||
```
|
||||
|
||||
Перезапуск API:
|
||||
```bash
|
||||
pkill -f web_interface.py
|
||||
cd /root/engine/public_oversight/hotels
|
||||
source venv/bin/activate
|
||||
nohup python web_interface.py > web_interface.log 2>&1 &
|
||||
```
|
||||
|
||||
|
||||
|
||||
|
||||
Reference in New Issue
Block a user