138 lines
6.3 KiB
Markdown
138 lines
6.3 KiB
Markdown
|
|
# 📊 ТЕКУЩЕЕ СОСТОЯНИЕ ПРОЕКТА "ОБЩЕСТВЕННЫЙ КОНТРОЛЬ ОТЕЛЕЙ"
|
|||
|
|
|
|||
|
|
**Дата:** 2025-10-11 01:06
|
|||
|
|
**Статус:** В процессе
|
|||
|
|
|
|||
|
|
---
|
|||
|
|
|
|||
|
|
## 🎯 ОБЩИЙ ПРОГРЕСС
|
|||
|
|
|
|||
|
|
```
|
|||
|
|
┌─────────────────────────────────────────────────────────────┐
|
|||
|
|
│ ЭТАП 1: ПАРСИНГ РЕЕСТРА TOURISM.FSA.GOV.RU │
|
|||
|
|
└─────────────────────────────────────────────────────────────┘
|
|||
|
|
|
|||
|
|
[████████████████████████████████████████] 100% ✅ ГОТОВО
|
|||
|
|
|
|||
|
|
✅ 33,773 отелей - базовые данные
|
|||
|
|
⚙️ 10,500 отелей - детальная информация (31.1%)
|
|||
|
|
└─ ETA: ~05:33 утра
|
|||
|
|
└─ 3 параллельных потока активны
|
|||
|
|
|
|||
|
|
|
|||
|
|
┌─────────────────────────────────────────────────────────────┐
|
|||
|
|
│ ЭТАП 2: ФИЛЬТРАЦИЯ САНКТ-ПЕТЕРБУРГА │
|
|||
|
|
└─────────────────────────────────────────────────────────────┘
|
|||
|
|
|
|||
|
|
[████████████████ ] 31.8% ⚙️
|
|||
|
|
|
|||
|
|
📊 Всего: 1,646 отелей
|
|||
|
|
✅ Обработано: 523 отеля
|
|||
|
|
🌐 С сайтами: 367 (70.2%)
|
|||
|
|
🔮 Прогноз к утру: ~1,155 отелей с сайтами
|
|||
|
|
|
|||
|
|
|
|||
|
|
┌─────────────────────────────────────────────────────────────┐
|
|||
|
|
│ ЭТАП 3: КРАУЛИНГ САЙТОВ ОТЕЛЕЙ │
|
|||
|
|
└─────────────────────────────────────────────────────────────┘
|
|||
|
|
|
|||
|
|
[█ ] 0.3% 🧪 ТЕСТ
|
|||
|
|
|
|||
|
|
🧪 Протестировано: 1 отель
|
|||
|
|
📄 Спарсено: 15 страниц
|
|||
|
|
💾 Сохранено: 2.9 MB сырого HTML в PostgreSQL
|
|||
|
|
|
|||
|
|
Извлечено:
|
|||
|
|
✅ 3 телефона
|
|||
|
|
✅ 3 email
|
|||
|
|
✅ Формы обратной связи
|
|||
|
|
✅ Онлайн-бронирование
|
|||
|
|
|
|||
|
|
|
|||
|
|
┌─────────────────────────────────────────────────────────────┐
|
|||
|
|
│ ЭТАП 4: ВЕКТОРИЗАЦИЯ В GRAPHITI │
|
|||
|
|
└─────────────────────────────────────────────────────────────┘
|
|||
|
|
|
|||
|
|
[█ ] 0.3% 🧪 ТЕСТ
|
|||
|
|
|
|||
|
|
🧪 Протестировано: 1 отель
|
|||
|
|
✅ 142 эпизода в Neo4j
|
|||
|
|
✅ 28 сущностей
|
|||
|
|
✅ 165 связей
|
|||
|
|
✅ 104 эмбеддинга (1536-мерных)
|
|||
|
|
✅ Semantic search работает
|
|||
|
|
|
|||
|
|
|
|||
|
|
┌─────────────────────────────────────────────────────────────┐
|
|||
|
|
│ ЭТАП 5: АУДИТ ПО 18 КРИТЕРИЯМ │
|
|||
|
|
└─────────────────────────────────────────────────────────────┘
|
|||
|
|
|
|||
|
|
[ ] 0% 🧪 ТЕСТ
|
|||
|
|
|
|||
|
|
🧪 Протестировано: 8 критериев
|
|||
|
|
✅ Semantic search находит релевантные данные
|
|||
|
|
⚠️ Требуется LLM для точной классификации Да/Нет
|
|||
|
|
|
|||
|
|
Результаты теста:
|
|||
|
|
✅ Контакты: найдены (score 0.349)
|
|||
|
|
✅ ПДн политика: найдена (score 0.377)
|
|||
|
|
✅ Режим работы: найден (score 0.329)
|
|||
|
|
❌ Адрес: не найден
|
|||
|
|
❌ Претензии: не найдено
|
|||
|
|
|
|||
|
|
```
|
|||
|
|
|
|||
|
|
---
|
|||
|
|
|
|||
|
|
## 💾 СТРУКТУРА БАЗЫ ДАННЫХ
|
|||
|
|
|
|||
|
|
### PostgreSQL (147.45.189.234:5432/default_db)
|
|||
|
|
|
|||
|
|
**Основные таблицы:**
|
|||
|
|
- `hotel_main` - 33,773 записей (35 MB)
|
|||
|
|
- `hotel_additional_info` - 10,500 записей
|
|||
|
|
- `hotel_sanatorium` - 340 записей
|
|||
|
|
- `hotel_services` - 165,918 записей
|
|||
|
|
- `hotel_rooms` - 18,825 записей
|
|||
|
|
- `hotel_raw_json` - 10,500 записей (backup)
|
|||
|
|
|
|||
|
|
**Краулинг сайтов:**
|
|||
|
|
- `hotel_website_raw` - 15 страниц (сырой HTML)
|
|||
|
|
- `hotel_website_meta` - 1 отель (метаданные)
|
|||
|
|
- `hotel_website_processed` - 15 страниц (очищенный текст)
|
|||
|
|
|
|||
|
|
### Neo4j Graphiti (localhost:7687)
|
|||
|
|
|
|||
|
|
**Group ID: hotel_spb**
|
|||
|
|
- `Episode` - 142 узла (чанки текста)
|
|||
|
|
- `Entity` - 28 узлов (извлечённые сущности)
|
|||
|
|
- `Relationships` - 165 связей
|
|||
|
|
|
|||
|
|
---
|
|||
|
|
|
|||
|
|
## 🚀 АКТИВНЫЕ ПРОЦЕССЫ
|
|||
|
|
|
|||
|
|
| Процесс | Статус | Прогресс | ETA |
|
|||
|
|
|---------|--------|----------|-----|
|
|||
|
|
| Детальный парсинг (3 потока) | ⚙️ Активен | 31.1% | ~05:33 |
|
|||
|
|
| Universal API (порт 9200) | ✅ Работает | - | - |
|
|||
|
|
| Search API (порт 9100) | ✅ Работает | - | - |
|
|||
|
|
|
|||
|
|
---
|
|||
|
|
|
|||
|
|
## 📋 СЛЕДУЮЩИЕ ШАГИ
|
|||
|
|
|
|||
|
|
1. ⏳ **Дождаться завершения детального парсинга** (~4 часа)
|
|||
|
|
2. 🌐 **Запустить краулинг всех питерских отелей с сайтами** (~1,155 отелей)
|
|||
|
|
3. 🔮 **Векторизация в Graphiti** (автоматически при краулинге)
|
|||
|
|
4. 🔍 **Аудит по 18 критериям** (semantic search + LLM)
|
|||
|
|
5. 📊 **Экспорт результатов в Excel**
|
|||
|
|
|
|||
|
|
---
|
|||
|
|
|
|||
|
|
**Текущий приоритет:** Запустить краулинг на 5 тестовых отелях для проверки системы?
|
|||
|
|
|
|||
|
|
|
|||
|
|
|
|||
|
|
|