Files
hotels/PROGRESS_STATUS.md
Фёдор 0cf3297290 Проект аудита отелей: основные скрипты и документация
- Краулеры: smart_crawler.py, regional_crawler.py
- Аудит: audit_orel_to_excel.py, audit_chukotka_to_excel.py
- РКН проверка: check_rkn_registry.py, recheck_unclear_rkn.py
- Отчёты: create_orel_horizontal_report.py
- Обработка: process_all_hotels_embeddings.py
- Документация: README.md, DB_SCHEMA_REFERENCE.md
2025-10-16 10:52:09 +03:00

138 lines
6.3 KiB
Markdown
Raw Permalink Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

# 📊 ТЕКУЩЕЕ СОСТОЯНИЕ ПРОЕКТА "ОБЩЕСТВЕННЫЙ КОНТРОЛЬ ОТЕЛЕЙ"
**Дата:** 2025-10-11 01:06
**Статус:** В процессе
---
## 🎯 ОБЩИЙ ПРОГРЕСС
```
┌─────────────────────────────────────────────────────────────┐
│ ЭТАП 1: ПАРСИНГ РЕЕСТРА TOURISM.FSA.GOV.RU │
└─────────────────────────────────────────────────────────────┘
[████████████████████████████████████████] 100% ✅ ГОТОВО
✅ 33,773 отелей - базовые данные
⚙️ 10,500 отелей - детальная информация (31.1%)
└─ ETA: ~05:33 утра
└─ 3 параллельных потока активны
┌─────────────────────────────────────────────────────────────┐
│ ЭТАП 2: ФИЛЬТРАЦИЯ САНКТ-ПЕТЕРБУРГА │
└─────────────────────────────────────────────────────────────┘
[████████████████ ] 31.8% ⚙️
📊 Всего: 1,646 отелей
✅ Обработано: 523 отеля
🌐 С сайтами: 367 (70.2%)
🔮 Прогноз к утру: ~1,155 отелей с сайтами
┌─────────────────────────────────────────────────────────────┐
│ ЭТАП 3: КРАУЛИНГ САЙТОВ ОТЕЛЕЙ │
└─────────────────────────────────────────────────────────────┘
[█ ] 0.3% 🧪 ТЕСТ
🧪 Протестировано: 1 отель
📄 Спарсено: 15 страниц
💾 Сохранено: 2.9 MB сырого HTML в PostgreSQL
Извлечено:
✅ 3 телефона
✅ 3 email
✅ Формы обратной связи
✅ Онлайн-бронирование
┌─────────────────────────────────────────────────────────────┐
│ ЭТАП 4: ВЕКТОРИЗАЦИЯ В GRAPHITI │
└─────────────────────────────────────────────────────────────┘
[█ ] 0.3% 🧪 ТЕСТ
🧪 Протестировано: 1 отель
✅ 142 эпизода в Neo4j
✅ 28 сущностей
✅ 165 связей
✅ 104 эмбеддинга (1536-мерных)
✅ Semantic search работает
┌─────────────────────────────────────────────────────────────┐
│ ЭТАП 5: АУДИТ ПО 18 КРИТЕРИЯМ │
└─────────────────────────────────────────────────────────────┘
[ ] 0% 🧪 ТЕСТ
🧪 Протестировано: 8 критериев
✅ Semantic search находит релевантные данные
⚠️ Требуется LLM для точной классификации Да/Нет
Результаты теста:
✅ Контакты: найдены (score 0.349)
✅ ПДн политика: найдена (score 0.377)
✅ Режим работы: найден (score 0.329)
❌ Адрес: не найден
❌ Претензии: не найдено
```
---
## 💾 СТРУКТУРА БАЗЫ ДАННЫХ
### PostgreSQL (147.45.189.234:5432/default_db)
**Основные таблицы:**
- `hotel_main` - 33,773 записей (35 MB)
- `hotel_additional_info` - 10,500 записей
- `hotel_sanatorium` - 340 записей
- `hotel_services` - 165,918 записей
- `hotel_rooms` - 18,825 записей
- `hotel_raw_json` - 10,500 записей (backup)
**Краулинг сайтов:**
- `hotel_website_raw` - 15 страниц (сырой HTML)
- `hotel_website_meta` - 1 отель (метаданные)
- `hotel_website_processed` - 15 страниц (очищенный текст)
### Neo4j Graphiti (localhost:7687)
**Group ID: hotel_spb**
- `Episode` - 142 узла (чанки текста)
- `Entity` - 28 узлов (извлечённые сущности)
- `Relationships` - 165 связей
---
## 🚀 АКТИВНЫЕ ПРОЦЕССЫ
| Процесс | Статус | Прогресс | ETA |
|---------|--------|----------|-----|
| Детальный парсинг (3 потока) | ⚙️ Активен | 31.1% | ~05:33 |
| Universal API (порт 9200) | ✅ Работает | - | - |
| Search API (порт 9100) | ✅ Работает | - | - |
---
## 📋 СЛЕДУЮЩИЕ ШАГИ
1.**Дождаться завершения детального парсинга** (~4 часа)
2. 🌐 **Запустить краулинг всех питерских отелей с сайтами** (~1,155 отелей)
3. 🔮 **Векторизация в Graphiti** (автоматически при краулинге)
4. 🔍 **Аудит по 18 критериям** (semantic search + LLM)
5. 📊 **Экспорт результатов в Excel**
---
**Текущий приоритет:** Запустить краулинг на 5 тестовых отелях для проверки системы?