🚀 Full project sync: Hotels RAG & Audit System

 Major Features:
- Complete RAG system for hotel website analysis
- Hybrid audit with BGE-M3 embeddings + Natasha NER
- Universal horizontal Excel reports with dashboards
- Multi-region processing (SPb, Orel, Chukotka, Kamchatka)

📊 Completed Regions:
- Орловская область: 100% (36/36)
- Чукотский АО: 100% (4/4)
- г. Санкт-Петербург: 93% (893/960)
- Камчатский край: 87% (89/102)

🔧 Infrastructure:
- PostgreSQL with pgvector extension
- BGE-M3 embeddings API
- Browserless for web scraping
- N8N workflows for automation
- S3/Nextcloud file storage

📝 Documentation:
- Complete DB schemas
- API documentation
- Setup guides
- Status reports
This commit is contained in:
Фёдор
2025-10-27 22:49:42 +03:00
parent 0cf3297290
commit 684fada337
94 changed files with 14891 additions and 911 deletions

132
GIT_USAGE.md Normal file
View File

@@ -0,0 +1,132 @@
# 📚 КАК ПОЛЬЗОВАТЬСЯ GIT
## 📍 РАСПОЛОЖЕНИЕ
- **Репозиторий:** `/root/engine/public_oversight/hotels/.git`
- **Тип:** Локальный (без GitHub/GitLab)
- **Коммитов:** 2
## ✅ УЖЕ ЗАКОММИЧЕНО
-Все Python скрипты (105 файлов)
- ✅ Документация (.md файлы)
- ✅ Конфигурация (docker-compose.yml, Dockerfile)
- ✅ Shell скрипты (.sh)
## 🚫 ИГНОРИРУЕТСЯ (в .gitignore)
- `venv/`, `embedding_env/`, `parser_env/` - виртуальные окружения
- `*.log` - логи
- `*.xlsx`, `*.xls` - Excel отчёты
- `__pycache__/`, `*.pyc` - кеши Python
- `API_KEY.txt`, `*.env` - секретные данные
## 📝 ОСНОВНЫЕ КОМАНДЫ
### Посмотреть статус
```bash
cd /root/engine/public_oversight/hotels
git status
```
### Добавить изменения
```bash
git add smart_crawler.py # Один файл
git add *.py # Все Python файлы
git add . # Всё (осторожно!)
```
### Закоммитить
```bash
git commit -m "Описание изменений"
```
### Посмотреть историю
```bash
git log # Полная история
git log --oneline # Кратко
git log -5 # Последние 5
```
### Посмотреть изменения
```bash
git diff # Незакоммиченные изменения
git diff HEAD~1 # Сравнить с предыдущим коммитом
git show <commit_hash> # Конкретный коммит
```
### Откатить изменения
```bash
git checkout -- <файл> # Откатить файл
git reset --hard HEAD # Откатить ВСЁ (осторожно!)
```
## 💾 БЭКАП НА S3
### Ручной бэкап
```bash
./backup_to_s3.sh
```
### Автоматический бэкап (cron)
Добавь в crontab:
```bash
0 3 * * * cd /root/engine/public_oversight/hotels && ./backup_to_s3.sh
```
(каждый день в 3:00)
## 🎯 ТИПИЧНЫЙ РАБОЧИЙ ПРОЦЕСС
1. **Поработал над кодом**
2. **Проверяю что изменилось:**
```bash
git status
git diff
```
3. **Добавляю файлы:**
```bash
git add audit_orel_to_excel.py
```
4. **Коммичу:**
```bash
git commit -m "Исправлен баг с РКН данными в отчёте"
```
5. **Проверяю историю:**
```bash
git log --oneline
```
## 📊 ТЕКУЩЕЕ СОСТОЯНИЕ
```bash
# Посмотреть статистику
git log --stat
# Посмотреть кол-во коммитов
git rev-list --count HEAD
# Посмотреть размер репозитория
du -sh .git
```
## 🚀 ЕСЛИ ЗАХОЧЕШЬ ВЫЛОЖИТЬ НА GITHUB
```bash
# 1. Создай репозиторий на GitHub
# 2. Добавь remote:
git remote add origin https://github.com/YOUR_USERNAME/hotels.git
# 3. Отправь:
git push -u origin master
```
## ❓ ВОПРОСЫ
**Q: Где физически хранятся данные git?**
A: В папке `.git/` внутри `/root/engine/public_oversight/hotels/`
**Q: Можно ли удалить `.git` и начать заново?**
A: Да, просто `rm -rf .git` и `git init` снова
**Q: Занимает ли git много места?**
A: Нет, только изменения. Сейчас ~1-2 MB
**Q: Можно ли работать без коммитов?**
A: Да, git не обязателен. Но с ним удобнее откатывать изменения