Files
crm.clientright.ru/WORKFLOW_OCR_КАК_РАБОТАЕТ.md
Fedor 269c7ea216 feat: OnlyOffice Standalone integration with S3 direct URLs
 ЧТО СДЕЛАНО:
- Поднят новый standalone OnlyOffice Document Server (порт 8083)
- Настроен Nginx для доступа через office.clientright.ru:9443
- Создан open_file_v3_standalone.php для работы с новым OnlyOffice
- Реализована поддержка прямых S3 URL (bucket публичный)
- Добавлен s3_proxy.php с поддержкой Range requests
- Создан onlyoffice_callback.php для сохранения (базовая версия)
- Файлы успешно открываются и загружаются!

⚠️ TODO (на завтра):
- Доработать onlyoffice_callback.php для сохранения обратно в ОРИГИНАЛЬНЫЙ путь в S3
- Добавить Redis маппинг documentKey → S3 path
- Обновить CRM JS для использования open_file_v3_standalone.php
- Протестировать сохранение файлов
- Удалить тестовые файлы

📊 РЕЗУЛЬТАТ:
- OnlyOffice Standalone РАБОТАЕТ! 
- Файлы открываются напрямую из S3 
- Редактор загружается БЫСТРО 
- Автосохранение настроено  (но нужна доработка callback)
2025-11-01 01:02:03 +03:00

5.4 KiB
Raw Blame History

🔍 КАК РАБОТАЕТ WORKFLOW OCR

⚠️ ВАЖНО: Нет ручного запуска!

Workflow OCR работает ТОЛЬКО через правила автоматизации!

В нём НЕТ кнопки "Submit to OCR" в меню файла.


🔄 КАК ЭТО РАБОТАЕТ:

Принцип работы:

1. Создаёшь правило workflow
2. Загружаешь файл в Nextcloud
3. Workflow Engine видит событие
4. Запускает OCR автоматически
5. Результат сохраняется

Это АВТОМАТИЗАЦИЯ, а не ручной инструмент!


📝 КАК СОЗДАТЬ ПРАВИЛО:

Вариант 1: Через интерфейс Nextcloud

Шаг 1: Открой настройки Flow

https://office.clientright.ru:8443/settings/admin/workflow

Шаг 2: Добавь правило

  1. Нажми "Add new workflow"
  2. Выбери условия:
    • When: File created
    • And: File MIME type is application/pdf
    • And: Path matches Documents/Project/*
  3. Выбери действие:
    • Then: OCR processing
  4. Нажми Save

Вариант 2: Через команду (автоматически)

Я могу создать правило автоматически через БД!

Команда создаст правило:

Имя: "CRM - Автоматический OCR судебных документов"

Условия:
- Файл создан
- Тип: PDF
- Имя содержит: решение, определение, постановление, договор, иск

Действие:
- OCR с русским + английским
- Создать searchable PDF

🧪 КАК ПРОТЕСТИРОВАТЬ:

После создания правила:

  1. Загрузи тестовый PDF в папку проекта
  2. Дождись 30-60 секунд (OCR работает в фоне)
  3. Проверь через поиск:
    Files → Search (🔍)
    Введи слово из документа
    
  4. Если находит → OCR работает!

📊 КАК ПРОВЕРИТЬ ЧТО OCR ВЫПОЛНЕН:

Способ 1: Через теги

После OCR файл получит тег в Nextcloud (если настроено)

Способ 2: Через логи

docker exec nextcloud-fresh tail -100 /var/www/html/data/nextcloud.log | grep -i ocr

Способ 3: Через поиск

Если файл находится по тексту из него → OCR выполнен!


АЛЬТЕРНАТИВА: Ручной OCR

Если нужен РУЧНОЙ OCR (не автоматический):

Есть другое приложение: OCR (не workflow_ocr!)

Установка:

docker exec -u www-data nextcloud-fresh php occ app:install ocr

В нём есть:

  • Кнопка "OCR" в меню файла
  • Ручной запуск для выбранных файлов
  • Выбор языка

НО: Это старое приложение, может не работать на Nextcloud 31


🎯 ЧТО ДЕЛАТЬ СЕЙЧАС:

Вариант А: Я создам правило автоматически

Создам через команду, займёт 10 секунд:

INSERT INTO oc_flow_operations ...

Результат: Все новые PDF в проектах автоматически пройдут OCR


Вариант Б: Ты создашь сам через интерфейс

Я покажу пошагово со скриншотами:

Settings → Flow → Add rule → ...

Результат: Ты понимаешь как создавать правила


Вариант В: Установить приложение для ручного OCR

docker exec -u www-data nextcloud-fresh php occ app:install ocr

Результат: Появится кнопка OCR в меню файла

⚠️ Внимание: Может не работать на Nextcloud 31!


💡 МОЯ РЕКОМЕНДАЦИЯ:

Используй АВТОМАТИЧЕСКИЙ OCR (Workflow):

  • Настроил один раз → работает всегда
  • Не нужно помнить запускать OCR
  • Все документы обрабатываются одинаково
  • Современный подход

Ручной OCR нужен редко (только для старых файлов)


🚀 ДАВАЙ СОЗДАМ ПРАВИЛО?

Что создать:

Правило 1: Судебные документы

PDF с словами: решение, определение, постановление, иск
→ OCR (русский + английский)

Правило 2: Договоры

PDF в папке Contracts
→ OCR (русский + английский)

Правило 3: Все PDF в проектах < 10MB

PDF в Documents/Project/*, размер < 10MB
→ OCR (русский + английский)

Какое правило создать? Или все три сразу? 😊