Lokalizacja obiektów w dokumencie
O usłudze
Usługa automatycznie dokonuje detekcji obiektów w pliku graficznym strony dokumentu i zaznacza je poprzez ramkę ograniczającą (ang. bounding box). Dokonuje również klasyfikacji obiektu do podklas (na poziomie dokumentu, tzw. layout analysis). Użytkownik dla zadanego pliku wejściowego otrzymuje w odpowiedzi zbiór obiektów występujących na stronie, wraz z ich opisem, tzn. położeniem względnym (w procentach szerokości i wysokości obrazu) oraz bezwzględnym (w pixelach), uzupełnionych o przypisaną kategorię (np. tekst lub obraz). Udostępniona usługa działa dla 6 klas. Użytkownik może we własnym zakresie adaptować model do klasyfikacji własnych, specjalizowanych klas np. słowniczka pojęć.
Zastosowanie
Usługa może mieć wiele zastosowań, poniżej podano przykłady dla 4 branż.
1. Wydawnictwa i Edukacja
• Automatyczne parsowanie* podręczników szkolnych. System oddziela „Listy” (zadania), „Tabele” (dane badawcze) oraz „Tytuły”, co pozwala na automatyczne przekształcenie statycznego PDF-a w interaktywną aplikację e-learningową lub bazę danych wiedzy.
• Automatyczne generowanie i sprawdzanie testów
2. Automatyzacja Procesów Księgowych i Finansowych
W świecie finansów usługa ta może służyć jako pierwszy etap inteligentnego przetwarzania dokumentów (IDP – Intelligent Document Processing).
• Ekstrakcja danych z faktur i rachunków: usługa może precyzyjnie lokalizować bloki tekstu (dane sprzedawcy, kwoty, tabele). Dzięki współrzędnym (bounding boxes) system wie, gdzie szukać numeru konta, a gdzie np. logotypu firmy (grafika) do weryfikacji autentyczności.
• Analiza raportów rocznych: firmy inwestycyjne mogą automatycznie oddzielać wykresy i schematy (grafika) od opisów analitycznych (tekst), aby przesyłać je do różnych silników analizy danych (np. OCR dla tekstu i analiza trendów dla wykresów).
3. Sektor Prawny
Praca z wielostronicowymi umowami i aktami prawnymi wymaga szybkiej segregacji treści.
• Wykrywanie podpisów i pieczęci: dzięki klasyfikacji na „grafikę”, usługa może szybko zlokalizować miejsce złożenia podpisu lub obecność oficjalnych logotypów na stronach dokumentu, co przyspiesza weryfikację formalną umów.
• Anonimizacja* danych: system może automatycznie wykrywać wskazane pola w plikach graficznych w celu nałożenia „czarnych pasków” (ukrycia danych) na wszystkie bloki tekstowe w określonych sekcjach dokumentu, chroniąc dane wrażliwe (RODO) przed przekazaniem dokumentacji do stron trzecich (po powtórnym zapisie do grafiki).
4. Archiwizacja i Zarządzanie Wiedzą
Dla firm posiadających ogromne repozytoria dokumentów cyfrowych, usługa ta jest kluczem do lepszego indeksowania.
• Budowanie zaawansowanych wyszukiwarek: zamiast przeszukiwać tylko tekst, system może pozwalać na zapytania typu: „pokaż mi dokumenty, które zawierają wykresy (grafiki) na górze strony”.
• Automatyczna konwersja do formatów dostępnych (Accessibility): dla osób niedowidzących, usługa może identyfikować elementy graficzne, które wymagają opisu alternatywnego, oraz tekst, który ma zostać odczytany przez syntezator.
* Parsowanie (od ang. parsing) to proces analizowania i rozbijania tekstu, danych lub kodu na mniejsze, zrozumiałe części, żeby komputer (albo program) mógł je poprawnie zinterpretować.
* Anonimizacja to proces usuwania lub zmieniania danych osobowych tak, aby nie dało się zidentyfikować konkretnej osoby.
Sposób wywołania
Usługa na platformie chmurowej CAISE jest wywoływana poprzez interfejs REST API.
Udostępniony demonstrator wykorzystuje interfejs REST (w tle) i jest dodatkowym oprogramowaniem, demonstrującym jak docelowo firma/instytucja/organizacja może rozwijać swój produkt z wykorzystaniem usługi i platformy CAISE (usługi platformy CAISE nie są usługami dla użytkowników końcowych).
Demonstrator bazuje na prostych krokach:
• wybór plików do analizy,
• wykonanie operacji,
• pobranie wyników operacji.
Poniżej udostępniono film pokazujący wykorzystanie demonstratora oraz instrukcję użycia.
Dane wejściowe
i wyjściowe
Dane wejściowe to pliki graficzne w formacie png lub jpg zawierające cyfrowe obrazy stron podręcznika.
Dane wyjściowe to plik json zawierający listę rozpoznanych obiektów, listę występujących kategorii/klas, położenie obiektów we współrzędnych względnych i bezwzględnych wobec lewego górnego narożnika obrazu oraz informacje o pewności rozpoznania/klasyfikacji obiektu do danej kategorii.
Prezentacja schematu działania usługi
