Obróbka danych

Największe wyzwanie obróbki danych? Praca na wielu dokumentach wsadowych

Opublikowano: 21 lipca 2023

Obróbka danych jest procesem, który z każdej perspektywy może wiązać się z pewnymi wyzwaniami, jednak największe problemy pojawiają się zwykle już na samym początku drogi, a więc przy wyodrębnianiu danych i ich przechwytywaniu. Jeśli na tym poziomie cokolwiek dzieje się źle, to cała obróbka będzie nieskuteczna.

Im więcej źródeł, tym większy problem

Względnie łatwo jest stworzyć oprogramowanie, które będzie gromadziło czy przeliczało pewne dane albo opracowywało je statystycznie. To zebranie danych może stanowić największy problem, ponieważ zwykle informacje wejściowe pochodzą z wielu plików w różnych formatach, zapisane są odmiennymi fontami w różnych miejscach i orientacjach. Jednak tworzenie procedur i funkcji, które by sobie z tym radziły, byłoby dziś wyważaniem otwartych drzwi. Zamiast tego można przecież wykorzystać narzędzia programistyczne stworzone na przykład przez autorów programów do edycji i kopiowania PDF, którzy właśnie z tymi problemami musieli się uporać, tworząc swoje oprogramowanie.

Tego typu narzędzia potrafią już obrabiać dokumenty w różnych formatach, często także z pewnymi niedoskonałościami, co oznacza, że przechwycone przez nie dane mogą być niejednokrotnie poprawione w sposób zupełnie automatyczny i poprawnie wyodrębnione.

Każdy błąd może być gwoździem do trumny

Jest na pewno wiele powodów, dla których koniecznością jest, aby oprogramowanie do przechwytywania danych nie popełniało błędów. Przede wszystkim warto zaznaczyć, że jest ono wykorzystywane w głównej mierze przez firmy, a w ich przypadku błędne przepisanie numerów identyfikacyjnych, nazw lub kwot może rodzić poważne konsekwencje. Nie chodzi o to, że nie zgodzą się na przykład dokumenty księgowe i trzeba je będzie poprawić – błędy mogą zostać przeniesione także do dokumentów wymienianych z instytucjami państwowymi, a wtedy przedsiębiorcy mogą grozić konsekwencje finansowe lub nawet karne. Błędów więc nie powinno być, a jeśli pojawi się kłopot z odczytaniem lub przechwyceniem tekstu, to powinien on zostać w warstwie programowej obsłużony – w ostateczności także przez przesłanie użytkownikowi do ręcznej weryfikacji, jeśli inne mechanizmy zawiodą.

Trzeba obsłużyć różne dokumenty

Program, który robi tylko jedno, musi być idealny – przechwytywanie danych czy wyodrębnianie tekstu to przecież tylko jedno z zadań, które w całej ścieżce postępowania będzie podejmowane. A zatem narzędzia programistyczne, które będą obsługiwały te zadania, muszą być nie tylko doskonałe, ale i wszechstronne – wyodrębnienie tekstu z drukowanej faktury powinno być dla nich równie łatwe, co obsługa skanów czy nawet zdjęć dokumentów napisanych odręcznie. Oczywiście będzie to czasem zajmowało minimalnie więcej czasu, ale przy obróbce wielu dokumentów ważniejsza od czasu jest sumaryczna wydajność i poprawność.

Udostępnij ten post:



Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *


Powiązane treści
wdrożenie ERP
Proces wdrożenia w firmie systemu ERP (Enterprise Resource P...
Terminal płatniczy
Terminale płatnicze stanowią kluczowy element dla rozwoju ma...
zmiany w prawie podatkowym
Każdego roku dochodzi do mniejszych lub większych zmian w po...
Biuro serwisowane
Wiele firm nie korzysta z własnej przestrzeni biurowej, ale...
agencja kreatywna
Agencje kreatywne zyskują w Polsce na popularności —...