지난 주 포스트에서 기업이 보유한 데이터의 90% 정도가 비정형 데이터라는 분석 내용을 공유 했듯이, 비정형 데이터는 곳곳에 퍼져 있습니다. 우리가 매일 새로 만들고 수정하는 문서 속에, 그리고 음성, 동영상, 이메일, 사진, 로그 파일 등에도 다양하게 존재합니다. 규모도 엄청나고 활용 가치가 높지만, 비정형 데이터는 아직까지도 활용도가 매우 낮은 기업 자산의 하나로 분류할 수 있습니다. 이유는 간단합니다. 대부분의 조직에서 이 자원을 제대로 추출하고 활용할 수 있는 제대로 도구를 갖추지 못했기 때문입니다.
하지만 구조화된 데이터를 필요로 하는 빅데이터 분석과 업무 자동화 수요가 늘면서 상황이 변하고 있습니다. 대표적 기술이 OCR(optical character recognition)입니다. OCR은 인쇄 및 손으로 쓴 문서 내용을 시스템이 인식 가능한 텍스트로 변환하는 기술로 보험과 은행 같은 금융 기관을 중심으로 꾸준히 이용되어 왔습니다. 그러나, OCR기술 하나만을 이용할 경우에는 활용 분야와 효과가 제한적이라 전반적 확대로는 이어지지 못했다는 평가를 받습니다. 하지만, UiPath 등에 의해 OCR기술이 RPA와 인공지능(AI)와 만나면서 데이터 처리와 자동화에서 제공할 수 있는 역할이 재조명되고 있습니다. 오늘은 OCR 기술 소개와 관련된 주요 이슈를 확인해 보겠습니다.
OCR은 아래의 UiPath 솔루션에서도 핵심 역할을 수행합니다:
1. UiPath Document Understanding: 업무 자동화에 필요한 다양한 문서의 자동화 처리를 지원하는 서비스로 UiPath OCR 기술을 적극 활용합니다.
2. UiPath AI 컴퓨터 비전: AI 컴퓨터 비전은 UiPath 로봇이 컴퓨터 화면의 모든 요소를 인식할 수 있게 해주는 AI 기능으로 OCR기술을 많이 활용합니다. AI 컴퓨터 비전을 이용하면 애플리케이션에 적용된 Java, .Net 등 개발 프레임워크나 운영체제 종류에 관계없이 VDI(Virtual Desktop Interface) 환경의 업무도 자동화할 수 있습니다.
이미지 자료에 담긴 텍스트를 편집 가능한 문서로 변환하는 기술로 정의되는 OCR은 특정 작업에 소요되는 사람의 수작업 비중을 크게 줄이거나 아예 없앨 수도 있습니다. 결과적으로 자동화 업무의 백엔드 프로세스를 단순화시키고 그 과정에서 업무 처리 시간을 줄이고 담당자가 더 중요한 업무에 집중하게 도와줍니다. OCR의 주요 활용 영역은 다음과 같습니다:
OCR 활용 영역
1. 데이터 입력 작업 자동화수작업 데이터 입력은 시간 소요도 많고 오류도 자주 발생합니다. OCR을 이용해 입력 작업을 자동화하면 인력에 의한 수작업을 최소화하는 동시에 문서를 다양한 용도로 활용할 수 있는 디지털화가 가능합니다. 그리고 더 중요한 효과는 데이터 무결성과 정확도가 높아진다는 점입니다.
2. 문서 편집 (스캔한 문서 및 PDF파일)많은 경우, 업무 담당자는 편집 가능한 문서가 아닌 스캔한 문서, 팩스나 사진 형식으로 서류를 전달 받습니다. 고객 서비스 부서는 물론 재무, 인사, 구매, 생산 관리 등 조직 전반적으로 발생하는 현상이죠. 현재의 스캐너 기술은 결과물을 이미지 또는 PDF로만 출력할 수 있기 때문에, 계약서나 구매 주문서를 스캔한 다음 Microsoft Word 또는 아래한글 등 SW로 편집할 수 없습니다. 하지만, OCR 엔진을 사용하면 스캔 문서에서 텍스트를 추출해 시스템이 읽을 수 있는 형식으로 변환해 직원이 필요에 따라 편집하고 다른 업무에도 활용할 수 있습니다.
3. 시각 장애 직원의 업무 지원검토할 사건 서류를 음성 파일로 변환해서 다 들은 다음 재판에 들어가는 시각 장애 판사 사례가 얼마 전 TV프로그램에 소개된 적이 있습니다. 기업의 경우에도 같은 상황이 있을 수 있습니다. 시각 장애 직원이 문서 내용을 이해하려면 서류를 디지털 형식으로 변환해 음성 파일로 생성하는 작업이 필요합니다. OCR은 텍스트를 음성으로 변환해 시각 장애를 가진 담당 직원의 업무를 지원하고 프로세스를 간소화할 수 있습니다.
4. 문서 분류OCR은 다양한 형식의 문서 더미를 자동으로 사전 정해진 룰(Rule)에 따라 분류할 수 있습니다. 문서 템플릿이나 공급업체를 기준으로 인보이스를 분류하는 업무가 좋은 예입니다. 또 다른 사례는 우편 수신자 주소를 검색한 다음 우편 배송 시스템 알고리즘에 따라 전달 방식을 결정하는 우편 분류 시스템에 적용된 멀티라인 OCR (MLOCR) 기능에서 볼 수 있습니다.
활용도가 좋은 OCR이지만 혼자만 사용하면 몇 가지 제약 사항도 있습니다:
OCR 취약점
1. 혼자서는 데이터를 이해하지 못하는 OCROCR은 문서의 텍스트를 디지털화하고 시스템이 읽을 수 있게 지원합니다. 하지만, 보완 메커니즘이 없으면 OCR혼자서는 텍스를 이해하거나 해석하지 못하는 근본적 한계를 갖습니다. 이를 위해 OCR은 지능적이고 포괄적 기능을 가진 RPA 및 AI서비스의 일부로 이용되는 경우가 많습니다. 다양한 업무에 적용 가능한 확장성을 가진 업무 자동화를 위해서는 OCR은 RPA와 AI와의 연계 활용이 필요합니다.
2. 전체 맥락을 이해하지 못하는 OCROCR 시스템은 맥락을 이해하지 못합니다. 예를 들어, OCR 시스템은 Ball (공)이란 단어를 Bail(보석-구속 상태에서 풀려나는 것)로 잘못 인식하는 경우도 생깁니다. OCR 엔진이 Ball 단어의 앞 뒤 단어와 연계해서 맥락을 이해할 수 있다면 생기지 않을 오류이지요. 이런 이유로 OCR만 단독으로 사용하면 오류 발생에 취약합니다. 이 때문에 데이터 입력의 정확성을 보장하기 위해 사람을 투입해야 하는 이슈가 생기고, 이는 비용과 처리 증가로 이어집니다. 결과적으로 OCR 자체만으로는 최적의 자동화를 구현하는데 한계를 갖게 됩니다.
3. 문서 변동성에 취약한 OCROCR은 문서 레이아웃이나 내용에 변경이 생기는 경우에는 활용도가 떨어지는 이슈가 있습니다. 따라서 다양한 레이아웃을 가진 문서를 처리하는 업무, 즉 변동성이 큰 업무 프로세스에는 적합하지 않다는 평가를 받습니다.
4. 정확도와 확장성 부족결론적으로 OCR 하나로는 지능형 기능이 필요하거나 복잡도 높은 프로세스를 처리하기에는 정확성이나 확장성이 부족합니다. 복잡도가 계속 증가하는 현대 기업의 업무에는 OCR가 다양한 기술과의 연계 활용이 필요합니다.
OCR하나로는 기업의 복잡한 워크플로우를 지원하는데 한계를 갖지만, RPA 솔루션 및 AI와 결합하면 OCR은 효용성은 크게 향상됩니다. 그럼 UiPath 솔루션과 함께 활용할 수 있는 OCR 엔진을 정리하면서 오늘 포스트를 마무리하겠습니다.
OCR 엔진은 문서를 데이터 매니저로 가져와서 문서내의 데이터에 라벨링 작업을 할 때 이용됩니다. 이 단계에서 UiPath Document OCR (클라우드와 온-프레미스 무료 버전 제공) 엔진을 사용할 수 있습니다. 그 외에도Google Cloud OCR, Microsoft Read OCR (클라우드와 온-프레미스 버전)와 Omnipage (온-프레미스 버전) 도 이용할 수 있습니다.
OCR엔진은 RPA 워크플로우에서 모델을 호출할 때도 사용됩니다. 이 단계에서 사용 가능한 엔진은 위 4개와 Abbyy Finereader, Microsoft OCR (구형 버전), Microsoft Project Oxford OCR, Tesseract 등 입니다.
UiPath OCR은 UiPath가 자체 개발한OCR 기술로 다양한 언어를 인식합니다. UiPath OCR엔진을 이용해 처리한 문서 페이지는 UiPath Document Understanding 엔터프라이즈 라이선스로 구입한 항목에 포함되지 않기 때문에 비용에 대한 걱정없이 사용할 수 있습니다.
UiPath OCR Engines다음 포스트에서는 OCR을 UiPath Document Understanding및 UiPath AI 컴퓨터 비전과 연계해서 활용하는 시나리오를 알아보겠습니다.
Team, UiPath Korea
Sign up today and we'll email you the newest articles every week.
Thank you for subscribing! Each week, we'll send the best automation blog posts straight to your inbox.