2016년 8월 21일 일요일

tesseract command line 인식 테스트 해보기


tesseract site
https://github.com/tesseract-ocr/tesseract/wiki
https://github.com/tesseract-ocr/tesseract/wiki/Downloads

binary 형태를 받아볼 수 있음, 이러한 이유 <= 빌드가 필요 없음, image를 이용해 training을 해볼 수 있음, image를 이용해 미리 인식 테스트를 해볼 수 있음

exe파일을 받았습니다.
아래 경로 참고

tesseract-ocr-setup-3.02.02.exe

툴의 사용법
setup으로 설치하면 path까지 자동으로 설치됩니다.

D:\Program Files (x86)\Tesseract-OCR\doc 폴더에 테스트용 이미지가 있습니다.
eurotext.tif, phototest.tif

cmd line에서는 아래와 같이 실행하면 됩니다. 첫번째 인자는 이미지가 되고 두번째 인자는 생성되는 파일입니다.

D:\Program Files (x86)\Tesseract-OCR>tesseract doc\eurotext.tif E:/out
Tesseract Open Source OCR Engine v3.02 with Leptonica




여러 언어를 사용할때는 아래와 같이 + 로 연결해서 -l 옵션을 사용하면 됩니다.
It can even be used with multiple languages traineddata at a time eg. English and German:

  tesseract myscan.png out -l eng+deu


Training
아래 링크 참조
https://github.com/tesseract-ocr/tesseract/wiki/TrainingTesseract
트레이닝은 새로운 언어를 추가하거나 입력되는 인식률을 높이기 위해서 하게됩니다.
위에서 받은 binary가 3.02 라서 다음 링크를 사용해야 합니다.
https://github.com/tesseract-ocr/tesseract/wiki/Training-Tesseract-3.00%E2%80%933.02
영어로 된 정확한(동작가능한) 예제를 구하지는 못했습니다.
http://blog.secmem.org/489 여기 중간 부분을 보면 training을 어떻게 하면 되는지 정보가 나옵니다.

D:\Program Files (x86)\Tesseract-OCR\tesseract-ocr\doc\tesseracticdar2007.pdf 파일을 보면 tesseract 에 대한 원리가 나오는데 읽어봐도 이해하기는 힘드네요.



댓글 없음:

댓글 쓰기