2016년 8월 21일 일요일
tesseract command line 인식 테스트 해보기
tesseract site
https://github.com/tesseract-ocr/tesseract/wiki
https://github.com/tesseract-ocr/tesseract/wiki/Downloads
binary 형태를 받아볼 수 있음, 이러한 이유 <= 빌드가 필요 없음, image를 이용해 training을 해볼 수 있음, image를 이용해 미리 인식 테스트를 해볼 수 있음
exe파일을 받았습니다.
아래 경로 참고
tesseract-ocr-setup-3.02.02.exe
툴의 사용법
setup으로 설치하면 path까지 자동으로 설치됩니다.
D:\Program Files (x86)\Tesseract-OCR\doc 폴더에 테스트용 이미지가 있습니다.
eurotext.tif, phototest.tif
cmd line에서는 아래와 같이 실행하면 됩니다. 첫번째 인자는 이미지가 되고 두번째 인자는 생성되는 파일입니다.
D:\Program Files (x86)\Tesseract-OCR>tesseract doc\eurotext.tif E:/out
Tesseract Open Source OCR Engine v3.02 with Leptonica
여러 언어를 사용할때는 아래와 같이 + 로 연결해서 -l 옵션을 사용하면 됩니다.
It can even be used with multiple languages traineddata at a time eg. English and German:
tesseract myscan.png out -l eng+deu
Training
아래 링크 참조
https://github.com/tesseract-ocr/tesseract/wiki/TrainingTesseract
트레이닝은 새로운 언어를 추가하거나 입력되는 인식률을 높이기 위해서 하게됩니다.
위에서 받은 binary가 3.02 라서 다음 링크를 사용해야 합니다.
https://github.com/tesseract-ocr/tesseract/wiki/Training-Tesseract-3.00%E2%80%933.02
영어로 된 정확한(동작가능한) 예제를 구하지는 못했습니다.
http://blog.secmem.org/489 여기 중간 부분을 보면 training을 어떻게 하면 되는지 정보가 나옵니다.
D:\Program Files (x86)\Tesseract-OCR\tesseract-ocr\doc\tesseracticdar2007.pdf 파일을 보면 tesseract 에 대한 원리가 나오는데 읽어봐도 이해하기는 힘드네요.
피드 구독하기:
댓글 (Atom)
댓글 없음:
댓글 쓰기