https://github.com/eihli/image-table-ocr
- PDF 또는 이미지에서 테이블 데이터를 추출해서 CSV로 만들어주는 오픈소스 - Python + OpenCV + Tesseract 코드 - PDF안의 이미지는 Poppler + ImageMagick 으로 모두 각각의 이미지 파일로 추출해서 한번에 처리 가능 (배치 스크립트) ==========================
테이블에 숫자만 있는 경우엔 아래 코드가 영역까지 선정해서 뽑아낼수 있어서 더 편할듯 합니다.
image2csv - 숫자 표 이미지를 CSV로 변환하는 오픈소스 https://github.com/artperrin/image2csv - Python + OpenCV + Tesseract 코드 - 자동 그리드(표) 인식 - 수동 인식시 윈도우에서 마우스로 영역 선택 Text-to-speech function is limited to 200 characters |