PDF 라이브러리 vs 네이버 Clova OCR

PDF 한글 추출 실험 지난 번 글에서는 PDF라이브러리 5종의 성능을 비교했다. PDF 라이브러리 중에서 가장 뛰어난 라이브러리가 궁금하다면? => PDF 라이브러리 5종 한글 추출 실험 실험에서 PDF 라이브러리도 예상보다 훨씬 뛰어난 성능을 보여주긴 했지만,

2024-06-17 autorag / rag / ocr / pdfminer

PDF 라이브러리 vs 네이버 Clova OCR 글 대표 일러스트 — Jeffrey Kim의 SecondBrain 빌드 로그 아티클 커버

Quick context

First, this page captures one concrete build-log step, research note, or project lesson from Jeffrey Kim.

Next, use the tags, related reading, and home archive to move from this note to deeper material in the same topic cluster.

Finally, follow the RSS feed if you want the next experiment, retrospective, or paper review as soon as it ships.

제가 직접 작성한 것이 아닌 AutoRAG를 같이 만든 [김병욱](https://www.linkedin.com/in/autorag-bwook/) 연구원이 쓴 글입니다.

PDF 한글 추출 실험

지난 번 글에서는 PDF라이브러리 5종의 성능을 비교했다.

PDF 라이브러리 중에서 가장 뛰어난 라이브러리가 궁금하다면? => PDF 라이브러리 5종 한글 추출 실험

실험에서 PDF 라이브러리도 예상보다 훨씬 뛰어난 성능을 보여주긴 했지만, 가끔씩 글자가 깨져버리기도 하고, 표는 전혀 추출해내지 못하는 모습이 살짝 아쉬웠다

그러다 문득 PDF 라이브러리와 전문 OCR의 성능은 얼마나 차이가 날 지 궁금해져 실험을 해보기로 했다.

그래서 이번 글에서는 PDF라이브러리 실험에서 공동 우승(?)을 했던 PDFMiner와, OCR중에서 네이버의 Clova OCR의 성능 비교를 간단히 해보도록 하겠다

결과 요약

네이버 OCR의 성능이 예상보다 훨씬 만족스러움

1. 텍스트

PDFMiner

5개의 파이썬 라이브러리 수준에서 사용할 수 있는 것 중 공동 1위 (지난 실험 결과)
⚠️ 20~30개 중 1개 꼴로 아예 텍스트가 깨져버리는 현상이 발생함 (실험 4번 참고)

네이버 Clova OCR

만족스러운 수준

2. 이미지

둘 다 불가능

3. 표

PDFMiner

텍스트만 그냥 추출되는 수준.

네이버 Clova OCR

놀라울 정도로 잘 함 (실험 3, 4, 5 참고)

실험 진행

네이버 OCR은 PDF 1 페이지 단위로만 지원해 PDF를 잘라서 실험
웹에서 네이버 Clova OCR 써보며 실험

실험 1: (제목, 목차, 내용이 모두 있는) 첫 페이지

📌원본 PDF

1897d9c0 c600 4f55 8208 1cf5fe6207fa article image

📌 추출 결과

b28bab02 8980 4bbb ba17 f510abbc5709 article image

성능은 비슷비슷했다. 확실히 OCR에서는 깨지는 글자가 거의 없는 것을 확인할 수 있긴 하다

실험 2: 텍스트만

📌원본 PDF

f00cd067 32ce 483f 80d3 53316be5e6cd article image

📌추출 결과

fbec32bf 0d24 43b6 b89d 525c24e5efc8 article image

네이버 OCR 줄 바꿈까지 확실하게 해내는 모습이다.

실험 3: 표만 있는 경우

📌원본 PDF

955f8afc ff12 4363 96a0 96582affd94e article image

📌추출 결과

7934c73f 3f90 4fe1 bf52 4288e886c2bc article image

PDFMiner는 표는 불가능 하지만 OCR은 표를 잘 뽑아내는 모습이다. 역시 OCR은 표를 추출해내는 데에 강점이 있다.

실험 4: 차트(이미지) + 표

📌원본 PDF

a89948a8 38fd 4512 a134 9d04ddce44af article image

📌추출 결과

bcac330d 2424 4dd6 a9ec 55f0d3c8c7a7 article image

네이버의 표 추출 결과

cfbeeaaa 5f1f 4511 93d8 177964191e77 article image

PDFMiner는 잘 하다가도 갑자기 글자가 깨져버린다
차트(이미지)는 둘 다 불가능
표에 있어서는 확실히 네이버 Clova OCR이 강점이 있는 모습이다

번외 실험 5: 네이버의 복잡한 표 추출 성능 실험

문득 표를 잘 추출해내는 것을 보고, 복잡한 표도 잘 뽑아낼 수 있는 지가 궁금해졌다. 그래서 우리 팀에서도 꽤나 애를 먹었었던 이른바 표 속의 표, 어려운 표도 잘 뽑아낼 수 있는 지 확인해봤다.

📌원본 PDF

911355db 0552 48d7 9800 90b61720bdab article image

📌추출 결과

36b5caf6 73f6 4081 bd26 2e7b3e461ea0 article image

상당히 놀라운 결과이다.

개인적으로는 전혀 기대하고 있지 않았는데,, 표 속의 표까지 잘 뽑아낼 줄은 몰랐다.

더 읽어보기

AutoRAG 깃허브 => https://github.com/Marker-Inc-Korea/AutoRAG
PDF 라이브러리 5종 한글 추출 실험

Quick context

결과 요약

1. 텍스트

2. 이미지

3. 표

실험 진행

실험 1: (제목, 목차, 내용이 모두 있는) 첫 페이지

📌원본 PDF

📌 추출 결과

실험 2: 텍스트만

📌원본 PDF

📌추출 결과

실험 3: 표만 있는 경우

📌원본 PDF

📌추출 결과

실험 4: 차트(이미지) + 표

📌원본 PDF

📌추출 결과

번외 실험 5: 네이버의 복잡한 표 추출 성능 실험

📌원본 PDF

📌추출 결과

더 읽어보기

Related reading