utilbox
문서

PDF 텍스트 추출

PDF 본문 텍스트를 페이지 범위·구분선·단락 옵션과 함께 추출합니다. 텍스트 레이어가 있는 PDF만 지원하며, 스캔된 이미지 PDF는 OCR 도구가 별도로 필요합니다.

파일은 서버로 업로드되지 않습니다

모든 처리는 브라우저 안에서만 진행됩니다.

PDF를 드래그하거나 클릭하여 업로드

텍스트 레이어가 있는 PDF만 지원 (스캔 이미지는 OCR 필요)

사용 방법

  1. PDF 파일을 드래그하거나 클릭하여 업로드합니다.
  2. 필요하면 페이지 범위를 지정합니다 (예: 1-3, 5). 비워두면 전체 페이지.
  3. 페이지 구분선(예: --- 페이지 N ---) 삽입 여부, 단락 처리 모드(줄바꿈 유지 / 단락 합치기)를 선택합니다.
  4. 결과를 복사하거나 .txt 파일로 저장합니다.

PDF 텍스트 추출 자세히 알아보기

PDF 텍스트 추출 도구는 PDF 안에 들어 있는 본문 텍스트를 일반 텍스트(.txt)로 변환해 주는 브라우저 유틸리티입니다. 보고서·논문·전자책·계약서 같은 PDF에서 본문만 따로 빼서 메모장에 붙이거나, GPT 같은 AI 모델에 입력하거나, 검색·치환·통계 작업에 쓰려고 할 때 사용합니다. 페이지 범위 지정(예: 5-10페이지만), 페이지 사이에 `--- 페이지 N ---` 구분선 삽입, 단락 합치기(여러 줄로 끊긴 본문을 한 단락으로) 등을 옵션으로 제공합니다. 모든 처리는 브라우저에서 진행되어 계약서·내부 문서가 외부 서버로 전송되지 않습니다. **중요한 한계: 본 도구는 OCR(이미지 인식)을 지원하지 않습니다.** PDF는 크게 두 종류가 있습니다 — (1) 워드·한글·LaTeX·웹페이지에서 변환·인쇄해 만든 **텍스트 PDF**(글자가 텍스트 레이어로 저장됨), (2) 스캐너·카메라로 종이 문서를 촬영해 만든 **스캔 PDF**(글자가 사실은 그림 픽셀임). 이 도구는 (1)에서만 텍스트를 뽑을 수 있습니다. 구분법은 간단합니다: PDF에서 글자를 마우스로 드래그해 선택·복사가 되면 텍스트 PDF, 아예 선택이 안 되면 스캔 PDF입니다. 스캔 PDF는 별도의 OCR 도구(Adobe Acrobat, Google Drive 업로드 후 "Google 문서로 열기", Naver Clova OCR 등)가 필요합니다.

이럴 때 사용하세요

  • 보고서·논문 PDF에서 일부 페이지 본문만 빼서 메모장·요약 도구에 붙여넣을 때
  • 계약서·약관 PDF 전체를 텍스트로 변환해 키워드를 검색·치환할 때
  • 전자책·강의 자료에서 인용할 단락만 페이지 범위로 골라 깔끔하게 추출할 때
  • PDF 본문을 GPT·Claude 같은 AI에게 입력하기 전 분량(글자수)을 확인하고 정리할 때
  • 여러 페이지에 걸쳐 줄바꿈이 어긋난 PDF를 "단락 합치기"로 한 줄짜리 단락으로 정리할 때

PDF 텍스트 추출 자주 묻는 질문

텍스트가 분명히 보이는데 추출이 안 돼요. 왜 그런가요?
그 PDF는 텍스트 PDF가 아니라 스캔된 이미지 PDF일 가능성이 큽니다. 글자가 실제로는 사진 픽셀로 저장되어 있어, 사람 눈에는 글자처럼 보여도 컴퓨터에는 그저 이미지로 보입니다. 구분법은 PDF에서 마우스 드래그로 글자를 선택·복사할 수 있는지 확인하는 것입니다 — 선택이 안 되면 스캔 PDF이고, 본 도구로는 추출 불가입니다. OCR(광학 문자 인식) 기능이 있는 도구가 필요합니다.
OCR이 필요한 경우 어떻게 하나요?
본 도구는 OCR을 지원하지 않습니다. 무료 대안으로 (1) Google Drive에 PDF 업로드 후 우클릭 → "Google 문서로 열기"를 선택하면 자동 OCR이 됩니다(한글 지원), (2) Adobe Acrobat의 "텍스트 인식" 기능, (3) Naver Clova OCR API를 쓸 수 있습니다. OCR로 텍스트를 추출한 뒤 결과를 본 도구의 [텍스트 정리 도구](/tools/text-cleaner)에 넣어 다듬으면 됩니다.
줄바꿈이 너무 많아서 단락이 깨져요.
PDF는 페이지 레이아웃을 유지하기 위해 한 단락 안에서도 줄마다 강제 줄바꿈을 넣는 경우가 많습니다. 옵션에서 "단락 합치기"를 선택하면, 단일 줄바꿈은 공백으로 합쳐지고 빈 줄(연속된 \n\n)만 단락 구분으로 남깁니다. 결과를 GPT·번역기에 넣을 때 가독성이 훨씬 좋아집니다. 시·코드처럼 줄바꿈 자체가 의미가 있는 경우엔 "줄바꿈 유지"를 그대로 두세요.
한글이 깨져서 나옵니다.
텍스트 PDF인데 한글이 "가나다"가 아니라 깨진 글자(예: "\uXXXX" 형태)로 나온다면, 그 PDF가 한글 폰트를 임베딩하지 않고 사용자 정의 인코딩으로 만들어진 것입니다(주로 오래된 한컴오피스·LaTeX 출력물). 이 경우 추출 자체가 불가능에 가깝습니다. PDF 원본 발행처에 "폰트 임베딩"으로 다시 출력해 달라고 요청하거나, OCR로 우회하는 것이 현실적입니다.
비밀번호 걸린 PDF도 추출되나요?
비밀번호로 열기 자체가 막힌 PDF는 본 도구에서 "읽을 수 없습니다" 오류가 납니다. 일부 PDF는 열기 비밀번호 없이 "인쇄·복사 금지" 권한만 걸려 있는데(소유자 비밀번호), pdfjs는 이 제한을 무시하고 텍스트를 추출하는 경우도 있습니다. 다만 권한 우회는 저작권·계약 사항을 위반할 수 있으니 합법적 권한이 있는 문서에만 사용하세요.