큐레이션 목록
Python문서 변환오픈소스LLM 도구

microsoft/markitdown

PDF·PPT·Word·Excel·이미지·오디오·HTML·YouTube까지 LLM 컨텍스트용 마크다운으로 한 번에 변환해 주는 가벼운 Python 유틸리티.

microsoft/markitdown
저장소에서 보기

요약

PDF·PPT·Word·Excel·이미지·오디오·HTML·YouTube까지 다양한 포맷을 LLM 컨텍스트로 떨구기 좋은 마크다운으로 변환해 주는 Microsoft의 가벼운 Python 유틸리티입니다.

도구 소개

MarkItDown is a lightweight Python utility for converting various files to Markdown for use with LLMs and related text analysis pipelines.

핵심 메시지가 명확합니다. textract처럼 텍스트만 뽑아내는 도구와 비교했을 때, 헤딩·리스트·표·링크 같은 문서 구조를 살린 채 마크다운으로 변환한다는 점에 무게를 두고 있습니다. 사람이 보기 좋은 결과물보다, 텍스트 분석 파이프라인이나 LLM이 입력으로 받기 좋은 형태를 우선합니다.

지원 포맷이 폭이 넓습니다.

  • PDF
  • PowerPoint
  • Word
  • Excel
  • Images (EXIF metadata + OCR)
  • Audio (EXIF metadata + speech transcription)
  • HTML
  • Text-based formats (CSV, JSON, XML)
  • ZIP files (내부 항목 순회)
  • YouTube URLs
  • EPubs

사용법

CLI 한 줄이면 거의 모든 변환이 끝납니다.

markitdown 파일.pdf -o 파일.md

설치는 uv tool을 추천합니다. 가상환경 격리 + 어디서든 호출 가능한 글로벌 명령으로 깔끔합니다.

uv tool install 'markitdown[all]'

회사 자료처럼 업무용 문서를 LLM 컨텍스트에 옮겨야 하는 상황에 잘 맞는 도구로 보입니다. 저는 개인적으로 공부할 자료들을 마크다운으로 변환·가공해 개인 웹에 띄워두고 읽는 용도로 씁니다.

Important: MarkItDown은 현재 프로세스의 권한으로 I/O를 수행합니다. 신뢰할 수 없는 입력에는 보안 고려가 필요하다는 점이 README에서 강조되고 있습니다.

선정 사유

LLM 컨텍스트로 외부 자료를 넣어야 할 일이 점점 많아지는데, 매번 직접 텍스트를 긁어내기엔 손이 너무 많이 갑니다. MarkItDown은 그 사이를 메우는 표준 도구로 자리잡을 가능성이 충분해 보입니다. 한 번 깔아두면 형식별로 다른 도구를 찾을 필요가 없다는 점이 가장 큰 장점입니다.

참고

  • 원문 설명: "MarkItDown is a lightweight Python utility for converting various files to Markdown for use with LLMs and related text analysis pipelines."
  • 빌드: AutoGen Team
  • pypi: v0.1.5
  • 저장소: https://github.com/microsoft/markitdown