Tags
第 4 頁
OCR
Surya 正在補上的,不只是 OCR,而是 AI 文件理解最容易失真的那一層
Docling 值得現在看嗎?真正難的不是把 PDF 轉成文字,而是你把版面、表格與脈絡一起弄丟了
Docling:把文件解析從抽文字,推進到 AI-ready 的資料層,但代價也更重
MarkItDown:把文件轉成 LLM 真正吃得下的 Markdown,但別把它當萬能解析器