Apache Tika 是一个用于检测和提取元数据和结构化文本内容的工具包。Apache Tika 2.0.0 发布,更新内容如下: 常规: 如果 tesseract 在用户的路径上,OCR 现在会自动对 PDF 文件进行触发; 在 tika-app、tika-server 和其他任何使用了 log4j 的地方将 log4j 升级到 log4j2; 默认情况下,当为 OCR 渲染一个页面时,PDF... Apache Tika 2.0.0 发布,内容检测和分析框架下载地址