資料內(nèi)容:
一、為什么需要進(jìn)行pdf解析?
最近在探索ChatPDF和ChatDoc等方案的思路,也就是用LLM實(shí)現(xiàn)文檔助手。在此記錄一些難題和解決方案,首
先講解主要思想,其次以問題+回答的形式展開。
二、為什么需要 對(duì) pdf 進(jìn)行解析?
當(dāng) 利用 LLMs 實(shí)現(xiàn)用戶與文檔對(duì)話時(shí),首要工作 就是 對(duì) 文檔中內(nèi)容 進(jìn)行 解析 。
由于pdf是最通用,也是最復(fù)雜的文檔形式,所以 對(duì) pdf 進(jìn)行解析 變成 利用LLM實(shí)現(xiàn)用戶與文檔對(duì)話 的 重中之
重 工作。
如何精確地回答用戶關(guān)于文檔的問題,不重也不漏?筆者認(rèn)為非常重要的一點(diǎn)是文檔內(nèi)容解析。如果內(nèi)容都不能
很好地組織起來,LLM只能瞎編。
三、pdf解析 有哪些方法,對(duì)應(yīng)的區(qū)別是什么?
pdf的解析大體上有兩條路,一條是基于規(guī)則,一條是基于AI。
四、pdf解析 存在哪些問題?
pdf轉(zhuǎn)text這塊存在一定的偏差,尤其是paper中包含了大量的figure和table,以及一些特殊的字符,直接調(diào)用
langchain官方給的pdf解析工具,有一些信息甚至是錯(cuò)誤的。
這里,一方面可以用arxiv的tex源碼直接抽取內(nèi)容,另一方面,可以嘗試用各種ocr工具來提升表現(xiàn)。
五、如何 長(zhǎng)文檔(書籍)中關(guān)鍵信息?
對(duì)于 長(zhǎng)文檔(書籍),如何獲取 其中關(guān)鍵信息,并構(gòu)建索引:
• 方法一:基于規(guī)則:
• 介紹:根據(jù)文檔的組織特點(diǎn)去“算”每部分的樣式和內(nèi)容
• 存在問題:不通用,因?yàn)?/span>pdf的類型、排版實(shí)在太多了,沒辦法窮舉
• 方法二:基于AI:
• 介紹:該方法 為 目標(biāo)檢測(cè) 和 OCR文字識(shí)別 pipeline 方法