ragflow 深度解析

解析链路总览

关键实现要点

版面分析（Layout）

版面分析接口

class DeepDocParser:
    def __init__(self, layout_model="layoutlmv3",
                 table_model="table-transformer",
                 ocr_engine="paddleocr",
                 enable_formula_ocr=True, enable_image_caption=True):
        self.layout_model = self._load_layout_model(layout_model)
        self.table_model = self._load_table_model(table_model)
        self.ocr = self._load_ocr(ocr_engine)
        if enable_formula_ocr: self.formula_ocr = self._load_formula_ocr()
        if enable_image_caption: self.captioner = self._load_captioner()

    def parse_pdf(self, pdf_path: str) -> list[dict]:
        pages = self._pdf_to_images(pdf_path)
        blocks = []
        for i, img in enumerate(pages, 1):
            regions = self.layout_model.detect(img)  # [{'type': 'text'|'table'|'figure'|'formula', 'bbox':...}]
            regions = self._sort_reading_order(regions)
            for order, r in enumerate(regions, 1):
                blocks += self._parse_region(img, r, i, order)
        return blocks

LayoutLMv3/DocLayNet 族模型进行区域检测
低置信度过滤（score>0.5）+ 多栏检测（left→right, top→bottom）

表格结构识别（Structure + OCR）

表格结构识别 + OCR

def _parse_table(self, table_image) -> dict:
    structure = self.table_model.detect_structure(table_image)
    rows, cols, cells = structure['rows'], structure['cols'], structure['cells']
    data = [["" for _ in range(cols)] for _ in range(rows)]
    for c in cells:
        text = self.ocr.read(self._crop(table_image, c['bbox']))
        for r in range(c['row'], c['row']+c['rowspan']):
            for k in range(c['col'], c['col']+c['colspan']):
                data[r][k] = text if (r==c['row'] and k==c['col']) else ""
    return {"data": data, "markdown": _to_markdown(data)}

处理合并单元格（rowspan/colspan）
输出 Markdown 表格（用于文本检索）+ 原图（用于视觉检索）

公式与图像

公式/图像处理

def _parse_formula(self, image):
    latex = self.formula_ocr.predict(image) # Nougat/Pix2Tex
    return {"type": "formula", "content": f"$${latex}$$"}

def _parse_figure(self, image):
    caption = self.captioner.generate(image)  # BLIP2/ColPali caption
    return {"type": "image", "content": f"[Image: {caption}]", "image": encode(image)}