Featured image of post LiLT: A Simple yet Effective Language-Independent Layout Transformer for Structured Document Understanding

LiLT: A Simple yet Effective Language-Independent Layout Transformer for Structured Document Understanding

论文来源:ACL 2022

题目:《LiLT:一个简单而有效的用于结构化文档理解的语言无关布局转换器》
代码开源:https://github.com/jpWang/LiLT

提出一个适用于结构化文档和多语言文档的预训练模型,可以在单一语言上进行预训练,在其他语言上进行微调。
只使用文本和布局两者模态进行训练,文本部分可以使用RoBERTa/XLM-R/InfoXLM等进行文本特征的抽取;布局部分的模态,主要是使用本文提出的LiLT进行布局模态特征的提取。

创新点

  1. 提出了一个用于单语言/多语言进行结构化文档理解的模型LiLT
  2. 在模型中提出双向注意互补机制BiACM来进行文本与布局双模态之间的跨模态交互,以及两种新的预测任务来保证充分交互:关键点定位KPL和跨模态对齐识别CAI
  3. 在benchmarks上的实验证明了有效性。

算法流程

算法整体概述:
整体可以看作为是一个并行的双Transformer结构。首先,通过OCR工具获取文本的bounding box和内容的文本token,然后将文本和布局信息分别送入到对应的基于Transformer的架构来获得增强的特征,然后引入BiACM来进行文本与布局之间的跨模态交互,最终将编码好的文本和布局特征进行拼接,添加额外的头,最终进行自监督预训练或者下游任务微调。

页面浏览量Loading
明天一定会有好事发生哦⭐
😎总访客数:Loading🥰总访问量:Loading 👻数据统计

使用 Hugo 构建
主题 StackJimmy 设计