合合信息大模型“加速器”重磅上線

来源:https://www.cnblogs.com/xfuture/p/18289383
-Advertisement-
Play Games

大模型技術的發展和應用,預示著更加智能化、個性化未來的到來。如果將大模型比喻為正在疾馳的科技列車,語料便是珍貴的“燃料”。本次世界人工智慧大會期間,合合信息為大模型打造的“加速器”解決方案備受關註。 在大模型訓練的上游階段,“加速器”中的文檔解析引擎將助力大模型突破在書籍、論文、研報等文檔中的版面解 ...


大模型技術的發展和應用,預示著更加智能化、個性化未來的到來。如果將大模型比喻為正在疾馳的科技列車,語料便是珍貴的“燃料”。本次世界人工智慧大會期間,合合信息為大模型打造的“加速器”解決方案備受關註。

在大模型訓練的上游階段,“加速器”中的文檔解析引擎將助力大模型突破在書籍、論文、研報等文檔中的版面解析障礙,從源頭為模型訓練與應用輸送純凈的“燃料”,助力大模型跑得更快;“加速器”還載入了行業領先的acge文本向量化模型,助力大模型解決“已讀亂回”的“幻覺”問題,讓大模型在正確的航線上行駛得更遠。

TextIn是合合信息旗下的智能文檔處理平臺,在智能文字識別領域深耕17年,致力於圖像處理、模式識別、神經網路、深度學習、STR、NLP、知識圖譜等人工智慧領域研究。憑藉行業領先的技術實力,為掃描全能王、名片全能王等智能文字識別產品提供強大的底層技術支持,並對企業、開發者、個人用戶提供智能文字識別引擎、產品、雲端服務。
立足AI時代,TextIn以深厚的技術積累為基礎,接連推出通用文檔解析、通用文本向量等技術,賦能大模型文檔應用落地、RAG與Agent開發,成為大模型的“加速器”。

文檔解析引擎:百頁文檔秒級處理,為大模型發展輸送更加純凈的“燃料”

大模型如火如荼發展的背後,高質量的語料正在被急速消耗。對於中國的大模型企業而言,語料短缺問題更為嚴峻:當前大模型數據集主要為英文,全球通用的50億大模型數據訓練集里,中文語料占比極低。大批高價值語料數據“沉睡”在報告、論文、報紙等文檔里,複雜的版面結構制約了大模型的訓練語料處理及大模型文檔問答的應用能力,使之無法被提取。

現階段,無線表、跨頁表格、複雜公式等元素的處理仍是大模型語料處理中的“攔路虎”。合合信息文檔解析引擎“動能”強大,最快1.5秒可解析百頁長文檔中的文本、表格、圖像等非結構化數據,系現階段市面上同類文檔解析引擎中處理速度最快的產品之一;引擎還具備優秀的文檔“理解力”,可智能還原文檔閱讀順序,加速了模型在預訓練、開發、使用落地等多方面的流程。

在現場,參觀者可選擇物理、醫學、金融、社會學等多個知識領域的文檔,向大模型提問專業問題,例如對特定表格內容的總結、關鍵要素的分析等。對比測試結果顯示,載入了文檔解析引擎的大模型,在回答問題的速度、詳細程度、準確度上更勝一籌。

file
圖:大模型使用文檔解析引擎之前(左框)和之後(右框)的效果對比。使用後大模型具備了更快速、優秀的文檔要素分析、表格內容識別能力。

文檔解析引擎的“理解力”從對於圖表等對象的處理能力可見一斑。目前,市面上大多數大模型尚不具備對於圖表內容的識別、解析能力,文檔解析引擎可對研報、論文等文檔中的柱狀圖、折線圖、餅圖、雷達圖等十餘種常見圖表進行“還原”,將其拆解為大模型能“讀懂”的markdown格式。

file
圖:文檔解析引擎將地中海氣候圖表解析為帶有具體數值的Excel表格

在文檔解析引擎的幫助下,大模型可以直接獲取圖表原始的結構化數據,高效地學習理解商業研報和學術論文等專業文檔中的論證邏輯,提升語言理解、數據處理、知識推理分析的效率和準確性,滿足更高價值的金融和學術等應用場景的需要。此外,文檔解析引擎也能做到在圖表不顯示具體數值的情況下,僅依據坐標軸區間估算具體數值,實現了行業級突破。

file
圖:文檔解析引擎基於坐標軸區間,對不顯示具體數據的圖表進行數值估算。

acge模型:為大模型發展打造“指南針”

除了語料質量問題,制約大模型發展的另一個關鍵點在於“幻覺”現象的產生。合合信息大模型“加速器”載入了acge_text_embedding模型(簡稱“acge模型”),通過對大量中文文本數據的深入學習,能夠在應用中顯著提高大模型信息搜索和問答的質量、效率和準確性,讓搜索和問答引擎不再只是匹配文字,而是可以真正理解人的意圖的特性。

如果將大模型比喻為一艘正在行駛的船,acge模型則充分發揮了“指南針”的作用,幫助大模型快速定位通往正確“思路”的航向,在信息的海洋里快速“撈針”,讓大模型更準確地理解專業問題。acge模型具備廣泛的應用場景,從相似性搜索、信息檢索到推薦系統,模型均可提供強有力的技術支撐,極大地提升系統的性能和體驗。

此外,acge模型還引入持續學習訓練方式,剋服了神經網路存在災難性遺忘的問題,可幫助大模型在多個行業中快速創造價值,為構建新質生產力提供強有力的技術支持。

當前,acge模型已在多個應用場景下展現其優勢:
(a) 文檔分類:通過ocr技術精確識別圖片、文檔等場景中的文字,利用acge強大的文本編碼能力,結合語義相似度匹配技術,構建通用分類模型;
(b) 長文檔信息抽取:通過文檔解析引擎與層級切片技術,利用acge生成向量索引,檢索抽取內容塊,提升長文檔信息抽取模型精度;
(c) 知識問答:通過文檔解析引擎與層級切片技術,利用acge生成向量索引,定位文件內容,實現精準問答。
 
目前,合合信息大模型“加速器”已被應用於多家頭部大模型廠商的預訓練流程。此外,“加速器”有望在金融、財經、建築、醫療等數據密集型領域中建立起“行業級知識庫”,幫助企業實現知識資產管理、搜索效率提升,優化業務溝通流程,讓大模型在“源頭活水”的哺育下,更快速地潤澤千行百業。

行業應用:百川智能

在金融報表、行業報告等高知識密度的文檔中,表格的含義是最精華的數據指標。失之毫釐差之千里,一個單元格的理解問題,可能導致整個表格的識別結果產生誤差,而表格的還原準確率,直接影響著模型問答的效果。本次世界人工智慧大會現場,合合信息與百川智能攜手,穿透雙欄、多欄、表格、圖片等複雜的版式,從金融、社科等多領域文檔圖像中快速提取關鍵信息,精準地回答用戶“***鑽”的專業問題,引起了業內人士的關註。

百川智能是一家研發通用人工智慧並提供相關服務的公司,核心業務是打造基礎大模型及顛覆性上層應用。在大模型文檔處理場景中,合合信息與百川共同探索技術應用新範式,破解困擾大模型產業已久的多文檔元素識別、版面分析難題,將對百頁文檔的整體處理速率提升超過10倍。

在表格內容還原、複雜樣本處理、多語言文檔識別等方面,合合信息大模型“加速器”具備高準確性和穩定性,大幅提升了模型的理解力,並通過其強大的多語言識別、多類型支持能力,為多個行業提供了高效、準確、實用的文檔解析服務。目前,大模型“加速器”已被多家大模型廠商應用於金融、醫學、財經、媒體等多領域的文檔的解析中,助力大模型更順利地接軌“專業課”。

如有幫助,請多關註
TeahLead KrisChang,10+年的互聯網和人工智慧從業經驗,10年+技術和業務團隊管理經驗,同濟軟體工程本科,復旦工程管理碩士,阿裡雲認證雲服務資深架構師,上億營收AI產品業務負責人。


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 1、Controller MVC架構中的控制層,在SpringMVC中,由 Handler 組成 負責提供訪問應用程式的行為:處理用戶的請求並調用 Model層 將其轉換為一個模型數據跳向 View層 在Spring MVC中,對於Controller的配置方式有很多種,通常可以通過介面定義或註解定 ...
  • 本書由Python pandas項目創始人Wes McKinney親筆撰寫,詳細介紹利用Python進行操作、處理、清洗和規整數據等方面的具體細節和基本要點。第2版針對Python 3.6進行全面修訂和更新,涵蓋新版的pandas、NumPy、IPython和Jupyter,並增加大量實際案例,可以 ...
  • 一:下載安裝 1、安裝anaconda anaconda官網 2、安裝pycharm pycharm官網 二:配置環境 1、找到anaconda安裝位置 在系統環境變數中添加如下信息 打開DOS框,輸入conda --version,出現如下信息說明配置成功 三:創建虛擬環境 1、打開DOS框;輸入 ...
  • 正文 今天想寫的內容有點多,就不寫在紙上了。 首先,最高興的,還是我們的《艾爾登法環》有了進展。我和兄長終於通過了 “火山官邸:地底拷問所”。我真是不知道,我和他在這個地方被那兩個擄人少女人拷問了多少次了。不僅如此,拉塔恩也打過了,去了亞壇高原,反正進展很大。 周六的時候加班。從早上 10 點多,持 ...
  • 1.Java基礎 1.1 為什麼Java代碼可以實現一次編寫、到處運行? 參考答案 JVM(Java虛擬機)是Java跨平臺的關鍵。 在程式運行前,Java源代碼(.java)需要經過編譯器編譯成位元組碼(.class)。在程式運行時,JVM負責將位元組碼翻譯成特定平臺下的機器碼並運行,也就是說,只要在 ...
  • 盒子IM —— 一個仿微信實現的網頁版聊天軟體,支持私聊、群聊、離線消息、發送語音、圖片、文件、emoji 表情等功能,不依賴任何第三方收費組件。 ...
  • 前言 上一篇文章香橙派5plus上跑雲手機方案一 redroid(帶硬體加速)中說了怎麼運行redroid,這篇補一下怎麼修改參數編譯內核。 補充 上篇文章有個內容需要補充一下:更新完內核需要用下麵的命令防止內核被apt更新,不然後面使用apt update又回到官方的內核(註意版本號,當前是100 ...
  • 技術債可能來源於多種原因,比如時間壓力、資源限制、技術選型不當等。它可以表現為代碼中的臨時性修補、未能徹底解決的設計問題、缺乏文檔或測試覆蓋等。雖然技術債可以幫助快速推進項目進度,但長期來看,它會增加軟體維護的成本和風險,降低系統的穩定性和可維護性。 ...
一周排行
    -Advertisement-
    Play Games
  • 通過WPF的按鈕、文本輸入框實現了一個簡單的SpinBox數字輸入用戶組件並可以通過數據綁定數值和步長。本文中介紹了通過Xaml代碼實現自定義組件的佈局,依賴屬性的定義和使用等知識點。 ...
  • 以前,我看到一個朋友在對一個系統做初始化的時候,通過一組魔幻般的按鍵,調出來一個隱藏的系統設置界面,這個界面在常規的菜單或者工具欄是看不到的,因為它是一個後臺設置的關鍵界面,不公開,同時避免常規用戶的誤操作,它是作為一個超級管理員的入口功能,這個是很不錯的思路。其實Winform做這樣的處理也是很容... ...
  • 一:背景 1. 講故事 前些天有位朋友找到我,說他的程式每次關閉時就會自動崩潰,一直找不到原因讓我幫忙看一下怎麼回事,這位朋友應該是第二次找我了,分析了下 dump 還是挺經典的,拿出來給大家分享一下吧。 二:WinDbg 分析 1. 為什麼會崩潰 找崩潰原因比較簡單,用 !analyze -v 命 ...
  • 在一些報表模塊中,需要我們根據用戶操作的名稱,來動態根據人員姓名,更新報表的簽名圖片,也就是電子手寫簽名效果,本篇隨筆介紹一下使用FastReport報表動態更新人員簽名圖片。 ...
  • 最新內容優先發佈於個人博客:小虎技術分享站,隨後逐步搬運到博客園。 創作不易,如果覺得有用請在Github上為博主點亮一顆小星星吧! 博主開始學習編程於11年前,年少時還只會使用cin 和cout ,給單片機點點燈。那時候,類似async/await 和future/promise 模型的認知還不是 ...
  • 之前在阿裡雲ECS 99元/年的活動實例上搭建了一個測試用的MINIO服務,以前都是直接當基礎設施來使用的,這次準備自己學一下S3相容API相關的對象存儲開發,因此有了這個小工具。目前僅包含上傳功能,後續計劃開發一個類似圖床的對象存儲應用。 ...
  • 目錄簡介快速入門安裝 NuGet 包實體類User資料庫類DbFactory增刪改查InsertSelectUpdateDelete總結 簡介 NPoco 是 PetaPoco 的一個分支,具有一些額外的功能,截至現在 github 星數 839。NPoco 中文資料沒多少,我是被博客園群友推薦的, ...
  • 前言 前面使用 Admin.Core 的代碼生成器生成了通用代碼生成器的基礎模塊 分組,模板,項目,項目模型,項目欄位的基礎功能,本篇繼續完善,實現最核心的模板生成功能,並提供生成預覽及代碼文件壓縮下載 準備 首先清楚幾個模塊的關係,如何使用,簡單畫一個流程圖 前面完成了基礎的模板組,模板管理,項目 ...
  • 假設需要實現一個圖標和文本結合的按鈕 ,普通做法是 直接重寫該按鈕的模板; 如果想作為通用的呢? 兩種做法: 附加屬性 自定義控制項 推薦使用附加屬性的形式 第一種:附加屬性 創建Button的附加屬性 ButtonExtensions 1 public static class ButtonExte ...
  • 在C#中,委托是一種引用類型的數據類型,允許我們封裝方法的引用。通過使用委托,我們可以將方法作為參數傳遞給其他方法,或者將多個方法組合在一起,從而實現更靈活的編程模式。委托類似於函數指針,但提供了類型安全和垃圾回收等現代語言特性。 基本概念 定義委托 定義委托需要指定它所代表的方法的原型,包括返回類 ...