(SeaPRwire) – အလွှာအလိုက် စနစ်တကျ ခွဲခြမ်းခြင်းသည် vector database embeddings အတွက် အကောင်းဆုံး data ပြင်ဆင်မှု ဖြစ်သည်
ဘာလင်၊ ဘာလင်၊ မတ်လ ၁၆၊ ၂၀၂၆ — POMA AI သည် ဘာလင်အခြေစိုက် document intelligence ကုမ္ပဏီတစ်ခုဖြစ်ပြီး ယနေ့တွင် POMA-OfficeQA ကို ထုတ်ပြန်ခဲ့သည်။ ၎င်းသည် open-source benchmark တစ်ခုဖြစ်ပြီး ၎င်း၏ structure-aware document chunking သည် RAG retrieval ကုန်ကျစရိတ်ကို naive text splitting နှင့် Unstructured.io ၏ element extraction ချဉ်းကပ်မှုနှစ်ခုလုံးနှင့် နှိုင်းယှဉ်ပါက ၇၇% လျှော့ချနိုင်ကြောင်း ပြသခဲ့သည်။

အသင့်သုံးအနေဖြင့် POMA PrimeCut သည် ပုံမှန် model များထက် token ၇၇% နည်းပါးစွာ အသုံးပြုသည်။ စိတ်ကြိုက် configuration များတွင် အသုံးပြုပါက ၈၃% အထိ မြင့်တက်သည်။
“ ယနေ့ထုတ်လုပ်မှုတွင်ရှိသော RAG စနစ်တိုင်းသည် model မမြင်မီ အချက်အလက်များကို ဆုံးရှုံးနေသည်” ဟု POMA AI ၏ တည်ထောင်သူနှင့် CEO ဖြစ်သူ Dr. Alexander Kihm က ပြောကြားခဲ့သည်။ “ စက်မှုလုပ်ငန်းသည် embeddings, rerankers နှင့် prompt engineering တို့ကို အကောင်းဆုံးဖြစ်အောင် လုပ်ဆောင်ခဲ့သော်လည်း ingestion layer သည် retrieval failures အများစု စတင်ဖြစ်ပေါ်သည့်နေရာဖြစ်သည်။ ဤ benchmark သည် အလွှာအလိုက် စနစ်တကျ ခွဲခြမ်းခြင်းသည် အောက်ပါအရာအားလုံးကို အမှန်တကယ် အလုပ်လုပ်စေသည့် အုတ်မြစ်ဖြစ်သည်ကို အလွတ်သဘော သိရှိခဲ့ကြသည့် ကျွမ်းကျင်သူများ၏ အမြင်ကို ပမာဏဖြင့် ဖော်ပြသည်။”
GitHub တွင် ရရှိနိုင်သော အပြည့်အဝ benchmark သည် Retrieval-Augmented Generation (RAG) အတွက် document chunking နည်းလမ်း သုံးခုကို စမ်းသပ်ခဲ့ပြီး embeddings တူညီခြင်း၊ retrieval logic တူညီခြင်းနှင့် အမေရိကန်ဘဏ္ဍာရေး ဦးစီးဌာန၏ Bulletins ၁၄ စောင် (~၂,၁၅၀ စာမျက်နှာ) ကို စားပွဲ-ရှာဖွေမှု မေးခွန်း ၂၀ ဖြင့် စမ်းသပ်ခဲ့သည်။ ဤစမ်းသပ်မှုသည် မှန်ကန်သော အချက်အလက်ဆိုင်ရာ မေးခွန်းများအတွက် လိုအပ်သော အထောက်အထားအားလုံးကို ပြန်လည်ရယူနိုင်ရန် နည်းလမ်းတစ်ခုစီ၏ စွမ်းရည်ကို တိုင်းတာခဲ့ပြီး၊ metric (context recall) သည် ပြန်လည်ရယူထားသော context တွင် အထောက်အထားအားလုံး ရရှိနိုင်ကြောင်း အာမခံရန် retrieval system လိုအပ်သည့် အနည်းဆုံး token budget ကို သတ်မှတ်ပေးခဲ့သည်။
ရလဒ်များအရ POMA ၏ hierarchical chunking သည် စားပွဲခေါင်းစဉ်များ၊ အပိုင်းခွဲများ၏ အဆင့်အတန်းနှင့် အကြောင်းအရာ အစိတ်အပိုင်းများကြား semantic ဆက်နွယ်မှုများ အပါအဝင် document structure ကို ထိန်းသိမ်းထားပြီး 100% context recall ကို ရရှိရန်အတွက် token ၇၇% နည်းပါးစွာ လိုအပ်ကြောင်း ပြသခဲ့သည်:
- Baseline (500 token, 100 overlap ဖြင့် naive chunking): 1.45 သန်း
- Unstructured.io (element extraction: 1.48 သန်း
- POMA AI (structure-aware): 340k
နည်းလမ်းအားလုံးသည် embeddings အတွက် OpenAI ၏ text-embedding-3-large model ကို အသုံးပြုခဲ့ပြီး retrieval ranking အတွက် cosine similarity ကို အသုံးပြုခဲ့သည်။ Ground truth ကို source documents နှင့် ကိုက်ညီကြောင်း စစ်ဆေးထားသော exact chunk indices ကို အသုံးပြု၍ တည်ထောင်ခဲ့သည် – ကျပန်း ဂဏန်းတိုက်ဆိုင်မှုများမှ false positives များကို ဖယ်ရှားခဲ့သည်။ နည်းလမ်းသုံးခုစလုံးမှ အဖြေပေးနိုင်သော မေးခွန်းများကိုသာ ထည့်သွင်းခဲ့ပြီး မျှတသော နှိုင်းယှဉ်မှုကို အာမခံခဲ့သည်။ extraction failures (OCR errors, missing values) တစ်ခုခုရှိသော မေးခွန်းများကို ချန်လှပ်ခဲ့သည်။
“ POMA ကို ကျွန်တော်တို့ကို သဘောကျစေတာက ရိုးရှင်းတဲ့ အမြင်နောက်ကွယ်က engineering ရဲ့ ခိုင်မာမှုပါပဲ” ဟု POMA AI ၏ ရင်းနှီးမြှုပ်နှံသူနှင့် အကြံပေးသူ AdBlock ၏ ပူးတွဲတည်ထောင်သူ Till Faida က ပြောကြားခဲ့သည်။ “ သူတို့က ingestion layer ကို အာရုံစိုက်ခဲ့တယ်၊ ဒါက pipeline ရဲ့ အပိုင်းဖြစ်ပြီးတော့ အားလုံးက ပြီးပြတ်သွားပြီလို့ ထင်နေကြတာပါ။ ဒီ benchmark က ဒါဟာ မဟုတ်မှန်း ပြသခဲ့တယ်။ token ၇၇% လျှော့ချတာက enterprise scale မှာ RAG ကို လည်ပတ်တဲ့ စီးပွားရေးကို ပြောင်းလဲစေတယ်။ ဒါက ကျွန်တော်တို့ ရှာဖွေနေတဲ့ structural advantage ပါပဲ။”
POMA AI အကြောင်း: POMA AI သည် ဘာလင်အခြေစိုက် document intelligence ကုမ္ပဏီတစ်ခုဖြစ်ပြီး enterprise RAG စနစ်များအတွက် infrastructure ကို တည်ဆောက်နေသည်။ ၎င်း၏ core technology သည် ရှုပ်ထွေးသော documents များကို vector search နှင့် LLM consumption အတွက် အသင့်ဖြစ်သော semantically coherent chunks များအဖြစ်သို့ ပြောင်းလဲပေးသည်။ POMA ၏ API သည် documents များကို တစ်ကြိမ်တည်းဖြင့် process လုပ်ပြီး granular chunks နှင့် grouped chunksets နှစ်ခုလုံးကို ထုတ်ပေးသည်၊ ၎င်းသည် မည်သည့် embedding model နှင့် vector store နှင့်မဆို တွဲဖက်အသုံးပြုနိုင်သည်။ အခမဲ့ demo ကို POMA AI ၏ website တွင် ရရှိနိုင်ပါသည်။ POMA AI အကြောင်း အခြားအချက်အလက်များကို LinkedIn သို့မဟုတ် X (Twitter) တွင် ရှာဖွေနိုင်သည်။

POMA PrimeCut ၏ structure-aware embeddings သည် context-only embeddings ထက် ၁၁၉ ဆ တိုးတက်မှုကို ပြသခဲ့သည်။
သတင်းစာနယ်ဇင်း စုံစမ်းမေးမြန်းမှုများ
Florian Athens
fa [at] poma-ai.com
https://poma-ai.com
ဤအတိတ်ကိုတတိယပါတီအကြောင်းအရာပေးသူမှ ပံ့ပိုးပေးသည်။ SeaPRwire (https://www.seaprwire.com/) သည် မည်သည့်အာမခံချက် သို့မဟုတ် ကြေညာချက်ကိုလည်း မရှိပါ။
အမျိုးအစား: ထူးခြားသတင်း, နေ့စဉ်သတင်း
SeaPRwire သည် ကုမ္ပဏီများနှင့်အဖွဲ့အစည်းများအတွက် ကမ္ဘာတစ်ဝှမ်းသတင်းလွှာထုတ်ပြန်ခြင်း ဝန်ဆောင်မှုများကိုပံ့ပိုးပေးပြီး ၆,၅၀၀ ကျော်မီဒီယာစာရင်းများ၊ ၈၆,၀၀၀ ကျော်စာရေးသူများနှင့် သတင်းဌာနများ၊ ၃၅၀ သန်းကျော်၏ desktop နှင့် app မိုဘိုင်းသုံးစွဲသူများအထိ ဝန်ဆောင်မှုများပေးပါသည်။ SeaPRwire သည် အင်္ဂလိပ်၊ ဂျပန်၊ အင်္ဂါလိပ်၊ ကိုရီးယား၊ ပြင်သစ်၊ ရုရှား၊ အင်ဒိုနီးရှား၊ မလေးရှား၊ ဗီယက်နမ်၊ တရုတ်နှင့်အခြားဘာသာစကားများတွင် သတင်းလွှာထုတ်ပြန်ရန် အထောက်အကူပြုပါသည်။