-
[論文紹介#111]xGen-MM-Vid (BLIP-3-Video): VLMでも動画を表現するのに必要なのはたった32トークンだけ
in テックブログxGen-MM-Vid (BLIP-3-Video): You Only Need 32 Tokens to …
-
[論文紹介#109]CaMML: 大規模モデルのためのコンテキスト対応マルチモーダル学習器
in テックブログCaMML: Context-Aware Multimodal Learner for Large Model…
-
[論文紹介#108]リプル下の渦:RAG対応アプリケーションの実証研究
in テックブログVortex under Ripplet: An Empirical Study of RAG-enabled…
-
[論文紹介#107]DocEdit-v2 : マルチモーダルLLMによる文書構造編集
in テックブログDocEdit-v2: Document Structure Editing Via Multimodal L…
-
[論文紹介#106]HRアプリケーションに特化したタスク指向対話(TOD)LLMエージェント:HR-Agent
in テックブログHR-Agent: A Task-Oriented Dialogue (TOD) LLM Agent Tail…
-
[論文紹介#105]オートレグレッシブモデルからの適応を通じた拡張ディフュージョン言語モデル
in テックブログScaling Diffusion Language Models via Adaptation from A…
-
[論文紹介#104]文脈が重要:重要なテキスト情報を用いた予測のベンチマーク
in テックブログContext is Key: A Benchmark for Forecasting with Essent…