[論文紹介#114]JMMMU: 文化を考慮した評価のための日本語大規模多分野マルチモーダル理解ベンチマーク
in テックブログJMMMU: A Japanese Massive Multi-discipline Multimodal U…
in テックブログSurvey of User Interface Design and Interaction Techniq…
in テックブログCan Large Language Model Agents Simulate Human Trust Be…
[論文紹介#111]xGen-MM-Vid (BLIP-3-Video): VLMでも動画を表現するのに必要なのはたった32トークンだけ
in テックブログxGen-MM-Vid (BLIP-3-Video): You Only Need 32 Tokens to …
[論文紹介#109]CaMML: 大規模モデルのためのコンテキスト対応マルチモーダル学習器
in テックブログCaMML: Context-Aware Multimodal Learner for Large Model…
in テックブログVortex under Ripplet: An Empirical Study of RAG-enabled…
[論文紹介#107]DocEdit-v2 : マルチモーダルLLMによる文書構造編集
in テックブログDocEdit-v2: Document Structure Editing Via Multimodal L…
in テックブログHR-Agent: A Task-Oriented Dialogue (TOD) LLM Agent Tail…