-
[論文紹介#153]VISA: 視覚的ソース帰属を伴う情報検索強化生成
in テックブログVISA: Retrieval Augmented Generation with Visual Source…
-
[論文紹介#152]RAG-Star: 検索強化による熟慮的推論の向上
in テックブログRAG-Star: Enhancing Deliberative Reasoning with Retriev…
-
[論文紹介#151]TACO: 合成思考と行動の連鎖を用いたマルチモーダル行動モデルの学習
in テックブログTACO: Learning Multi-modal Action Models with Synthetic…
-
[論文紹介#150]パーソナライズされたマルチモーダル大規模言語モデル:調査
in テックブログPersonalized Multimodal Large Language Models: A Survey…
-
[論文紹介#148]Inst-IT: 明示的な視覚プロンプト指示チューニングによるマルチモーダルインスタンス理解の強化
in テックブログInst-IT: Boosting Multimodal Instance Understanding via…
-
[論文紹介#147]モヒート:動画生成のための動きの軌跡と強度制御
in テックブログMojito: Motion Trajectory and Intensity Control for Vid…
-
[論文紹介#146]ウェブエージェント研究のためのBrowserGymエコシステム
in テックブログThe BrowserGym Ecosystem for Web Agent Research この論文は、ウ…