月: 2024年9月
-
[論文紹介#78]画面を見つめるだけ:マルチモーダルチェーン・オブ・アクションエージェント
in テックブログYou Only Look at Screens: Multimodal Chain-of-Action Ag…
-
[論文紹介#77]TART: 説明可能なテーブルベースの推論のためのオープンソースツール拡張フレームワーク
in テックブログTART: An Open-Source Tool-Augmented Framework for Expla…
-
[論文紹介#76]P-RAG: 進行的情報検索強化生成による具現化された日常タスクの計画
in テックブログP-RAG: Progressive Retrieval Augmented Generation For P…
-
[論文紹介#75]MolmoとPixMo:最先端のマルチモーダルモデルのためのオープンウェイトとオープンデータ
in テックブログMolmo and PixMo: Open Weights and Open Data for State-o…
-
[論文紹介#74]構成可能な基盤モデル:モジュールの視点からのLLMの構築
in テックブログConfigurable Foundation Models: Building LLMs from a Mo…
-
[論文紹介#73]CoCA: 憲法的キャリブレーションによるマルチモーダルLLMの安全意識の回復
in テックブログCoCA: Regaining Safety-awareness of Multimodal Large La…
-
[論文紹介#72]生成型エージェントを用いた調査データ報告のためのヒントシート作成
in テックブログUsing Generative Agents to Create Tip Sheets for Invest…
-
[論文紹介#71]ソフトウェア工学におけるエージェント:調査、ランドスケープ、ビジョン
in テックブログAgents in Software Engineering: Survey, Landscape, and …
-
[論文紹介#70]VisionTasker: ビジョンベースのUI理解とLLMタスク計画を用いたモバイルタスク自動化
in テックブログVisionTasker: Mobile Task Automation Using Vision Based…
-
[論文紹介#69]Moshi:リアルタイム対話のための音声-テキスト基盤モデル
in テックブログMoshi: a speech-text foundation model for real-time dia…