-
[論文紹介#70]VisionTasker: ビジョンベースのUI理解とLLMタスク計画を用いたモバイルタスク自動化
in テックブログVisionTasker: Mobile Task Automation Using Vision Based…
-
[論文紹介#69]Moshi:リアルタイム対話のための音声-テキスト基盤モデル
in テックブログMoshi: a speech-text foundation model for real-time dia…
-
[論文紹介#68]LLMエージェント統一モデリングフレームワーク:マルチアクティブ/パッシブコアエージェントのシームレスな統合のためのLLMベースのエージェント
in テックブログLLM-Agent-UMF: LLM-based Agent Unified Modeling Framewo…
-
[論文紹介#67]大規模言語モデルのための好み学習の統一的な視点に向けて:調査
in テックブログTowards a Unified View of Preference Learning for Large…
-
[論文紹介#66]GUI-W ORLD : GUI指向のマルチモーダルLLMベースのエージェントのためのデータセット
in テックブログGUI-WORLD: A Dataset for GUI-oriented Multimodal LLM-ba…
-
[論文紹介#65]大規模言語モデルとユーザーインターフェースの統合:フィードバック提供の事例
in テックブログLarge Language Models Meet User Interfaces: The Case of…
-
[論文紹介#64]シンボリックワーキングメモリが複雑なルール適用のための言語モデルを強化する
in テックブログSymbolic Working Memory Enhances Language Models for Co…
-
[論文紹介#63]LLaVA-Phi: 小型言語モデルを用いた効率的なマルチモーダルアシスタント
in テックブログLLaVA-Phi: Efficient Multi-Modal Assistant with Small L…
-
[論文紹介#62]効果的な長文コンテキストマルチホップ指示データセットを作成するための重要な要因とは?洞察とベストプラクティス
in テックブログWhat are the Essential Factors in Crafting Effective Lo…
-
[論文紹介#61]ツール呼び出しの再構成:ゼロショットツール検索のためのツール呼び出しリライト
in テックブログRe-Invoke: Tool Invocation Rewriting for Zero-Shot Tool…