-
[論文紹介#104]文脈が重要:重要なテキスト情報を用いた予測のベンチマーク
in テックブログContext is Key: A Benchmark for Forecasting with Essent…
-
[論文紹介#101]ウェブページのUIを活用したテキスト豊富な視覚理解の強化
in テックブログHarnessing Webpage UIs for Text-Rich Visual Understandi…
-
[論文紹介#100]プロアクティブエージェント:反応的応答から能動的支援へのシフト
in テックブログProactive Agent: Shifting LLM Agents from Reactive Resp…
-
[論文紹介#98]エージェントをジャッジとして:エージェントをエージェントで評価する
in テックブログAgent-as-a-Judge: Evaluate Agents with Agents この論文は、エージ…
-
[論文紹介#97]エージェントセキュリティベンチ(ASB):LLMベースのエージェントにおける攻撃と防御の形式化とベンチマーク化
in テックブログAgent Security Bench (ASB): Formalizing and Benchmarkin…
-
[論文紹介#95]GSM-Symbolic: 大規模言語モデルにおける数学的推論の限界を理解する
in テックブログGSM-Symbolic: Understanding the Limitations of Mathemat…