-
[論文紹介#98]エージェントをジャッジとして:エージェントをエージェントで評価する
in テックブログAgent-as-a-Judge: Evaluate Agents with Agents この論文は、エージ…
-
[論文紹介#97]エージェントセキュリティベンチ(ASB):LLMベースのエージェントにおける攻撃と防御の形式化とベンチマーク化
in テックブログAgent Security Bench (ASB): Formalizing and Benchmarkin…
-
[論文紹介#95]GSM-Symbolic: 大規模言語モデルにおける数学的推論の限界を理解する
in テックブログGSM-Symbolic: Understanding the Limitations of Mathemat…
-
[論文紹介#91]エージェントS:人間のようにコンピュータを操作するオープンエージェントフレームワーク
in テックブログAgent S: An Open Agentic Framework that Uses Computers …
-
[論文紹介#90]コグニティブカーネル:一般的な自動操縦システムに向けたオープンソースエージェントシステム
in テックブログCognitive Kernel: An Open-source Agent System towards G…