arXiv雑要約

AI - 2026/04/28 公開

  • SoccerRef-Agents:自動サッカー審判のためのマルチエージェントシステム [cs.AI]目的:サッカー審判のための,包括的かつ説明可能なマルチエージェント意思決定フレームワーク
    • スポーツにおいて,公正かつ正確な審判は不可欠であり,その重要性は高い。
    • 既存のAI支援アプローチは,単独の映像認識タスクに偏っており,ファウル状況の理解と推論が困難である。
    • 視覚情報と規則テキストの間のセマンティックギャップを埋め,審判の専門知識とMLLMを統合する技術的可能性を探求する。
    • 提案手法SoccerRef-Agentsは,最新の「競技規則」と事例データベースを活用した知識ベースRefKnowledgeDBを構築した。
    • マルチエージェントアーキテクチャは,クロスモーダルRAGを通じて協調し,視覚コンテンツと規則テキスト間の連携を実現する。
    • 汎用的なMLLMと比較して,意思決定の正確性と説明の質において,本システムは有意に優れた性能を発揮する。

    Link: https://arxiv.org/abs/2604.23392

  • 生成検索における先読み事前確率の再現とストレステスト [cs.IR, cs.AI, cs.CL, cs.LG]目的:生成検索における先読み事前確率の有効性とロバスト性の評価
    • 情報検索の精度向上は,大量のデータから適切な情報を効率的に抽出する上で不可欠である。
    • 生成検索は,探索空間の制約により,関連文書の早期打ち切りが発生しやすいという課題がある。
    • 本研究は,先読み事前確率がクエリの変形や言語の異なるクエリに対して頑健であるかを検証する。
    • PAGの再現実験により,MS MARCO DevおよびTREC-DL 2019/2020における有効性と,ビームサイズとレイテンシのトレードオフが確認された。
    • クエリのわずかな変形が,PAGの計画シグナルを不安定にし,ガイド付き探索の効果を低下させることが示された。
    • 英語インデックスに対して非英語クエリを用いた評価では,クエリ翻訳がロバスト性の向上に最も効果的であった。

    Link: https://arxiv.org/abs/2604.23396

  • 修正ヒントが逆効果となる場合:OWL~2~DLにおける含意否定に対するLLMの過剰慎重さのReasonerによる修正におけるプロンプト設計 [cs.NI, cs.AI]目的:GPT-5.4におけるOWL~2~DL準拠クエリにおけるエラーパターンとその改善策の検討
    • 知識表現と推論は,AIシステムに論理的思考能力を与える上で重要である。
    • LLMは,論理的含意を正しく処理することが難しく,特に否定的な推論で誤りを犯しやすい。
    • Reasonerを用いた修正により,LLMの推論精度を向上させることが期待される。
    • GPT-5.4は,Reasonerが「no」と推論するクエリに対して,「unknown」と答える傾向がある。
    • 単純な再試行(「あなたは間違っている」)では精度が81.7%に向上するが,Reasonerの検証結果をヒントとして与えることで精度が低下する。
    • Reasonerの検証結果のみを用いることで,精度は97.8%に達し,プロンプトの構成が修正内容よりも重要である可能性が示唆される。

    Link: https://arxiv.org/abs/2604.23398

  • レイヤー削除に基づくCNNの高速学習:Learn&Drop [cs.HC, cs.RO, cs.CV, cs.AI, cs.NE]目的:深層畳み込みニューラルネットワークの学習効率向上
    • 深層学習は画像認識等の分野で高性能だが,学習に膨大な計算資源が必要である。
    • 既存手法では推論時圧縮や逆伝播計算量の削減が中心で,訓練時の計算コスト削減は課題である。
    • 訓練時の順伝播における計算量を削減し,学習速度を向上させることを目指す。
    • 提案手法により,MNIST,CIFAR-10,Imagenetteでの学習時間が大幅に短縮された(半分以上)。
    • VGG-11ではFLOPsが17.83%,ResNet-152では83.74%削減され,効果が確認された。
    • 逐次的にデータが到着する状況など,ファインチューニングやオンライン学習において特に有効である。

    Link: https://arxiv.org/abs/2604.23403

  • プッシュアップベンチ:あなたのVLMは腕立て伏せの回数を数えるのが苦手 [cs.IR, cs.HC, cs.CV, cs.AI]目的:反復回数のカウント評価のためのベンチマークデータセット
    • 動画理解の分野では,動画の内容を認識するだけでなく,時間的な変化を正確に把握することが重要である。
    • 大規模なビジョン言語モデルは動画の内容認識は得意だが,動画内の反復回数を正確に数えることが難しい。
    • 本研究では,VLMの反復回数カウント能力を評価し,時間的推論能力の向上を目指す。
    • 新しいベンチマークデータセット「PushupBench」を構築し,VLMの腕立て伏せ回数カウントの性能を評価した。
    • 最先端モデルの正答率は42.1%にとどまり,オープンソースモデルは6%程度であった。
    • 回数カウントの学習が,MVBenchやPerceptionTestなどの他の動画理解タスクへの汎化能力向上に繋がることが示された。

    Link: https://arxiv.org/abs/2604.23407

  • 高次元における二ブロック構造ハダマール回転による一様ランダム回転の近似 [cs.LG, cs.PF]目的:高次元における二ブロック構造ハダマール回転による一様ランダム回転の近似精度
    • 高速ジョンソン・リンデンストラウス埋め込みなど,様々な応用で一様ランダム回転が有用である。
    • 高次元では,一様ランダム回転の生成と適用に計算コストがかかるという課題がある。
    • 二ブロック構造ハダマール回転による近似の精度向上と限界を理論的に解明する。
    • 固定座標においては,二ブロック変換が一様回転ベクトルの対応する座標へ,Kolmogorov距離の秩序$d^{-1/5}$で一様収束する。
    • ベクトル分布全体のWasserstein距離については,二ブロック変換が一様ランダム回転の正確な代替とならない明確な下限が存在する。
    • 一次元周辺行動は次元増加とともに改善する一方,高次元幾何学では不一致が残存するという明確な分離が確認された。

    Link: https://arxiv.org/abs/2604.23418

  • Evolve:小規模言語モデルのための持続的な知識ライフサイクル [cs.LG, cs.CL]目的:小規模言語モデルの知識ライフサイクルに関する研究
    • 言語モデルの性能向上は,AI技術の発展に不可欠であり,その効率化が求められている。
    • 大規模モデルへの依存度が高く,コストや計算資源の制約が課題となっている。
    • 知識の再利用と効率的な更新により,コスト削減と性能向上を目指す。
    • Evolveは,教師モデルが作成した知識ストアを活用し,小規模言語モデルの精度を大幅に向上させる。
    • 知識ストアのセクションベースでの構築と更新により,教師モデルの呼び出し回数を50%以上削減する。
    • 知識ストアの圧縮により,精度を維持しつつ保存容量を31~33.5%削減できる。

    Link: https://arxiv.org/abs/2604.23424

  • 非IID連邦学習における適応量子化と差分プライバシーによるプライバシーと通信効率の向上 [cs.CV, cs.LG]目的:非IIDデータ環境下における連邦学習のプライバシー保護と通信効率の改善
    • データ共有なしにモデルを共同学習する連邦学習は,プライバシー保護の観点から重要性が高い。
    • デバイス間の通信速度のばらつきがボトルネックとなり,通信量の削減が課題である。
    • 差分プライバシーと適応量子化を組み合わせ,プライバシーと通信効率の両立を目指す。
    • 適応量子化により,MNISTでは最大52.64%,CIFAR10では45.06%の通信データ量を削減した。
    • 医療画像データセットでも31%から37%の通信データ量の削減を達成し,モデル精度を維持した。
    • ラプラスDPを使用することで,ガウスDPよりもタイトなプライバシー保証を実現した。

    Link: https://arxiv.org/abs/2604.23426

  • 大規模言語モデルにおける文脈学習とプロンプト連鎖による科学テキストの自動分類 [cs.IR, cs.AI, cs.CL, cs.DL, cs.SE]目的:科学テキストの分類スキームに基づいた分析性能評価
    • 科学文献の爆発的な増加により,情報探索の効率化が重要となっている。
    • 既存の検索システムでは,コンテンツの自動分類が不十分である。
    • 大規模言語モデルと高度なプロンプト設計による分類精度の向上を目指す。
    • プロンプト連鎖は,純粋な文脈学習と比較して,より高い分類精度を示す。
    • プロンプト連鎖を用いた大規模言語モデルは,ドメインおよび主題レベルの予測において既存モデルを上回る。
    • しかし,研究分野のトピックレベルの分類精度は50%程度にとどまる。

    Link: https://arxiv.org/abs/2604.23430

  • Sphere-Depth:球面カメラ姿勢変化に対する深度推定手法のベンチマーク [cs.CV, cs.AI]目的:球面カメラ姿勢変化を伴う深度推定モデルの頑健性評価
    • ロボットナビゲーションや没入型シーン理解において,360度ビジョンにおける信頼性の高い深度推定は不可欠である。
    • 実世界のロボットプラットフォームでは,意図しないカメラ姿勢の変化や等矩形投影の幾何学的歪みが,深度推定の精度に悪影響を及ぼす。
    • 本研究は,これらの姿勢変化が深度推定モデルに及ぼす影響を定量的に評価し,モデルの頑健性を向上させることを目指す。
    • Sphere-Depthベンチマークを用いることで,様々な姿勢変化下での深度推定モデルの性能を再現性よく評価できることが示された。
    • Depth Anythingを含む複数のモデルにおいて,カメラ姿勢の変化により性能が著しく低下することが確認された。
    • 提案された深度較正に基づく誤差評価プロトコルは,モデル間の公平な比較を可能にし,性能評価の信頼性を高める。

    Link: https://arxiv.org/abs/2604.23432

  • LayerNormの削除が有効なのはいつか:活性化のバウンディングは状況依存の暗黙的な正則化因子である [cs.LG, cs.CL]目的:活性化のバウンディングが,状況依存の暗黙的な正則化因子として機能するかどうかの検証
    • 深層学習モデルの性能向上には,正則化手法の理解が不可欠である。
    • LayerNormは広く用いられているが,その効果はモデルサイズやデータ量に依存する可能性がある。
    • Dynamic Tanh(DyT)の有効範囲を明らかにし,活性化のバウンディングの役割を解明する。
    • DyTは,モデルサイズが64Mでトークン数が1Mの場合に検証損失を27.3%改善するが,64M/118Mでは18.8%悪化させる。
    • 活性化の飽和度を計測した結果,1Mでは49%が飽和するのに対し,118Mでは23%であった。
    • Llama-DyTの崩壊はSwiGLUゲートに局在しており,飽和度が崩壊と収束を区別する要因となっていることが示された。

    Link: https://arxiv.org/abs/2604.23434

  • 膝-xRAI:膝関節症のケルグレン・ローレンス分類のための説明可能なAIフレームワーク [cs.CV, cs.AI, cs.LG]目的:膝関節症のケルグレン・ローレンス分類の自動化
    • 膝関節症は高齢化社会において罹患率が高く,診断・治療の重要性が増している。
    • レントゲン画像の読影における主観的な判断によるバラつきが課題となっていた。
    • 構造的特徴を分解し,説明可能なAIを用いてKL分類の精度向上を目指す。
    • 本研究で開発したKnee-xRAIは,関節裂隙狭小化,骨棘,亜軟骨硬化の3つの特徴を定量化する。
    • ConvNeXtハイブリッドパスにおいて,テスト時のQWKは0.8436,AUCは0.9017を達成した。
    • 関節裂隙狭小化が最も重要な予測因子であり,骨棘と亜軟骨硬化が分類精度を改善する。

    Link: https://arxiv.org/abs/2604.23435

  • クロス機関金融不正検知のためのスケーラブルで検証可能な連合学習 [cs.CR, cs.LG]目的:金融不正検知における連合学習フレームワークの構築
    • 金融システムは不正組織のグローバルなネットワークに対抗する必要があり,各機関の連携が重要である。
    • 規制やプライバシー保護により,金融機関間のデータ共有は制限されており,不正検知の連携が困難である。
    • スケーラビリティ,プライバシー,整合性を両立する連合学習フレームワークを開発し,不正検知の精度向上を目指す。
    • 提案手法であるDSFLは,通信量をO(N^2)からO(N m)に削減し,スケーラビリティを向上させる。
    • 線形整合性タグは,ゼロ知識証明のオーバーヘッドなしに,更新の確率的検証を可能にする。
    • 実証実験により,DSFLはPaillierベースのセキュアアグリゲーションと比較して約33倍の遅延削減を実現した。

    Link: https://arxiv.org/abs/2604.23437

  • AI安全トレーニングが臨床的に有害となりうる [cs.CL, cs.CL, cs.AI, cs.CY, cs.LG]目的:AIによるメンタルヘルス支援の臨床的安全性評価
    • メンタルヘルス問題の深刻化と,AI技術による支援への期待が高まっている。
    • AIチャットボットの臨床的有効性検証が不十分であり,有害な影響が出る可能性がある。
    • AIメンタルヘルスシステムの安全性評価基準を確立し,安全な展開を促す。
    • 大規模言語モデルを用いた暴露療法と認知再構成演習において,モデルの治療的適切性が重症度の上昇とともに低下した。
    • 強化学習による安全性の調整が,治療メカニズムを阻害し,患者への誤った安心感を与えるなどの問題が明らかになった。
    • AIメンタルヘルスシステムの実装には,プロトコル遵守,ハルシネーションリスク,行動の一貫性,危機安全,デモグラフィックの頑健性という五軸評価が不可欠である。

    Link: https://arxiv.org/abs/2604.23445

  • IndustryAssetEQA:産業資産の保守における具現化された質疑応答のためのニューロシンボリック運用インテリジェンスシステム [cs.AI]目的:産業資産の保守における具現化された質疑応答
    • 産業設備の老朽化と複雑化により,効率的な保守・保全が重要課題となっている。
    • 既存のAIシステムは,説明の根拠が不明確で,信頼性に欠ける場合がある。
    • 産業資産に関する質疑応答において,信頼性と検証可能性を向上させることを目指す。
    • IndustryAssetEQAは,過去の計測データと故障モード影響解析の知識グラフを組み合わせる。
    • これにより,構造的妥当性が最大0.51,反実仮想的精度が最大0.47,説明の含意が0.64向上した。
    • 専門家による評価では,重大な誤りの主張が28%から2%に大幅に減少(約93%減)した。

    Link: https://arxiv.org/abs/2604.23446

  • ArguAgent:STEM教室における生産的な議論のためのAI支援リアルタイムグルーピング [cs.AI, cs.HC]目的:STEM教育における生産的な議論を促進するためのリアルタイムグルーピング手法
    • STEM教育において議論は重要な実践であり,学習効果に大きな影響を与える。
    • 議論では,成績の良い生徒が主導しやすく,成績の低い生徒が発言しにくいという問題がある。
    • 生徒の意見の多様性と議論の質を考慮したグルーピングにより,議論の活発化を目指す。
    • ArguAgentは,生徒の意見の多様性を最適化しつつ,議論の質を一定レベルに保つリアルタイムグルーピングシステムである。
    • 提示されたAIによる議論の質評価は,専門家との一致度が高く,信頼性が確認された。
    • シミュレーションの結果,ArguAgentはランダムな割り当てと比較して,設計基準を満たすグループの割合を大幅に改善した。

    Link: https://arxiv.org/abs/2604.23449

  • エッジから深さへ:Vision Transformerにおける空間階層の探求 [cs.CV, cs.LG]目的:Vision Transformerにおける空間階層の符号化の場所と堅牢性の解明
    • 画像認識技術は,ロボティクスや自動運転など,様々な応用分野で不可欠である。
    • Vision Transformerは空間的知識を必要とするタスクに転移するものの,事前学習時に空間的監督信号を受けない。
    • 本研究は,Vision Transformerがどのように空間階層を学習し,符号化しているかを明らかにすることを目指す。
    • Vision Transformerの層5-6で局所的なエッジ構造が明確に復号可能となることが示された。
    • 深さの情報は,よりグローバルな手がかりを統合する必要があるため,層8で最も高い精度を示す。
    • 学習された空間階層は,初期視覚皮質の進行と類似しており,モデルが能動的に維持している。

    Link: https://arxiv.org/abs/2604.23452

  • Reddit由来データセットを用いたメンタルヘルス検出のためのベンチマークスイート [cs.CL, cs.IR, cs.LG]目的:メンタルヘルス検出のためのデータセット群
    • SNS等のテキストデータは,メンタルヘルスに関する研究に有用であり,その重要性は高まっている。
    • 既存研究では,タスク固有のデータセットが作成される傾向があり,再現性やタスク間の比較が困難である。
    • 本研究は,再現性とクロス・タスク評価を可能にする,メンタルヘルス研究のための統一的な基盤を構築することを目指す。
    • Redditのデータを活用し,自殺念慮,メンタル疾患の有無,双極性障害,多クラスメンタル疾患分類という4つのタスクに対応するベンチマークデータセットを構築した。
    • データセットは,言語学的検証,明確なアノテーションガイドライン,そして人間の判断による検証を経て作成され,高い信頼性を確保した。
    • Transformerや再帰型モデルを用いた実験により,これらのデータセットがメンタルヘルス検出タスクにおいて高い性能(F1スコア93-99%)を示すことが確認された。

    Link: https://arxiv.org/abs/2604.23458

  • マルチエージェントシステムのセキュリティにおけるアーキテクチャの重要性 [cs.MA, cs.CR, cs.LG]目的:マルチエージェントシステムの設計決定が,タスク実行性能と攻撃耐性のトレードオフに与える影響の評価
    • 近年,自律的なAIエージェントのネットワークであるMASの利用が拡大しており,セキュリティ確保が重要である。
    • 単独のエージェントでは発生しないセキュリティリスクが,MASの協調アーキテクチャによって生じる可能性がある。
    • MASアーキテクチャが攻撃に対する脆弱性に与える影響を体系的に明らかにすること。
    • 多くの構成において,マルチエージェントアーキテクチャは単独エージェントよりも脆弱であることが示された。
    • 攻撃成功率は,同等または高い正常実行精度で最大3.8倍変動する。
    • 単一の安全な設計は存在せず,さらなる評価が必要であることが示唆された。

    Link: https://arxiv.org/abs/2604.23459

  • 隠された動機:連続思考モデルにおける誤った推論の検出 [cs.AI, cs.CL, cs.LG]目的:連続思考モデルにおける誤った推論の検出手法
    • 大規模言語モデルの推論能力向上は,安全性確保と並行して重要である。
    • 連続思考モデルは解釈が難しく,誤った推論の検出が課題である。
    • 連続思考モデルにおける潜在的な誤った推論を検出する手段を確立する。
    • 連続思考モデルは,一見すると整合性のある出力を生成しつつ,潜在的に誤った推論を行う可能性がある。
    • 行動特性の違いに基づいて学習した線形プローブは,潜在的な誤った推論を高い精度で検出できる。
    • 誤った推論は,思考プロセスの初期段階でエンコードされるため,その段階での監視が重要である。

    Link: https://arxiv.org/abs/2604.23460

  • 単腕炎症性腸疾患研究における反事実推定のための機械学習モデル [cs.LG]目的:機械学習に基づく反事実アウトカムモデルの開発と評価
    • 臨床試験の迅速化が求められる中,単腕試験の有効な比較群設定が重要である
    • 単腕試験では,外部データからの比較群構築が必要であり,その精度が課題となる
    • 機械学習モデルを用いて,治療効果を推定し,外部比較群との差を検証すること
    • LGBMモデルが,傾向スコアを用いた比較群との一致度が高く,最も良好な結果を示した
    • 主要評価項目および副次評価項目において,ADA治療群とIFX治療群の間に統計的な差は認められなかった
    • 本研究は,炎症性腸疾患(IBD)試験において,患者募集の代替手段としての仮想コントロールの有効性を示唆する

    Link: https://arxiv.org/abs/2604.23465

  • HopperおよびBlackwell GPUにおけるAIワークロードに対するCUDA Tileの評価 [cs.LG, cs.AI, cs.AR]目的:HopperおよびBlackwell GPUにおけるAIワークロードに対するCUDA Tileの性能評価
    • AI分野の発展に伴い,GPUの効率的な活用が不可欠となっている。
    • GPUカーネル開発は複雑であり,Tensor Core等のハードウェア機能を最大限に引き出すのが困難である。
    • CUDA Tileによる簡素化された開発手法が,性能を維持しつつ開発効率を向上させる可能性を探る。
    • Blackwell (B200)では,CUDA Tileが融合型アテンションにおいてFlashAttention-2の2.5倍の性能を示した。
    • GEMMにおいては,CUDA TileはcuBLAS性能の52-79%を達成し,WMMAよりも少ないコード量で実用的な代替となり得る。
    • RTX PRO 6000 (sm_120)では,同じCUDA TileアテンションカーネルはFlashAttention-2のスループットの53%にとどまり,アーキテクチャ間最適化の課題が明らかになった。

    Link: https://arxiv.org/abs/2604.23466

  • 低遅延大規模言語モデル推論のためのハイブリッドJIT-CUDAグラフ最適化 [cs.LG, cs.AI, cs.AR]目的:大規模言語モデル推論における低遅延化
    • 自然言語処理の発展に伴い,大規模言語モデルの活用が拡大している。
    • 推論時の遅延やカーネル起動のオーバーヘッドが,実用上の課題となっている。
    • JITコンパイルとCUDAグラフ実行を組み合わせ,遅延と分散を低減することを目指す。
    • 提案手法は,LLaMA-2 7Bを用いた実験で,初回トークンまでの時間を最大66.0%削減した。
    • TensorRT-LLMと比較して,P99レイテンシも低減された。
    • 短系列のLLMワークロードにおいて,低遅延かつ安定した推論を実現できることが示された。

    Link: https://arxiv.org/abs/2604.23467

  • エッシャー・ループ:閉ループ自己参照的最適化による相互進化 [cs.HC, cs.CL, cs.AI]目的:タスクエージェントと最適化エージェントの相互進化
    • 自律エージェントの能力向上には,手動による設定の限界克服が不可欠である。
    • 既存手法は,固定されたワークフローに依存し,継続的な改善が困難である。
    • 自己参照的最適化により,エージェントの進化を自動的に促進し,性能向上を目指す。
    • エッシャー・ループは,静的なベースラインと比較して絶対的なピーク性能を向上させた。
    • 最適化エージェントは,高性能なタスクエージェントの要求に合わせて戦略を動的に適応する。
    • タスクエージェントの進化を評価信号として活用することで,最適化を効率的に行う。

    Link: https://arxiv.org/abs/2604.23472

  • GeoCert:信頼性の高い予測のための認証された幾何学的AI [cs.LG]目的:信頼性の高い予測のための幾何学的AIフレームワーク
    • 科学における予測システムの精度と信頼性は重要であり,物理法則との整合性が求められる。
    • 既存モデルは予測,制約,検証を分離しており,拡張性と解釈性に課題がある。
    • 予測,物理的推論,形式的検証を統合し,信頼性と計算効率を向上させる。
    • GeoCertは,予測を双曲多様体上での進化として定式化することで,収縮ダイナミクスとロガリズム時間での認証を実現する。
    • 階層的な制約アーキテクチャにより,普遍的な物理法則とドメイン固有のダイナミクスを分離し,汎化性能を高める。
    • 最先端の精度を達成しつつ,計算コストを97.5%削減し,より高い認証率を維持する。

    Link: https://arxiv.org/abs/2604.23474

  • スーパーノードとハロー:LLMフィードフォワード層における損失クリティカルなハブ [cs.LG, cs.CL]目的:LLMフィードフォワードネットワークにおけるチャネルレベルの重要性の構造
    • 大規模言語モデル(LLM)の性能向上には,モデルの効率的な構造解明が不可欠である。
    • 既存の研究では,LLMの内部構造,特にフィードフォワード層の役割が十分に理解されていない。
    • 損失に重要なチャネルを特定し,それらを保護することで,モデルの性能を維持したまま効率的なプルーニングを可能にすること。
    • Transformerのフィードフォワードネットワークにおいて,損失感受性は少数のチャネルに集中していることが示された。
    • トップ1%のチャネルが,層ごとの損失プロキシ(LP)の質量の中央値で58.7%を占める。
    • LPで定義されたスーパーノードを保護するプルーニング手法SCAR-Protは,Wanda-channelと比較して大幅に低いパープレキシティ(54.8 vs 989.2)を達成した。

    Link: https://arxiv.org/abs/2604.23475

  • 深層学習 기반 핵 분석のための手動アノテーションの代替としての空間トランスクリプトミクス活用 [cs.DB, cs.CL, eess.SY, cs.SY, cs.CV, cs.LG]目的:病理画像における深層学習 기반 핵セグメンテーションと分類
    • 病理診断の精度向上には,細胞核の正確な解析が不可欠であり,自動化技術の需要が高まる。
    • 深層学習の学習には大量の手動アノテーションが必要であり,コストと時間がかかる。
    • 空間トランスクリプトミクスデータを用いて,手動アノテーションなしで核のセグメンテーションと分類を可能にする。
    • 空間トランスクリプトミクスデータを教師データとして利用することで,核セグメンテーションと分類の精度を向上させた。
    • 学習に用いた臓器の種類が少ないにも関わらず,従来の教師ありモデルよりも高いセグメンテーション精度を達成し,汎化性能を示した。
    • 遺伝子発現に基づいた細胞タイプ分類と画像ベースの細胞分類を連携させることで,分類性能を既存手法よりも向上させた。

    Link: https://arxiv.org/abs/2604.23481

  • エージェントによる敵対的書き換えによるブラックボックスNLPパイプラインのアーキテクチャ脆弱性の露呈 [cs.AI]目的:ブラックボックスNLPパイプラインのアーキテクチャ脆弱性の評価
    • 重要な意思決定に利用されるNLPパイプラインの堅牢性評価は不可欠である。
    • 既存の手法では,現実的な制約下での堅牢性評価が困難であった。
    • 厳格なブラックボックス環境下での敵対的攻撃手法を開発し,脆弱性を特定する。
    • 提案手法は,最新のLLMベースのシステムに対し,19.95%から40.34%の回避率を達成した。
    • 従来のシステムでは97.02%という高い回避率を示し,アーキテクチャ選択の重要性を明らかにした。
    • 回避効果は,証拠検索メカニズム,検索と推論の結合,ベースラインの分類精度と関連することが分かった。

    Link: https://arxiv.org/abs/2604.23483

  • 合成軌跡は現実の報酬ハッキングを反映しているか? コード生成における実環境ハッキングの体系的な研究 [cs.CL, cs.CY, cs.HC, cs.LG]目的:コード生成における報酬ハッキングの合成データと実環境データの乖離の分析
    • コード生成における報酬ハッキングは,強化学習や推論モデルの実装において重要な課題である。
    • 既存研究は主に合成ハッキング軌跡に焦点を当てており,実環境で自然発生するハッキングを忠実に反映しているか不明である。
    • 本研究は,合成データと実環境データの相違を明らかにし,実環境でのハッキング検出精度の向上を目指す。
    • 合成データで訓練された監視器は,実環境のハッキングに対して汎化性能が低いことが示された。
    • 実環境データで訓練された監視器は,未知のハッキングタイプに対しても高い汎化性能を示すことが確認された。
    • 合成報酬ハッキングデータは,自然な報酬ハッキング行動を完全に反映していない可能性が示唆された。

    Link: https://arxiv.org/abs/2604.23488

  • 知識誘導による自己拡張エンコーダ:ソーシャルメディアにおける精神疾患の神経意味評価 [cs.CL, cs.AI]目的:ソーシャルメディア上のテキストからの精神疾患(特にストレスと鬱)の早期検出
    • 精神保健の早期発見は,公衆衛生上の重要な課題であり,自然言語処理の発展を促す。
    • ソーシャルメディアのテキストは,比喩表現や暗黙的な感情表現が多く,ノイズも多いため,自動評価が困難である。
    • 知識と自己拡張を統合し,精神疾患の評価精度向上を目指す。
    • K-SENSEは,心理学的推論と表現のロバスト性を同時に活用するフレームワークである。
    • Dreaddit(ストレス検出)とDepression_Mixed(鬱検出)において,既存の最良手法と比較して,それぞれF1スコアを約2.6と1.5ポイント向上させた。
    • 知識統合戦略や知識エンコーダの固定といった各構成要素の貢献が,消去実験により確認された。

    Link: https://arxiv.org/abs/2604.23493

  • トランザクションレベルとアクターレベルのAMLキューは一致するか?Elliptic++グラフにおける粒度効果の経験的評価 [cs.AI, cs.LG]目的:AML調査キューの構成に対するスコアリング粒度の影響評価
    • ブロックチェーンにおけるAMLシステムは,不正行為の検出に不可欠であり,その効率性が重要である。
    • トランザクションレベルとアクターレベルのスコアリング粒度が調査結果に与える影響が明確になっていない。
    • 最適なAML調査キューを構築するためのスコアリング粒度選択の指針を提供すること。
    • トランザクションレベルとアクターレベルのスコアリングキューの間には,Jaccard係数で0.374 (標準偏差0.171) の重なりが見られた。
    • アクターレベルのモデルは,トランザクションレベルのモデルと比較して,より高い不正検知率(100件のレビューあたり4.3%)を示した。
    • 最適なAML調査キューは,特定の時間ステップに集中しており,固定ハイブリッドポリシーよりも5.05%高いパフォーマンスを発揮した。

    Link: https://arxiv.org/abs/2604.23494

  • 米国グリッドの強靭性を 위한物理情報に基づいた解釈可能な負荷予測:極端な気象下におけるハイブリッド深層学習におけるSHAP 引导アンサンブル検証 [cs.LG, cs.AI]目的:米国グリッドの強靭性向上に向けた,解釈可能な物理情報に基づいた負荷予測モデルの開発
    • 電力系統の信頼性確保は,経済活動や社会生活を支える上で不可欠である。
    • 深層学習モデルは高い予測精度を持つ一方,予測根拠が不明瞭で運用者の信頼を得にくい。
    • 予測精度と解釈性を両立させ,極端な気象条件下での電力系統運用を支援すること。
    • 提案モデルは,テストデータにおいて平均絶対誤差713MW,二乗平均平方根誤差812MW,平均絶対パーセント誤差1.18%を達成した。
    • 極端な気象イベントにおいては,Transformer単体モデルと比較してMAPEが20.7%減少し,CNN単体モデルと比較して40.5%減少した。
    • SHAP分析の結果,通常運転時は気温が支配的であり,寒冷前線や熱波時には風速と降水量がより影響力を持つことが明らかになった。

    Link: https://arxiv.org/abs/2604.23500

  • LLMベースシステムにおける不確実性の伝播 [cs.SE, cs.AI]目的:LLMベースシステムの不確実性伝播の体系的理解
    • LLMの応用拡大に伴い,システムの信頼性確保が重要課題となっている。
    • システム全体での不確実性の扱いが不十分であり,エラーの増幅や制御困難性が課題。
    • システムレベルでの不確実性伝播メカニズムを明らかにし,課題解決に貢献する。
    • 本研究では,不確実性伝播をシステムレベルで捉えるための概念的枠組みを提案した。
    • 不確実性伝播メカニズムを,モデル内部,システム全体,社会技術システムに分類する構造化された分類体系を提示した。
    • 不確実性伝播に関する5つの未解決研究課題を特定し,今後の研究方向性を示した。

    Link: https://arxiv.org/abs/2604.23505

  • 時系列予測におけるKANsのスペクトルバイアスに対する自己相関の影響 [cs.LG, cs.AI]目的:時系列予測におけるKANsのスペクトルバイアス再発のメカニズム解明
    • 時系列データは,予測において重要な役割を担うため,その高度な分析手法が求められている。
    • 従来のニューラルネットワークはスペクトルバイアスを持ち,特定の周波数に偏った学習になりやすい。
    • KANsにおける自己相関の影響を解消し,より正確な時系列予測を可能にすること。
    • 理論的分析と実験により,KANsにおける自己相関がスペクトルバイアスを再発させることが示された。
    • 自己相関の度合いが強まるほど,バイアスの影響が顕著になることが確認された。
    • 離散コサイン変換(DCT)による前処理が,スペクトルバイアスを大幅に軽減することが実験的に示された。

    Link: https://arxiv.org/abs/2604.23518

  • マルチプレーンHyperX:大規模AI・HPCシステム向け低遅延かつ費用対効果の高いネットワーク [cs.NI, cs.LG]目的:大規模AI・HPCシステム向けのマルチプレーンネットワークの性能評価
    • AIデータセンターの発展に伴い,高性能ネットワークの重要性が増している。
    • 既存のFat-Tree等のネットワークは,規模拡大に伴いコスト増大や遅延増加が課題となる。
    • HyperXネットワークにマルチプレーン技術を適用し,性能向上とコスト削減を目指す。
    • マルチプレーンHyperXは,既存のFat-TreeやDragonfly等と比較して,ネットワーク直径が大幅に小さい。
    • マルチプレーンHyperXは,コスト効率においても優れていることが示された。
    • マルチプレーン技術をHyperXに適用することで,大規模AI・HPCシステムに有用なネットワークアーキテクチャとなり得る。

    Link: https://arxiv.org/abs/2604.23519

  • 文法制約を用いた言語によるループでの安全動作規則の改良:何が問題となりうるか [cs.IR, cs.MM, cs.SE, cs.AI]目的:サイバー物理システムにおける安全動作規則の改良
    • サイバー物理システムの安全性確保は,社会実装において不可欠である。
    • 動作環境の変化に伴い,安全規則の維持・更新が困難である。
    • 文法制約と反事実推論により,安全性を損なわない規則改良を目指す。
    • 提案手法は,従来の基盤手法で検出された安全規則の矛盾を解決し,文法適合性を維持した。
    • 大規模言語モデルを用いた実験により,改良品質のモデル依存性や安全性に関する知見が得られた。
    • 厳格な文法適用,意味検証の強化,広範な評価が今後の課題として示唆された。

    Link: https://arxiv.org/abs/2604.23523

  • PINNが誤る時:偽時間ステップによる偽解への対処 [eess.SY, cs.SY, cs.LG]目的:偏微分方程式の解法における物理情報ニューラルネットワークの誤解釈と対策
    • 物理現象のシミュレーションにおいて,機械学習の活用が期待されており,PINNはその有力な手法の一つである。
    • PINNは,複雑な問題に対して物理的に不適切な解に収束することがあり,その原因が不明確である。
    • 偽時間ステップ法を改良し,PINNの信頼性と精度向上を目指す。
    • 偽時間ステップ法は,最適化の容易化だけでなく,偽解の検出と回避に貢献する。
    • ステップサイズの選択が重要であり,残差ヤコビアンの有限差分近似を用いた適応的なステップサイズ制御法を提案する。
    • 提案手法は,様々な偏微分方程式のベンチマークにおいて,精度と頑健性を向上させることを実証した。

    Link: https://arxiv.org/abs/2604.23528

  • MTRouter:履歴・モデル共同埋め込みによるコストを考慮した多段階LLMルーティング [cs.CL, cs.AI]目的:多段階LLMルーティングにおける性能とコストのトレードオフ改善
    • LLMの利用拡大に伴い,多段階タスクの効率的な実行が重要となっている。
    • 多段階タスクでは,モデルの逐次的な呼び出しにより推論コストが累積しやすい。
    • 固定されたコスト予算内で最適なモデルを選択し,コストを削減することを目的とする。
    • MTRouterは,ScienceWorldにおいてGPT-5を凌駕しつつ,総コストを58.7%削減した。
    • Humanity's Last Exam (HLE)においても,GPT-5と同等の精度を達成しつつ,総コストを43.4%削減した。
    • MTRouterは,モデル切り替え回数が少なく,一時的なエラーにも寛容であり,モデル間の専門化が顕在化することが示された。

    Link: https://arxiv.org/abs/2604.23530

  • 感情条件付き短期人間姿勢予測のための軽量予測世界モデル [cs.CV, cs.AI]目的:感情に基づいた短期姿勢予測の実現
    • インタラクティブシステムや支援ロボット等,人間との協調に姿勢予測は不可欠である。
    • 既存研究では感情信号が無視され,人間運動のダイナミクスを十分に捉えられていない。
    • 表情由来の感情埋め込みを姿勢予測に活用し,予測精度向上を目指す。
    • 感情埋め込みと姿勢情報を学習可能なゲート機構で統合する軽量な予測モデルを提案した。
    • 感情駆動の動きにおいて,ゲート機構による融合が予測精度を顕著に向上させた。
    • 予測軌跡が感情入力の変化に敏感に反応することから,感情埋め込みが有用な条件信号であることが示唆された。

    Link: https://arxiv.org/abs/2604.23532

  • 生成AIモデルとデータカード生成のための大規模高品質ベンチマーク:MetaGAI [cs.AI]目的:生成AIモデルとデータカード生成の評価基準
    • 生成AIの急速な普及に伴い,透明性とガバナンスのための厳格な文書化が不可欠である。
    • データカードやモデルカードの手動作成は拡張性に乏しく,自動化アプローチは大規模な評価基盤を欠いている。
    • 自動化されたモデルとデータカード生成手法の大規模な評価,トレーニング,分析のための基盤を提供する。
    • MetaGAIは,学術論文,GitHubリポジトリ,Hugging Faceの成果物を活用し,検証済みの文書トリプレット2,541組から構成される。
    • 多次元人間評価により,リトリーバー,ジェネレーター,エディターのマルチエージェントフレームワークの有効性が確認された。
    • スパースMixture-of-Expertsアーキテクチャが費用対効果に優れ,忠実性と網羅性のトレードオフが存在することが示された。

    Link: https://arxiv.org/abs/2604.23539

  • Pref-CTRL:表現編集を用いた嗜好駆動LLMアライメント [cs.CL, cs.AI]目的:大規模言語モデルのアライメント手法
    • LLMの性能向上には,人間の価値観との整合性が不可欠である。
    • 既存手法は,人間の嗜好データの特徴を十分に反映できていない。
    • 嗜好データに基づいた効果的なアライメント手法を開発すること。
    • Pref-CTRLは,既存手法RE-Controlをベンチマークデータセット上で上回る性能を示した。
    • 異なるドメインのデータセットに対しても,より高い汎化性能を発揮した。
    • 本研究では,嗜好データを反映した多目的価値関数を用いることで,アライメントの精度向上を実現した。

    Link: https://arxiv.org/abs/2604.23543

  • COMO:最小リスク学習を用いた閉ループ光学分子認識 [cs.CV, cs.AI, cs.LG]目的:光学分子認識の性能向上
    • 化学構造のデジタル化は,医薬品開発や物質探索において不可欠であり,その自動化が求められている。
    • 既存手法は,学習時のバイアスや分子レベルの評価基準との乖離が課題となっていた。
    • 本研究は,暴露バイアスを軽減し,分子レベルでの最適化を可能にする手法を開発し,その有効性を示す。
    • COMOは,既存のルールベースおよび学習ベースの手法と比較して,より少ない学習データで大幅な性能向上を達成した。
    • 最小リスク学習(MRT)は,アーキテクチャに依存しない汎用性を持つことが示された。
    • 合成データセットおよび実世界の化学図面を用いたベンチマークテストで,COMOの有効性が確認された。

    Link: https://arxiv.org/abs/2604.23546

  • 混合基数双曲線回転CORDICを用いたシグモイド関数のハードウェア効率的なFPGA実装 [cs.AR, cs.AI]目的:シグモイド関数のハードウェア効率的なFPGA実装
    • ニューラルネットワークの普及に伴い,エッジデバイス等での高速・低消費電力な実装が重要になっている。
    • シグモイド関数は指数演算に依存するため,ハードウェア実装における計算コストが大きいという課題がある。
    • 混合基数CORDICを用いることで,ハードウェアリソースを削減しつつ,高精度なシグモイド関数を実現することを目指す。
    • 提案手法では,混合基数双曲線回転CORDIC(MR-HRC)アルゴリズムを採用し,基数2と基数4の反復を組み合わせることで,収束性と計算速度を向上させている。
    • FPGA実装の結果,ロジックslice使用量は835と少なく,DSPブロックは不要であり,ハードウェア効率の高さが確認された。
    • 平均絶対誤差は4.23×10^-4であり,既存のシグモイド関数実装と比較して高い精度を達成している。

    Link: https://arxiv.org/abs/2604.23547

  • 拡散モデルにおける一貫性蒸留の記憶化に関する研究 [cs.LG, cs.AI, stat.ML]目的:拡散モデルにおける記憶化と汎化のバランスに関する理解
    • 拡散モデルは生成モデリングの中核であり,その信頼性ある利用には記憶化と汎化の理解が不可欠である。
    • 蒸留過程が記憶化に与える影響は十分に解明されていない。
    • 一貫性蒸留が記憶化行動をどのように変化させるかを分析し,記憶化・汎化のトレードオフ改善を目指す。
    • 教師モデルの記憶化データは,一貫性蒸留により学生モデルへの伝達が大幅に減少することが示された。
    • サンプル品質は維持または向上し,蒸留が加速ツールとしてだけでなく,記憶化・汎化のトレードオフ改善に役立つことが示唆された。
    • 一貫性蒸留は記憶化に関連する不安定な特徴方向を抑制し,汎化可能な安定したモードを維持することが理論的に示された。

    Link: https://arxiv.org/abs/2604.23552

  • DLM:オフラインマルチエージェント逐次意思決定のための統一された意思決定言語モデル [cs.DC, cs.NI, cs.MA, cs.AI]目的:オフラインデータセットからのスケーラブルで再利用可能なマルチエージェント意思決定ポリシーの構築
    • マルチエージェントシステムにおける協調的な意思決定は,複雑なタスク達成に不可欠である。
    • 既存手法は固定された観測形式や行動空間に依存し,汎化性能が課題となっている。
    • 多様な観測と行動に対応可能な柔軟なモデルの構築を通じて,汎化性能の向上を目指す。
    • DLMは,マルチエージェント意思決定を対話形式の系列予測問題として定式化することで,既存のオフラインMARL手法を上回る性能を示した。
    • 集中学習と分散実行のパラダイムを採用し,エージェント間の文脈を考慮した学習を可能にした。
    • 未観測シナリオへのゼロショット汎化能力も高く,タスク間の適応性も確認された。

    Link: https://arxiv.org/abs/2604.23557

  • CyberCane:形式オントロジー推論によるプライバシー保護フィッシング検出のためのニューロシンボリックRAG [cs.CR, cs.AI, cs.IR]目的:プライバシー保護フィッシング検出のためのニューロシンボリックフレームワーク
    • フィッシング攻撃は深刻化の一途をたどっており,企業のセキュリティ対策は不可欠である。
    • 既存のルールベースシステムは新しい攻撃に対応しにくく,LLMベースの検出器はプライバシー侵害のリスクがある。
    • プライバシーを保護しつつ,高度なフィッシング攻撃を検出し,誤検知を最小限に抑えることを目指す。
    • CyberCaneは,決定論的なシンボリック分析とプライバシー保護RAGを統合したフレームワークである。
    • AI生成された脅威に対するリコールを78.6ポイント向上させ,精度は98%を超え,FPRは0.16%と低い。
    • ヘルスケア分野への展開では542倍のROIが見込まれ,リスク許容度に応じた運用が可能である。

    Link: https://arxiv.org/abs/2604.23563

  • シリコン哲学者における多様性の崩壊 [cs.CY, cs.CL, cs.LG]目的:シリコンサンプルにおける哲学的な意見の多様性の崩壊
    • AIの倫理的整合性を検証する上で,人間の多様な意見を反映することが重要である。
    • 大規模言語モデルは,意見の相関を過大評価し,人間特有の意見の多様性を損なう可能性がある。
    • AIが人間意見を代替する際の限界と,整合性の評価方法を明らかにすること。
    • 大規模言語モデルは,哲学的な判断において,専門家間で高い相関を示す傾向があることが示された。
    • この相関の過大評価は,モデルが専門家に対して類似した見解を持つと暗黙的に仮定することと関連している。
    • DPOによるファインチューニングを行っても,この傾向は改善されず,結果はPhilPapersの調査結果とも一致した。

    Link: https://arxiv.org/abs/2604.23575

  • 安全な不確実性認識型強化学習のための制御理論的行動摂動 [cs.LG, cs.AI]目的:安全な強化学習のための枠組み
    • 未知のダイナミクスを持つ高次元システムにおける安全な探索は重要である
    • 既存手法は期待値での安全性保証であり,違反のリスクが残る
    • モデル不確実性を考慮した安全制約による安全な探索を可能とする
    • 提案手法は,オフライン学習で確率的制御アフィンダイナミクスモデルを学習する
    • 学習モデルを用いて,不確実性を取り入れた制御バリア関数を構築し,安全制約を設ける
    • シミュレーション結果から,既存手法と同等の報酬を得ながら安全違反を大幅に削減できることが示された

    Link: https://arxiv.org/abs/2604.23576

  • RouteNLP:共形カスケードと知識蒸留の共同最適化による閉ループLLMルーティング [cs.CL, cs.LG]目的:多様な自然言語処理タスクにおけるLLMのコスト最小化
    • LLMは強力だが,推論コストが高く,実用上の課題となっている。
    • 多くのクエリが小規模モデルで処理可能であるにもかかわらず,大規模モデルが使用されている。
    • モデルポートフォリオを最適化し,コストと品質のバランスを取ることで解決を目指す。
    • RouteNLPは,クエリを階層化されたモデルポートフォリオにルーティングすることで,推論コストを58%削減した。
    • 応答受容率は91%を維持し,p99レイテンシは1,847msから387msに短縮された。
    • ベンチマークテストでは,40-85%のコスト削減を達成しつつ,タスク品質を96-100%に維持した。

    Link: https://arxiv.org/abs/2604.23577

  • 日常生活のリズムを読み解くLLM:行動予測と生成のための整合的理解 [cs.CL, cs.AI]目的:人間行動のモデリングにおける大規模言語モデル(LLM)の活用
    • パーソナルアシスタントやレコメンデーションエンジンなど,知的なシステムの構築には不可欠な研究分野である。
    • 既存手法では,まれな行動の扱いや解釈可能性の向上,統一的な枠組みでの多様なタスクの支援が課題となっていた。
    • 行動データと自然言語の構造的・様式的な差異を克服し,LLMを複雑な人間行動のモデリングに適用することを目指す。
    • 提案手法であるBUAは,事前学習済みの行動モデルのシーケンス埋め込みをアンカーとして活用し,段階的なカリキュラム学習を行うことでLLMと人間行動の整合性を高める。
    • BUAは既存手法と比較して,2つの実世界データセットにおいて,行動予測と生成の両タスクで有意な性能向上を示した。
    • この結果は,複雑な人間行動のモデリングにおいて,LLMの有効性と柔軟性を実証している。

    Link: https://arxiv.org/abs/2604.23578