arXiv雑要約

AI - 2026/03/27 公開

  • 自動煙探知器検査に向けた取り組み:産業施設における煙探知器の認識と将来的なドローン統合の準備 [cs.CV, cs.LG, cs.RO]目的:産業施設における煙探知器の認識
    • 火災安全は重要であり,早期発見のためには煙探知器が不可欠である。
    • 高所や危険な場所での煙探知器点検は困難であり,コストもかかる。
    • ドローンを活用した自動点検システムの実現に向け,煙探知器認識技術を開発する。
    • YOLOv11nが平均mAP@0.5スコア0.884を達成し,最も高い性能を示した。
    • 実環境での十分なデータ収集が難しいため,実データと半合成データを用いた学習戦略を比較した。
    • モーションブラーや低解像度など,様々な条件下での評価データセットを用いて頑健性を検証した。

    Link: https://arxiv.org/abs/2603.24850

  • AIにおける繊細な状況下での人間化への抵抗:倫理的なフロントエンドデザイン選択 [cs.AI]目的:AIフロントエンドデザインにおける人間化の倫理的影響に関する考察
    • AI技術の倫理的側面は重要であり,社会への影響を考慮した設計が求められる。
    • AIの倫理的議論はバックエンドに偏りがちで,フロントエンドデザインの倫理的意義が軽視されている。
    • 人間化されたAIデザインがユーザーに与える影響を分析し,倫理的な設計指針を提示すること。
    • AIのフロントエンドデザインにおける人間化は,ユーザーの認識,信頼,行動に影響を与える価値に基づいた選択である。
    • 人間化されたインターフェースは,期待とのずれ,誤った信頼,ユーザーの自律性低下を招く可能性がある。
    • ジェンダーに基づく暴力の生存者を支援するChaynの事例は,倫理的配慮に基づくインターフェースデザインの抑制がいかに重要かを示す。

    Link: https://arxiv.org/abs/2603.24853

  • SentinelAI:NG9-1-1緊急事案データの構造化と連携のためのマルチエージェントフレームワーク [cs.ET, cs.AR, cs.AI, cs.CY, cs.ET, cs.MA]目的:NG9-1-1緊急事案データの構造化と連携
    • 緊急事案対応には,多様な機関からの情報連携が不可欠である。
    • 情報源間のデータ形式の不統一や更新の遅れが課題である。
    • 緊急事案データの標準化とリアルタイムな統合を可能にすること。
    • SentinelAIは,緊急通信を標準化された機械可読データセットに変換するフレームワークである。
    • これにより,統合,複合インシデントの構築,クロスソース推論が可能となる。
    • SentinelAIは,専門エージェントから構成されるスケーラブルな処理パイプラインを実装している。

    Link: https://arxiv.org/abs/2603.24856

  • 基礎モデル時代におけるAIセキュリティ:統一的な視点からの包括的調査 [cs.CR, cs.AI, cs.CL, cs.CV, cs.LG]目的:AIセキュリティ脅威の体系的な分類と分析
    • 機械学習の規模拡大に伴い,AIシステムのセキュリティリスクが増大している。
    • 既存研究では,個々の脅威が独立して扱われ,全体像の把握が困難である。
    • データとモデル間の相互作用を考慮した統一的な脅威分類を提案し,包括的な防御策の構築を目指す。
    • 本研究では,データとモデル間の双方向的な関係性を考慮した閉ループの脅威分類を提案した。
    • 提案分類は,データ・モデル間の攻撃を4つの軸で整理し,AIセキュリティの包括的な理解を促進する。
    • このフレームワークは,スケーラブルで汎用性の高いAIセキュリティ戦略の開発に貢献すると期待される。

    Link: https://arxiv.org/abs/2603.24857

  • ビジョン言語モデルは現実世界の構築にどこまで近づいているか?物理的生成推論のためのベンチマーク [cs.AI, cs.CL, cs.CV]目的:物理的生成推論の能力
    • 現実世界は視覚情報だけではなく,厳格な構造と手順によって支配されている。
    • 現在のビジョン言語モデルの評価は,視覚的なリアリズムに偏っており,構築プロセスを評価していない。
    • 幾何学,構造,施工性,法規遵守などの制約を満たす構造物を生成する能力を評価する。
    • 新しいベンチマーク「DreamHouse」を提示し,住宅の木造建築を対象に,モデルの計画,構造的推論,自己修正能力を評価した。
    • 最新のビジョン言語モデルは既存のベンチマークでは見過ごされる,物理的な妥当性の点で大きな課題を抱えていることが明らかになった。
    • 物理的な妥当性は,視覚的なリアリズムとは異なる重要な評価軸であり,マルチモーダル知能の新たなフロンティアである。

    Link: https://arxiv.org/abs/2603.24866

  • 単なる「手段」以上のもの:透明性の高いAIデータサイエンスプロセスによる推論の支援 [cs.HC, cs.AI]目的:AIデータサイエンスプロセスにおける推論支援
    • データサイエンスは,医療分野をはじめ様々な分野で意思決定を支援し,重要な役割を担っている。
    • AIツールは高度な専門知識がなくてもデータ分析を可能にする一方,分析過程の透明性に課題がある。
    • 本研究は,AIプロセスの中間成果物を設計することで,ユーザーの推論を支援し,データサイエンス思考を促進することを目指す。
    • AIデータサイエンスシステムにおいて,可読性の高いクエリ言語や概念定義といった中間成果物が成功の要因となっていた。
    • これらの成果物は,ユーザーが分析の選択肢を検討し,質問を修正し,専門知識を貢献する上で役立った。
    • HCIコミュニティに対し,データサイエンス思考を促進するために,中間成果物の設計を考慮する必要性を提言する。

    Link: https://arxiv.org/abs/2603.24877

  • 倉庫人員配置の最適化:オフライン強化学習とファインチューニングされたLLM [cs.LG]目的:半自動倉庫選別システムにおけるリアルタイムの人員配置決定の最適化
    • 倉庫運営における人員配置は,効率とコストに直結する重要な課題である。
    • 人員配置は複雑であり,変化する状況に迅速に対応することが難しい。
    • AIを活用し,人員配置の自動化と最適化を図ることで,効率改善を目指す。
    • カスタムTransformerベースのポリシーを用いたオフライン強化学習により,学習済みシミュレーターで過去のベースラインを2.4%上回るスループットを達成した。
    • 抽象化された人間が読める状態記述を用いたLLMでは,ファインチューニングとDirect Preference Optimizationにより,手作りシミュレーターで過去のベースラインと同等以上の性能を発揮した。
    • オフライン強化学習はタスク固有のアーキテクチャで優れ,LLMは人間が読める入力をサポートし,マネージャーの好みを組み込んだ反復的なフィードバックループと組み合わせることが可能である。

    Link: https://arxiv.org/abs/2603.24883

  • サロゲート,スパイク,スパース性:ハードウェアにおけるSNNハイパーパラメータの性能分析と特徴付け [cs.AR, cs.AI]目的:SNNハイパーパラメータに対するハードウェアの性能特性の定量化
    • スパイクニューラルネットワークは低消費電力推論に適しており,AI技術の発展に不可欠である。
    • 学習時の選択が,推論時のスパース性に与える影響が不明確であり,ハードウェア性能との乖離が生じやすい。
    • ハードウェアにおける性能向上のため,サロゲート勾配関数とニューロンモデルの選択方法を明らかにする。
    • サロゲート勾配関数とニューロンモデルの選択が,分類精度と推論効率に大きく影響することが示された。
    • Spike Rate EscapeはDVS128-Gestureにおいて,Fast Sigmoidと同程度の精度を維持しつつ,推論遅延を最大12.2%削減した。
    • LIFからLapicqueへのニューロンモデル変更により,最大28%の遅延削減が確認され,スパース性に基づいたハイパーパラメータ選択の有効性が示された。

    Link: https://arxiv.org/abs/2603.24891

  • LogSigma:SemEval-2026タスク3における不確実性重み付けによる多タスク学習:次元アスペクトベース感情分析 [eess.SY, cs.SY, cs.HC, cs.CL, cs.AI]目的:次元アスペクトベース感情分析における不確実性重み付け多タスク学習
    • 感情分析は,顧客の意見や市場動向を把握する上で不可欠な技術である。
    • 従来の感情分析は離散的なラベル予測に留まり,感情の微妙なニュアンスを捉えきれない。
    • 言語やドメインに応じた最適化により,感情分析の精度向上を目指す。
    • LogSigmaは,複数のデータセットにおいて,両方のトラックで1位を達成した。
    • 学習された分散重みは言語間で大きく異なり,最適なタスクバランスが言語依存的であることが示された。
    • モデルはタスク固有の対数分散パラメータを学習し,回帰目的を自動的に調整することで性能を向上させた。

    Link: https://arxiv.org/abs/2603.24896

  • 医療現場の入り口における主権型AI:安全な臨床インテリジェンスのための物理的単方向アーキテクチャ [cs.CR, cs.AI, cs.NI]目的:臨床トリアージのための主権型AIアーキテクチャ
    • 医療データは機密性が高く,患者の安全に関わるため,厳重な保護が不可欠である。
    • 従来のネットワークセキュリティはソフトウェアに依存し,脆弱性を抱える可能性がある。
    • 物理的な単方向通信により,ネットワークを介した攻撃対象領域を根本的に排除する。
    • 本研究では,物理的に単方向のチャネルを用いて,デバイス上でのみ推論を実行する主権型AIアーキテクチャを提案する。
    • このアーキテクチャは,放送インフラまたはハードウェアデータダイオードを利用し,外部ネットワークへの経路を遮断することで,高い安全性を実現する。
    • これにより,リソースが限られた環境やリスクの高い環境でも,確実な運用が可能となる。

    Link: https://arxiv.org/abs/2603.24898

  • 信頼できる人工知能の基盤について [cs.AI, cs.CR]目的:信頼できるAIの必要十分条件であるプラットフォーム決定性
    • AI技術の社会実装が進む中で,その信頼性が重要な課題となっている。
    • AIの非決定的な挙動が,検証の困難さや信頼性の低下を引き起こしている。
    • プラットフォーム決定性を確立し,AIの信頼性を数学的に保証すること。
    • プラットフォーム決定性は,信頼できるAIの必要十分条件である。
    • 決定性検証崩壊が証明され,決定性下での検証はO(1)のハッシュ比較で済む。
    • 整数演算エンジンを構築し,ARMとx86間でビット単位で同一の出力を実現した。

    Link: https://arxiv.org/abs/2603.24904

  • 障害物が多い3次元環境におけるマルチドローンタスク割り当て,シーケンス作成,および最適軌道生成の統合 [cs.RO, cs.AI, cs.MA]目的:マルチドローンにおけるタスク割り当て,シーケンス作成,および安全な軌道生成
    • 空中で活動するロボットの協調制御は,災害対応やインフラ点検など,幅広い分野で重要性が増している。
    • 複雑な3次元空間での複数ドローンの効率的かつ安全な共同作業には,高度な計画と制御が求められる。
    • 本研究は,障害物が多い環境下で,複数ドローンのタスクを効率的に割り当て,安全な軌道を生成することを目指す。
    • 提案手法IMD-TAPPは,タスク割り当て,シーケンス作成,および軌道生成を統合的に解決するフレームワークである。
    • シミュレーション結果から,IMD-TAPPは動的に実行可能で衝突のない軌道を生成し,競合力のある完了時間を実現することが示された。
    • 2機のドローンが複数の目標を処理するケーススタディでは,136秒の最小ミッション時間を達成し,安全制約を維持した。

    Link: https://arxiv.org/abs/2603.24908

  • 属性特化ニューロン群を用いた連想記憶-2:異なるキューボールに対する学習と逐次連想想起 [cs.NE]目的:複数の属性を画像として学習し,学習された記憶の関連連想と逐次想起
    • 記憶は,複雑で多様なデータを意味のある関係性を持って想起する基盤となる認知機能である。
    • 既存の連想記憶モデルでは,属性数の増加による複雑な連想の想起が課題となっていた。
    • 異なる属性間の連想想起を可能にするニューラルネットワークモデルを構築し,検証すること。
    • 本研究では,色,形状,サイズに加え,景観名と星座名という5種類の属性処理システムを組み合わせた。
    • 各属性処理システムにQRコード画像を入力することで,属性要素間の連想学習を実現した。
    • 特定の属性要素の画像を入力すると,他の学習済みシステムにおいて関連する属性要素の画像の連鎖的な想起が生成されるメカニズムを構築した。

    Link: https://arxiv.org/abs/2603.24910

  • 一度限りのチャネルミキサー (HYPERTINYPW): TinyMLのための生成圧縮 [cs.LG, stat.ML]目的:TinyML環境におけるニューラルネットワークのメモリ消費量削減
    • マイクロコントローラへのニューラルネットワーク展開は,限られたメモリ容量が課題である。
    • 1x1 pointwise (PW) ミキサーがメモリを多く消費する傾向がある。
    • 生成圧縮によりPWミキサーのメモリ使用量を削減し,TinyML環境での性能維持を目指す。
    • HYPERTINYPWは,PWウェイトを生成されたウェイトに置き換えることで圧縮を実現する。
    • ECGベンチマークにおいて,既存のCNNと比較して,大幅なメモリ削減とF1スコアの維持を両立した。
    • 音声認識においても高い精度を達成し,様々な組み込みセンシングタスクへの適用可能性を示唆した。

    Link: https://arxiv.org/abs/2603.24916

  • 言語モデルにおけるデコーディング制約付きビームサーチによるニア完全一致抽出リスクの推定 [cs.CL, cs.LG]目的:言語モデルにおけるニア完全一致抽出リスクの推定手法
    • 大規模言語モデルのプライバシーや著作権保護の観点から,モデルが訓練データを記憶しているかどうかの定量評価が重要である。
    • 従来の抽出方法では,ニア完全一致の抽出リスクを捉えることが難しく,計算コストが高いという課題がある。
    • デコーディング制約付きビームサーチを用いることで,ニア完全一致抽出リスクを効率的に推定し,プライバシーと著作権リスクを軽減することを目指す。
    • デコーディング制約付きビームサーチは,従来のモンテカルロ法と比較して,計算コストを大幅に削減しつつ,ニア完全一致抽出リスクの下限値を決定的に算出できる。
    • 本手法により,ニア完全一致抽出可能なシーケンスの数や抽出量の大きさなど,従来の完全一致抽出方法では見過ごされていた情報が明らかになった。
    • モデルのサイズやテキストの種類によって,ニア完全一致抽出リスクがどのように現れるかのパターンが明らかになった。

    Link: https://arxiv.org/abs/2603.24917

  • GraphER:検索拡張生成のための効率的なグラフベースのエンリッチメントと再ランク付け手法 [cs.LG, cs.CL, cs.IR]目的:検索拡張生成における情報の検索と再ランク付け
    • 検索拡張生成は複雑な情報ニーズに応える重要な技術であり,その性能が情報検索の質に直結する。
    • 従来の検索手法では,関連する情報が複数のソースに分散している場合,十分な性能を発揮できないという課題があった。
    • GraphERは,セマンティックな類似性だけでなく,多様な関係性を捉えることで検索精度を向上させることを目指す。
    • GraphERは,オフラインインデックス作成時にデータオブジェクトをエンリッチし,クエリ時にグラフベースで再ランク付けを行うことで効率的な検索を実現する。
    • 知識グラフを必要とせず,既存のベクトルストアとの統合が容易であり,遅延もほとんど発生しない。
    • 複数の検索ベンチマークにおいて,GraphERの有効性が確認された。

    Link: https://arxiv.org/abs/2603.24925

  • LogitScope:情報量尺度によるLLMの不確実性分析フレームワーク [cs.AI, cs.CL, cs.IT, math.IT]目的:大規模言語モデルの出力における不確実性の分析
    • LLMの信頼性確保には,モデルの出力に対する不確実性の理解が不可欠である。
    • 従来の評価手法では,生成時のトークンごとのモデルの確信度を把握することが困難である。
    • トークンレベルの情報量尺度を用いて,LLMの不確実性を定量的に評価し,問題点を特定すること。
    • LogitScopeは,エントロピーやバレントロピー等の情報量尺度を計算することで,生成過程におけるモデルの確信度のパターンを明らかにする。
    • 本フレームワークは,ラベル付きデータや意味解釈を必要とせず,潜在的な幻覚や不確実性の高い意思決定ポイントを特定できる。
    • LogitScopeは,不確実性の定量化,モデルの挙動分析,本番環境での監視など,多様な応用が可能である。

    Link: https://arxiv.org/abs/2603.24929

  • 機械学習とTransformerを用いた予測的ステートメント分類による暗号通貨ツイートにおける市場感情の解読 [cs.RO, cs.RO, cs.AI, cs.CE]目的:暗号通貨関連ツイートにおける予測的ステートメントの分類
    • 暗号通貨市場は拡大し,ソーシャルメディアでの言及が増加している。
    • 市場感情の分析は投資判断に重要だが,ソーシャルメディアデータの解釈は困難。
    • 暗号通貨ツイートから市場の予測動向を把握する手法を確立する。
    • GPTによるデータ拡張がモデル性能を大幅に向上させた。
    • Transformerモデルは予測的ステートメントの分類において高いF1スコアを達成した。
    • 各予測カテゴリと暗号通貨において,明確な感情パターンが確認された。

    Link: https://arxiv.org/abs/2603.24933

  • 文脈を考慮した動画-テキストアライメント:動画の時間的グラウンディングのために [cs.LG, cs.AI, cs.CV]目的:動画の時間的グラウンディングにおける動画-テキストアライメントの精度向上
    • 動画とテキストを結びつける技術は,動画検索や理解に不可欠であり,その重要性は増している。
    • 既存手法では,動画中の無関係な背景に影響されやすく,時間的に正確なアライメントが困難である。
    • 文脈に左右されにくい,よりロバストな動画-テキストアライメント手法を開発し,時間的精度を向上させる。
    • 提案手法CVAは,データ拡張とアーキテクチャの改良により,既存手法を凌駕する性能を実現した。
    • 特に,Recall@1(R1)スコアにおいて約5ポイントの大幅な改善が見られ,誤検出の抑制に有効であることが示された。
    • QVHighlightsやCharades-STAといった主要なベンチマークにおいて,最先端の性能を達成した。

    Link: https://arxiv.org/abs/2603.24934

  • TIGFlow-GRPO:相互作用を考慮したフローマッチングと報酬駆動型最適化による軌跡予測 [cs.RO, cs.CV, cs.AI]目的:視覚的に複雑な環境における知能的なマルチメディアシステムのための人間軌跡予測
    • 自動運転や群衆監視など,高度な応用を実現するためには,正確な人間行動予測が不可欠である。
    • 既存手法では,社会的規範や場面制約が軌跡生成に十分に反映されていない場合がある。
    • 社会的適合性と物理的実現可能性の高い軌跡を生成するための新しい枠組みを提案する。
    • 提案手法TIGFlow-GRPOは,ETH/UCYおよびSDDデータセットにおいて,予測精度と長期的な安定性を向上させた。
    • 視覚・空間的相互作用を考慮したモジュールにより,文脈のエンコーディングが強化され,より自然な軌跡が生成された。
    • 報酬駆動型最適化により,生成された軌跡の社会的適合性と物理的実現可能性が向上した。

    Link: https://arxiv.org/abs/2603.24936

  • 知識グラフ統合型プログラミング学習システムにおける適応型および生成AIに基づくフィードバックと推奨の評価 [cs.PL, cs.AI]目的:適応型および生成AIに基づくフィードバックと推奨の有効性
    • プログラミング学習の効率化が求められており,個別最適化された学習支援が重要である。
    • 従来の適応型学習システムでは,十分な質のフィードバックや推奨が難しい場合がある。
    • 大規模言語モデルを活用し,質の高いフィードバックと推奨を実現することで学習効果を高める。
    • 生成AIを用いたフィードバックを受けた学習者は,適応型フィードバックを受けた学習者と比較して,正答率が高く,本質的なプログラミングロジックを欠いたコード提出数が少なかった。
    • 特に,ハイブリッド型(生成AIと適応型)のモードは,正答数の増加と誤りや不完全な試行の減少において,他の2つのモードを上回る結果となった。
    • アンケート調査の結果,生成AIによるフィードバックは有用であると広く認識されており,すべてのモードは使いやすさと有用性の点で肯定的に評価された。

    Link: https://arxiv.org/abs/2603.24940

  • FinMCP-Bench:モデルコンテキストプロトコル下での現実世界金融ツール利用におけるLLMエージェントのベンチマーク [cs.AI, cs.CL]目的:現実世界における金融問題を解決するためのLLMエージェントの評価
    • 金融分野におけるLLM活用は,専門知識と正確性が求められ,その性能評価が不可欠である。
    • 既存のベンチマークは,現実世界の金融取引を十分に反映しておらず,LLMの真の能力を測れない場合がある。
    • 現実的かつ多様な金融シナリオに基づいた,より信頼性の高い評価基準を確立し,LLMエージェントの開発を促進すること。
    • FinMCP-Benchは,10の主要シナリオと33のサブシナリオを含む613サンプルから構成され,多様性と信頼性を確保している。
    • 主流のLLMを評価した結果,ツール呼び出しの正確性と推論能力を明確に測定する指標が提案された。
    • 本ベンチマークは,金融LLMエージェント研究を推進するための標準化された,実践的で挑戦的なテスト環境を提供する。

    Link: https://arxiv.org/abs/2603.24943

  • MobileDev-Bench:モバイルアプリケーション開発における言語モデルの評価のための包括的ベンチマーク [cs.SE, cs.LG]目的:モバイルアプリケーション開発における言語モデルの性能評価
    • ソフトウェア開発の自動化は生産性向上に不可欠であり,言語モデルの活用が期待されている。
    • 既存のベンチマークは汎用ライブラリやWebアプリケーションに偏っており,モバイルアプリ特有の制約が考慮されていない。
    • モバイルアプリ開発における言語モデルの性能ボトルネックを特定し,改善に資することを目的とする。
    • MobileDev-Benchは,Android Native,React Native,Flutterの18のプロダクションモバイルアプリから収集された384の現実的な問題解決タスクで構成される。
    • GPT-5.2,Claude Sonnet 4.5,Gemini Flash 2.5,Qwen3-Coderを含む4つの最先端のLLMの評価では,エンドツーエンドの解決率は3.39%-5.21%と低かった。
    • 主なボトルネックは,複数のファイルや成果物への変更にまたがる欠陥の特定にあり,従来のベンチマークと比較して性能に大きな差が見られた。

    Link: https://arxiv.org/abs/2603.24946

  • プラットフォームAIアシスタントを利用したショッピング:誰が,いつ,何のために利用するか [cs.AI, econ.GN, q-fin.EC]目的:プラットフォーム型AIアシスタントの利用状況と利用目的
    • EC市場の成長に伴い,顧客体験向上のための新たなインターフェースが求められている。
    • 汎用AIツールとは異なり,EC特化型AIアシスタントの利用実態は未解明な点が多い。
    • ECにおけるAIアシスタントが,既存の検索機能とどのように相互作用するかを明らかにする。
    • AIアシスタントの利用率は,高齢者,女性,既存顧客で高い傾向が見られた。
    • AIチャットは,検索と同様に購入初期段階で利用され,両者の行き来が頻繁に行われることが確認された。
    • AIアシスタントは,キーワード検索が困難な探索的なタスク,特に観光地に関する質問に多く利用されている。

    Link: https://arxiv.org/abs/2603.24947

  • ドメイン特化型機械翻訳および品質推定システムへの取り組み [cs.CL, cs.AI]目的:ドメイン特化型機械翻訳および品質推定システムの構築
    • 機械翻訳はグローバルコミュニケーションに不可欠であり,その重要性は増している。
    • 汎用ドメインで高性能だが,ドメインが異なると性能が低下する問題がある。
    • ドメイン適応により,特定の分野での翻訳品質を向上させることを目指す。
    • 類似度に基づいたデータ選択により,小規模なドメイン特化データセットがより大きな汎用データセットを上回る性能を示す。
    • ドメイン適応と軽量なデータ拡張を組み合わせた品質推定の学習パイプラインが,様々な条件下で性能を向上させる。
    • サブワードトークン化と語彙の整合性が,安定した学習と翻訳品質の向上に貢献することが示された。
    • 品質推定に基づく文脈学習により,大規模言語モデルの翻訳品質をパラメータ更新なしに向上させることが可能となる。

    Link: https://arxiv.org/abs/2603.24955

  • MLLMは生徒の思考を読めるか? 手書き数学における多角的なエラー分析 [cs.IR, cs.RO, cs.SY, eess.SY, cs.AI, cs.CL, cs.CV]目的:手書きの数学の解法過程におけるエラーの分析と分類
    • 個別最適化された教育的フィードバックの提供には,生徒の思考過程の理解が不可欠である。
    • 既存の教育NLPはテキストベースの回答に偏っており,手書きの複雑なレイアウトや多様な解法を考慮していない。
    • 手書き数学の解法過程のエラー原因を特定し,より正確な教育的フィードバックを実現すること。
    • 本研究では,手書き数学のエラー分析に特化した新たなベンチマークデータセット「ScratchMath」を開発した。
    • ScratchMathを用いた評価により,主要なMLLMが人間専門家と比較して性能差があることが示された。
    • 特に,視覚認識と論理的推論において課題が見られ,大規模な推論モデルはエラーの説明において潜在能力を示すことが示唆された。

    Link: https://arxiv.org/abs/2603.24961

  • 一度設計すれば大規模展開可能:大規模モデルエコシステムのためのテンプレート駆動型ML開発 [cs.AI, cs.LG]目的:多様なプロダクトや広告主の目標に対応するための機械学習モデルを効率的に開発・展開する手法
    • 現代の広告プラットフォームではレコメンデーションシステムが不可欠であり,その性能がビジネス成果に直結する。
    • 大規模なモデルエコシステムでは,モデルの更新や新しい技術の導入に膨大な工数がかかり,遅延が発生しやすい。
    • テンプレートを用いることでモデル開発の標準化を図り,技術の伝播効率を向上させることを目指す。
    • 標準モデルテンプレート(SMT)の導入により,クロスエントロピー損失が平均0.63%改善された。
    • モデルごとの反復エンジニアリング時間が92%削減され,開発効率が大幅に向上した。
    • 技術とモデルの組み合わせの採用速度が6.3倍に増加し,イノベーションの導入が加速した。

    Link: https://arxiv.org/abs/2603.24963

  • 説明可能な潜在報酬による自己修正画像生成 [cs.CV, cs.AI]目的:複雑なプロンプトと生成画像の整合性向上
    • 画像生成技術は飛躍的に進歩したが,複雑な指示への対応が課題である。
    • 生成過程が一方通行であるため,出力内容を事前に理解した整合性が難しい。
    • 生成・評価の非対称性を利用し,自己修正による画像の品質向上を目指す。
    • xLARDは,マルチモーダル大規模言語モデルを用いた自己修正フレームワークである。
    • 潜在表現を修正し,モデル自身が生成した参照に基づいて構造化されたフィードバックを与える。
    • 潜在編集と解釈可能な報酬信号間の微分可能なマッピングにより,生成過程での継続的なガイダンスを実現する。

    Link: https://arxiv.org/abs/2603.24965

  • LLMにおける不確実性の解剖 [cs.AI]目的:LLMの応答に対する不確実性の内訳
    • LLMの信頼性向上には,その不確実性を理解することが不可欠である。
    • 既存手法は,不確実性の原因特定が難しく,モデル改善に繋がりにくい。
    • LLMの不確実性を,入力の曖昧さ,知識の欠如,デコードのランダム性へと分解する。
    • 不確実性の構成要素の優位性は,モデルサイズやタスクによって変化することが示された。
    • 本研究は,LLMの信頼性評価やハルシネーション検出を支援する基盤を提供する。
    • これにより,標的を絞った介入とより信頼できるシステムの構築が可能となる。

    Link: https://arxiv.org/abs/2603.24967

  • 健康エージェントの再考:孤立したAIから協調的意思決定仲介者へ [cs.HC, cs.AI]目的:医療における協調的意思決定の促進
    • 医療の質向上には,患者,介護者,臨床医間の連携が不可欠である。
    • 既存のAIシステムは孤立しており,多者間の関係性を十分に支援できていない。
    • AIが連携不足や目的の不一致といった課題を解決し,協調性を高める。
    • 現状のAIツールは,状況認識の断片化や目標の不一致を招き,治療遵守を妨げている。
    • AIを単なるアシスタントではなく,多者間のケアインタラクションに組み込まれた協力者と捉えることが重要である。
    • 文脈情報提示,メンタルモデルの調整,共有理解の促進を通じて,AIは人間の意思決定を支援する。

    Link: https://arxiv.org/abs/2603.24986

  • サンプリングからのロールアウト学習:R1スタイルのトークン化交通シミュレーションモデル [cs.RO, cs.AI]目的:人間の運転実演からの多様かつ高忠実度の交通シミュレーション学習
    • 自動運転システムの評価において,現実的な交通シミュレーションは不可欠である。
    • 従来のシミュレーション手法では,潜在的に価値のある動きのパターン探索が限定的であった。
    • 本研究は,モーション・トークンのエントロピーに基づく探索を通じて,シミュレーションの多様性と現実性を向上させる。
    • 提案手法R1Simは,モーション・トークンの不確実性に着目し,適応的なサンプリング機構を導入することで探索と利用のバランスを実現した。
    • 安全性に配慮した報酬設計とグループ相対方策最適化(GRPO)を組み合わせることで,現実的で安全かつ多様な多エージェント行動を可能にした。
    • Waymo Sim Agentベンチマークでの実験により,R1Simが最先端手法と同等以上の性能を達成することが示された。

    Link: https://arxiv.org/abs/2603.24989

  • マルチエージェントシステムにおける失敗原因帰属の再考:多角的ベンチマークと評価 [cs.AI]目的:マルチエージェントシステムにおける失敗原因の多角的な帰属
    • マルチエージェントシステムは複雑であり,その信頼性確保は重要である。
    • 既存の評価指標は単一の原因に焦点を当てており,現実の複雑な状況に対応できない。
    • 複数視点からの原因帰属を可能にするベンチマークと評価プロトコルの開発。
    • 従来のLLMの失敗原因帰属の困難性は,ベンチマーク設計の限界に起因することが示唆された。
    • 多角的なベンチマークと評価プロトコルが,現実的で信頼性の高いMASデバッグに不可欠である。
    • MP-Benchは,マルチエージェントシステムにおける多角的失敗原因帰属のための初のベンチマークである。

    Link: https://arxiv.org/abs/2603.25001

  • 角度・コンパクト性二重損失学習による水稲葉病害の微細な検出改善 [cs.CV, cs.AI]目的:水稲葉病害の微細な分類性能向上
    • 食糧確保のため,水稲の安定生産が重要であり,病害の早期発見が不可欠である。
    • 既存の深層学習モデルは,葉病害データセット特有のクラス内分散の高さやクラス間類似性に対応が難しい。
    • 角度マージンと中心制約を導入し,特徴埋め込みの識別力を高めることで,微細な分類を改善する。
    • 提案手法は,InceptionNetV3,DenseNet201,EfficientNetB0の各アーキテクチャで高い精度を達成した。
    • 具体的には,それぞれ99.6%,99.2%,99.2%の精度を記録し,有意な性能向上が確認された。
    • 本フレームワークは,大規模なアーキテクチャ変更を必要とせず,実環境での導入が容易である。

    Link: https://arxiv.org/abs/2603.25006

  • Few TensoRF:テンソル放射場におけるFew-shotの性能向上 [cs.CV, cs.AI]目的:3次元再構成のフレームワーク
    • 3次元シーンの再構成は,仮想現実やロボティクス等,幅広い分野で重要である。
    • 少ない入力画像からの高品質な3次元再構成は依然として課題である。
    • 少数ショット学習による効率的な3次元再構成手法を開発すること。
    • Few TensoRFは,TensorRFの効率的なテンソルベース表現とFreeNeRFの周波数駆動型Few-shot正則化を組み合わせることで,高速なレンダリングを実現した。
    • Synthesis NeRFベンチマークにおいて,平均PSNRを21.45dB(TensorRF)から23.70dBへと向上させ,微調整版では24.52dBを達成した。
    • THuman 2.0データセットでも競争力のある性能を示し,わずか8枚の入力画像で27.37~34.00dBを達成した。

    Link: https://arxiv.org/abs/2603.25008

  • グロッキング現象の体系的な経験的研究:深さ,アーキテクチャ,活性化,正則化 [cs.LG]目的:グロッキング現象における記憶から汎化への遅延した移行のメカニズム解明
    • 深層学習の汎化能力理解は,AI技術の発展において不可欠である。
    • グロッキング現象は,アーキテクチャ,最適化,正則化の影響が複雑に絡み合い,理解が困難である。
    • 最適化と正則化の相互作用が,グロッキング現象を支配する要因であることを明らかにする。
    • グロッキングのダイナミクスは主にアーキテクチャに依存するのではなく,最適化の安定性と正則化の相互作用によって決定される。
    • 深さ4のMLPはグロッキングに失敗する一方,深さ8の残差ネットワークは汎化を回復し,深さにはアーキテクチャによる安定化が必要であることが示された。
    • ハイパーパラメータを調整することで,TransformerとMLPの間の差は小さくなり,以前の報告された違いは最適化と正則化に起因すると考えられる。

    Link: https://arxiv.org/abs/2603.25009

  • 命令干渉:言語モデルにおける指示のトポロジーは社会的な語用論に影響される [cs.IR, cs.CL, cs.AI, cs.SE]目的:大規模言語モデルにおける指示のトポロジー形成への社会的な語用論の影響
    • 言語モデルの性能は,多様な言語環境下での指示理解に依存する。
    • 言語や文化によって,指示の解釈や強制力が異なり,モデルの汎化を阻害する。
    • 異なる言語間での指示トポロジーの差異を軽減し,モデルの公平性を高める。
    • 英語とスペイン語で同じ意味内容のシステム指示が,異なる相互作用トポロジーを示すことが確認された。
    • このトポロジーの反転は,命令法の社会的な語用論的差異によって媒介されている。
    • 指示文を宣言的な表現に書き換えることで,言語間格差を大幅に削減できることが示された。

    Link: https://arxiv.org/abs/2603.25015

  • 制約結合型推論アーキテクチャによる蒸留耐性の公共理論 [cs.AI, cs.CR, cs.CY, cs.LG]目的:蒸留耐性向上のための理論的枠組み
    • AI技術の進展に伴い,モデルの抽出や能力転移が重要な課題となっている。
    • 有用な能力が,それを支える統制構造よりも安価に転移される可能性がある。
    • アーキテクチャレベルで蒸留による能力転移の非効率化を目指す。
    • 本研究は,蒸留耐性を高めるための制約結合型推論アーキテクチャを提案する。
    • 高レベルの能力を,時間経過に伴う状態遷移を規定する内部安定性制約と結合することで,蒸留の価値を低下させることができる。
    • 理論的な貢献であり,実験的に検証可能な仮説を提示することで,将来の研究に貢献する。

    Link: https://arxiv.org/abs/2603.25022

  • PDE予測における低コストコンテキストウィンドウ選択のためのシステムアンカー型膝推定 [cs.AI]目的:低コストコンテキストウィンドウ選択のアルゴリズム
    • 偏微分方程式の予測は,物理現象のシミュレーションにおいて重要な役割を果たす。
    • 既存のコンテキストウィンドウ選択方法は,計算コストが高い,汎用性に欠ける等の問題がある。
    • 物理システム解釈可能なアンカーに基づく効率的な選択手法を提案し,予測性能の向上を目指す。
    • 提案手法SAKEは,PDEBenchファミリー全体で,既存手法と比較して優れた性能を示す。
    • SAKEは,Exact 67.8%,Within-1 91.7%,mean regret@knee 6.1%を達成し,コスト比は0.051である。
    • これにより,検索コストを94.9%削減し,低コストでの高精度な予測を可能にする。

    Link: https://arxiv.org/abs/2603.25025

  • オンライン凸最適化における高確率後悔最小化:二点バンディットフィードバック [cs.IR, cs.LG]目的:オンライン凸最適化における高確率後悔の最適化
    • 機械学習や最適化問題において,未知の関数を効率的に最小化することは重要である。
    • 二点バンディットフィードバック下では勾配推定が可能だが,高確率な後悔限界の導出が課題であった。
    • 強凸損失関数に対する高確率後悔限界を確立し,最適性を証明することを目的とする。
    • 強凸損失関数に対し,時間依存性および次元数に関して最適な高確率後悔限界 $O(d(\log T + \log(1/\delta))/\mu)$ を新たに示した。
    • 二点バンディットフィードバックにおける重い裾を持つ勾配推定量の取り扱いが,本研究の鍵となった。
    • 本研究は,オンライン凸最適化の理論的基盤を強化し,実用的な応用への道を開く。

    Link: https://arxiv.org/abs/2603.25029

  • ステートレスから状況依存へ:LLMベースの感情サポートのための心理的世界の構築 [cs.AI]目的:LLMベース感情サポートにおける心理的状況構造の構築
    • 感情サポートは,人々の精神的健康を維持・向上させる上で重要である。
    • LLMは状況の連続性や段階認識,ユーザーの同意範囲維持が困難である。
    • LLMの状況構造を外部化し,安定した感情サポートを実現すること。
    • LLMアーキテクチャLEKIA 2.0は,認知層と実行層を分離することで,状況モデリングと介入実行を分離した。
    • LEKIA 2.0は,プロンプトのみの場合と比較して,深い介入ループ完了率を平均約31%改善した。
    • 外部状況構造が,安定制御可能な感情サポートシステムの必要条件であることが示唆された。

    Link: https://arxiv.org/abs/2603.25031

  • 認識的圧縮:ハイステークスAIにおける意図的な無知の事例 [cs.LG]目的:ハイステークスAIにおける,モデルの複雑さをデータの有効期間に合わせることの重要性
    • AIは医療,金融,政策など重要な分野で活用が期待されるが,信頼性が課題となる。
    • 変化の激しい分野では,モデルの容量を大きくするとノイズが増幅し,有用な情報を捉えられない。
    • データの有効期間に応じたモデルの複雑さに抑えることで,堅牢性を高めることを目指す。
    • 認識的圧縮の原理は,モデル構造自体に簡素性を強制することで過学習を抑制する。
    • 15のハイステークス分野の分析で,Regime Indexと最適なモデリング戦略の一致率は86.7%であった。
    • ハイステークスAIでは,スケーリングよりも原理的な簡素化が重要である。

    Link: https://arxiv.org/abs/2603.25033

  • 視覚言語モデルにおける圧縮のメカニズム的解釈 [cs.AI]目的:視覚言語モデルの圧縮に伴う内部計算と安全性行動の変化の解明
    • 実世界での応用を見据え,視覚言語モデルの効率化は重要な課題である。
    • モデル圧縮は,性能低下や安全性への影響が懸念される。
    • 圧縮方法がモデルの安全性に与える影響を明らかにする。
    • プルーニングは回路構造を維持しつつ,内部特徴を回転・減衰させる傾向がある。
    • 量子化はより高次の回路レベルで変化をもたらすが,残存する特徴のアライメントを改善する。
    • プルーニングは,有害な入力に対する拒否行動を著しく低下させる。

    Link: https://arxiv.org/abs/2603.25035

  • Intern-S1-Pro:トリリオン規模の科学的マルチモーダル基盤モデル [cs.RO, cs.LG, cs.CL, cs.CV]目的:トリリオン規模の科学的マルチモーダル基盤モデルの構築
    • 科学技術の進歩には,高度なデータ解析と知識統合が不可欠である。
    • 既存モデルでは,科学分野の専門知識と汎用的な推論能力を両立することが困難であった。
    • 科学分野における高度なタスクを解決できる専門知識を備えた汎用モデルを開発する。
    • Intern-S1-Proは,1兆パラメータという前例のない規模で,汎用性と科学的専門性を大幅に向上させた。
    • 化学,材料科学,生命科学,地球科学など,100以上の専門分野で高い性能を示した。
    • XTunerとLMDeployのインフラにより,効率的な強化学習と厳密な精度の一貫性が実現された。

    Link: https://arxiv.org/abs/2603.25040

  • MP-MoE:降水予測のための行列プロファイル誘導混合エキスパートモデル [cs.RO, cs.AI, cs.LG]目的:ベトナムにおける降水予測の精度向上
    • 熱帯地域では地形や対流不安定性により予測が難しく,気象モデルの精度向上が重要である。
    • 既存の手法は点ごとの誤差評価に依存し,わずかな時間ずれで過度なペナルティが発生する問題がある。
    • 時間ずれに強い損失関数を用いて,より信頼性の高い予測と形態的整合性の維持を目指す。
    • MP-MoEは,ベトナムの主要な河川流域の降雨データにおいて,重い雨に対する平均重要成功指数(CSI-M)で,生の数値気象予測モデルやベースライン学習手法を上回った。
    • MP-MoEは動的時系列ワーピング(DTW)値を大幅に削減し,ピーク降雨強度と降雨イベントの形態的整合性の両方を捉える効果を示した。
    • 行列プロファイルに基づく構造を意識した損失関数が,専門家の選択を改善し,時間ずれによる過度なペナルティを軽減する上で有効であることが示された。

    Link: https://arxiv.org/abs/2603.25046

  • 順序こそがメッセージである [cs.LG, stat.ML]目的:モジュラ演算における例の順序の影響
    • 機械学習モデルの効率的な学習は重要であり,少ないデータで高い精度を達成することが求められる。
    • IID(独立同一分布)での学習はサンプル効率が悪く,学習に多くのデータが必要となる場合がある。
    • 例の順序を制御することで,IID学習よりも効率的に学習を進めることを目指す。
    • 特定の順序戦略を用いることで,IIDベースラインと比較して,大幅に少ないデータで高いテスト精度を達成した。
    • 学習されたモデルは,順序構造のフーリエ変換に対応する基本的な周波数を持つフーリエ表現を構築することが確認された。
    • この結果は,学習効率の向上,グロッキング現象の再解釈,そしてコンテンツレベルの監査を回避するリスクを示唆する。

    Link: https://arxiv.org/abs/2603.25047

  • 大規模言語モデルにおける確信度と正確性の乖離の解消 [cs.AR, cs.CL, cs.CL, cs.AI]目的:大規模言語モデルにおける確信度と正確性の関係性の解明
    • 大規模言語モデルの信頼性向上は,社会実装において不可欠である。
    • モデルが生成する確信度は,実際の正確性と乖離している場合が多い。
    • 確信度と正確性の関係性を改善し,モデルの信頼性を高める。
    • 確信度と正確性は線形的に符号化されているものの,互いに直交していることが判明した。
    • 問題解決の過程で確信度を表明すると,誤った確信度を示す傾向が強まる(Reasoning Contamination Effect)。
    • 内部の正確性推定値に基づいて確信度を調整する手法により,モデルのキャリブレーションが大幅に改善された。

    Link: https://arxiv.org/abs/2603.25052

  • システムプロンプトが攻撃対象領域:LLMエージェントの構成がセキュリティを左右し,悪用可能な脆弱性を生み出す [cs.CR, cs.AI]目的:LLMエージェントにおけるシステムプロンプト構成とセキュリティの関係性の解明
    • LLMの普及に伴い,セキュリティリスクの評価と対策が不可欠となっている。
    • LLMエージェントのシステムプロンプト設定が,セキュリティに大きな影響を与える点が未解明であった。
    • システムプロンプトの脆弱性を明らかにし,より安全なLLMエージェントの構築を目指す。
    • システムプロンプトの設定によって,同じモデルでもフィッシング詐欺の回避率が1%未満から97%まで大きく変動することが示された。
    • 予測信号に着目したプロンプト最適化はベンチマーク性能を向上させる一方で,脆弱な攻撃対象領域を生み出すことが明らかになった。
    • ドメイン照合戦略は有効だが,攻撃者がインフラを偽装することで容易に回避可能であり,詳細なプロンプトはモデルの判断能力を低下させる可能性がある。

    Link: https://arxiv.org/abs/2603.25056

  • 構造不変生成分子アラインメント:自己回帰的対照学習による化学言語モデルのための分子構造の同一性維持 [cs.SI, cs.LG]目的:化学言語モデルにおける分子構造の同一性維持
    • 創薬や材料開発において,分子構造の生成は重要な役割を果たす。
    • 線形化による分子表現はスケーラブルだが,同一分子構造が複数の系列にマッピングされる曖昧さがある。
    • 系列の線形表現を変えずに,幾何学的対称性を認識し,同一構造の系列をアラインメントすることで解決を目指す。
    • SIGMAは,系列のスケーラビリティとグラフの忠実性のギャップを埋め,多パラメータ最適化において優れたサンプル効率と構造的多様性を示す。
    • トークンレベルの対照的な目的関数により,同一の接尾辞を持つ接頭辞の潜在状態を明示的にアラインメントする。
    • 推論時に等価な経路を動的に刈り込むIsomorphic Beam Search (IsoBeam) を導入し,等形冗長性を排除する。

    Link: https://arxiv.org/abs/2603.25062

  • TopoPilot:トポロジーデータ解析と可視化のための信頼性の高い会話型ワークフロー自動化 [cs.HC, cs.AI, cs.GR, cs.LG]目的:トポロジーデータ解析と可視化における複雑な科学的可視化ワークフローの自動化
    • 科学的可視化は,データ理解を深め,新たな発見を促進する上で不可欠である。
    • 既存の自動化システムは,誤操作や情報の欠落により,信頼性に課題がある。
    • ワークフローの信頼性を高め,複雑な要求にも安定して対応できるシステムを構築する。
    • TopoPilotは,オーケストレーターとバリデーターという二つのエージェントから構成される。
    • バリデーターは,実行前にワークフローの構造的妥当性と意味的一貫性を検証することで信頼性を確保する。
    • 1,000回のマルチターン会話シミュレーションにおいて,TopoPilotは99%以上の成功率を達成し,既存手法の50%を下回る結果と比較して,大幅な改善を示す。

    Link: https://arxiv.org/abs/2603.25063

  • 微分可能なエージェントベースシミュレーションによる超高速交通予測と制御 [cs.DC, cs.MA, cs.LG]目的:交通予測と制御のための高速なモデル構築
    • 都市化の進展に伴い,交通渋滞緩和や交通流の最適化が重要な課題となっている。
    • 従来の交通シミュレーションは微分不可能で,実用的な時間内に現実世界のデータで調整することが困難である。
    • 微分可能なシミュレーションを通じて,実世界の交通データを用いた高速なモデル調整と予測,制御を実現すること。
    • 微分可能なエージェントベースの交通シミュレータを開発し,大規模ネットワーク上での超高速なモデル調整を可能にした。
    • シカゴの道路ネットワークにおいて,100万台以上の車両をリアルタイムの173倍の速度でシミュレーションすることに成功した。
    • 過去30分間の交通データを用いたモデル調整,1時間先の交通予測,およびその制御問題を20分以内に完了させることができた。

    Link: https://arxiv.org/abs/2603.25068