arXiv雑要約

AI - 2026/03/24 公開

  • 前方探査ソナー画像セマンティックセグメンテーションのための協調教師フレームワーク:極めて少ないラベルでの学習 [eess.SY, cs.SY, cs.CV, cs.AI]目的:前方探査ソナー画像のセマンティックセグメンテーションにおける性能向上
    • 水中探査において重要な前方探査ソナー技術の応用範囲拡大のため。
    • ソナー画像特有のノイズや歪みにより,少量データでのセグメンテーションが困難。
    • 複数教師を用いた協調学習と信頼性評価により,ノイズの影響を軽減し精度向上を目指す。
    • 提案手法は,一般教師とソナー特化型教師の協調学習により,包括的な特徴モデリングを実現した。
    • 教師間の予測の一貫性と安定性を評価する信頼性評価機構を導入し,ノイズの多い疑似ラベルの影響を抑制した。
    • FLSMDデータセットにおいて,2%のラベル量で最先端手法と比較してmIoUが5.08%向上した。

    Link: https://arxiv.org/abs/2603.21071

  • ニューラルTTSシステムにおける子音誘起F0摂動のモデル化能力評価 [cs.CL, cs.AI, cs.SD]目的:ニューラルTTSモデルの,子音誘起F0摂動の再現能力の評価
    • 自然な音声合成は,コミュニケーションにおいて不可欠であり,その品質向上は重要な課題である。
    • 既存のTTSシステムでは,細かな音韻・ Prosody の再現が不十分な場合がある。
    • TTSシステムが,見たことのない語彙に対してもProsodyを一般化できるか検証する。
    • 高頻度語ではF0摂動の再現は良好であったが,低頻度語では再現性が低いことが示された。
    • 既存のTTSアーキテクチャは,語彙レベルの記憶に依存しており,抽象的な音韻・Prosodyエンコーディングが不十分である。
    • 本研究で提案する評価手法は,TTSシステムの解釈可能性や信頼性向上に貢献する可能性がある。

    Link: https://arxiv.org/abs/2603.21078

  • ViCLSR:自然言語推論を用いた教師ありコントラスト学習フレームワーク - 自然言語理解タスクへの応用 [cs.CL, cs.AI, cs.LG]目的:ベトナム語の文表現の最適化
    • 自然言語理解において,高品質なテキスト表現は不可欠である。低リソース言語ではデータ不足が課題となる。
    • 既存の事前学習モデルはデータ不足により性能が制限される場合がある。
    • ベトナム語の自然言語理解におけるデータ制約を克服し,文表現学習を向上させる。
    • ViCLSRは,5つのベンチマークNLUデータセットにおいて,PhoBERTなどの強力な事前学習モデルを大幅に上回る性能を示した。
    • ViCLSRは,教師ありコントラスト学習が低リソース言語の自然言語理解タスクにおいて有効であることを示した。
    • 既存のベトナム語データセットをコントラスト学習法に適合させるためのプロセスを提案した。

    Link: https://arxiv.org/abs/2603.21084

  • 臨床的に整合した多タスク甲状腺超音波評価のための表現レベルの敵対的正則化 [eess.SY, cs.SY, math.OC, q-fin.TR, cs.DB, cs.NI, cs.NI, cs.CL, cs.CV, cs.AI]目的:甲状腺結節の評価と生検の必要性の判断
    • 甲状腺超音波は,甲状腺結節の評価における第一選択肢であり,医療における重要性が高い。
    • 読者による輪郭描画様式やリスク分類のばらつきにより,学習の質が低下する可能性がある。
    • 読者間のばらつきによる勾配の競合を抑制し,リスク層別化を改善することを目指す。
    • 臨床的に誘導された多タスクモデルとRLARにより,リスク層別化の精度が向上した。
    • セグメンテーションの品質を維持しつつ,単一タスク学習や従来の多タスクベースラインを上回った。
    • RLARは,潜在空間におけるタスク固有の敵対的方向の角度の過剰な一致を抑制する。

    Link: https://arxiv.org/abs/2603.21095

  • チャプターの混合:Transformerにおける学習された記憶のスケーリング [cs.LG, cs.AI, cs.CL]目的:Transformerにおける学習された記憶のスケーリング手法
    • Transformerは自然言語処理の基盤であり,その性能向上が重要である。
    • Transformerは学習された知識を明示的に保存・整理する機構を持たないという課題がある。
    • 学習された記憶の容量を拡大し,効率的な知識の利用を目指す。
    • 提案手法は,Mixture-of-Expertsにヒントを得たチャプターベースのルーティングにより,計算コストを抑えつつ記憶容量を262Kトークンまで拡大することに成功した。
    • 事前学習や命令チューニングといった様々なベンチマークにおいて,同程度の計算量における従来のTransformerモデルを上回る性能を示した。
    • 継続学習における知識の保持能力が向上し,学習段階間の忘却現象に対するロバスト性が確認された。

    Link: https://arxiv.org/abs/2603.21096

  • マルチユーザーセマンティック通信システムにおける同時ソース・RIS支援チャネル符号化の最適化学習 [cs.NI, cs.LG]目的:マルチユーザーセマンティック通信システムにおける同時ソース・RIS支援チャネル符号化の最適化
    • セマンティック通信は,情報の本質を伝達することで,通信効率を大幅に向上させる可能性を秘めている。
    • RISの位相シフトとセマンティック圧縮率の同時最適化は計算量が膨大であり,学習効率が課題である。
    • DNNベースのセマンティック類似度推定器とセマンティックモデルキャッシュにより,学習効率を向上させる。
    • 提案手法であるJSREフレームワークは,既存手法と比較してシステム全体のエネルギー効率を大幅に改善する。
    • T-DRLフレームワークは,学習に必要なセマンティックモデル数を削減し,学習効率を大幅に向上させる。
    • Transformerベースのアクターネットワークは,キャッシュ状態に応じて動的に行動空間を生成し,冗長な再学習を回避する。

    Link: https://arxiv.org/abs/2603.21097

  • マルチモーダル追跡における漸進的適応学習 [cs.CV, cs.AI]目的:マルチモーダル追跡のための漸進的適応手法の開発
    • 多様なセンサー情報を活用することで,よりロバストな視覚認識が可能になるため,重要な研究分野である。
    • マルチモーダルデータはペアが限られており,既存のRGBモデルのファインチューニングでは十分な適応が難しい。
    • RGBモデルをマルチモーダルデータに適応させるための,モダリティ特化的な適応メカニズムを提案する。
    • 提案手法は,モダリティ依存,モダリティエンタングル,タスクレベルの3種類のadapterを導入することで,RGBモデルの適応を段階的に行う。
    • 各モダリティの特性を捉え,高周波・低周波成分を分解するモダリティ依存adapterにより,ロバストな特徴表現を実現した。
    • RGB+Thermal, RGB+Depth, RGB+Eventの追跡タスクにおいて,最先端手法と比較して優れた性能を示した。

    Link: https://arxiv.org/abs/2603.21100

  • ResPrune:大規模ビジョン言語モデルにおける視覚トークン剪定のためのテキスト条件付き部分空間再構成 [cs.LG]目的:大規模ビジョン言語モデルにおける効率的な推論のための視覚トークン部分集合の選択
    • 大規模ビジョン言語モデルは,詳細な視覚情報を捉えるために不可欠だが,計算コストが高い。
    • 全ての視覚トークンを処理することによる計算・メモリ負荷が大きいという課題がある。
    • 計算・メモリ効率を改善し,推論速度を向上させるための視覚トークン剪定手法を提案する。
    • ResPruneは,残差エネルギーに基づいて幾何学的構造を維持しつつ,コンパクトで情報量の多い視覚トークン部分集合を選択する。
    • テキスト関連性を考慮することで,指示に沿った重要なトークンを保持し,クロスモーダルアライメントを強化する。
    • LLaVA-1.5やQwen2.5-VLなど,複数のバックボーンで既存手法を上回り,計算量,メモリ使用量,推論時間を削減する。

    Link: https://arxiv.org/abs/2603.21105

  • 分子物性予測のための変分オートエンコーダによる解きほぐされたマルチモーダル表現学習:DMMRL [cs.CY, cs.HC, cs.NI, cs.PF, cs.LG, cs.AI]目的:分子物性予測のための,解きほぐされた分子表現
    • 医薬品発見や材料科学において,分子構造と物性の複雑な関係性を捉えるモデルが不可欠である。
    • 既存手法では,構造,化学的特性,機能的特性などが混在した表現となり,解釈性や汎化性能が低い。
    • グラフ,配列,幾何学情報など,様々なモダリティ間の相関を考慮した,より解釈性の高い表現学習を目指す。
    • DMMRLは,変分オートエンコーダを用いて,共有(構造関連)とプライベート(モダリティ固有)の潜在空間に分子表現を解きほぐす。
    • DMMRLは,7つのベンチマークデータセットで最先端手法を上回る性能を示す。
    • 直交性とアライメントの正則化により,統計的独立性とクロスモーダル整合性が促進される。

    Link: https://arxiv.org/abs/2603.21108

  • パラメータ効率の良いマルチタスク学習のための周波数切り替えメカニズム [cs.CV, cs.LG]目的:パラメータ効率の良いマルチタスク学習フレームワーク
    • 複数のタスクを効率的に解決するため,単一のモデルが求められている
    • 既存のパラメータ効率の良いファインチューニング法は,単一タスクへの適応に限定されている
    • 周波数切り替えによる低コストな重み調整を実現し,スケーラブルなパラメータ共有を目指す
    • 提案手法Free Sinewichは,低ランク因子と畳み込み事前知識を組み合わせたSine-AWB層と,周波数生成Clock Netを用いる
    • Sine変調により低ランクアダプターのランクが増加し,周波数分離により異なるタスクの重みがデコレルする
    • 密な予測ベンチマークにおいて,単一タスクファインチューニングと比較して最大5.39%の性能向上を,わずか6.53Mの学習可能パラメータで実現した

    Link: https://arxiv.org/abs/2603.21111

  • 単一のプールでは不十分:実用的なテスト時適応のためのマルチクラスタメモリ [cs.CV, cs.AI]目的:テスト時適応におけるメモリ機構の構造化
    • テスト時適応は,ラベルなしデータを用いてモデルを新しい分布に適応させる技術であり,現実世界の応用において重要である。
    • 既存のテスト時適応手法では,メモリを単一の構造化されていないプールに保存するため,分布の多様性を捉えきれないという課題がある。
    • 本研究では,サンプルを複数のクラスタに整理することで,メモリ機構の構造化を図り,テスト時適応の性能向上を目指す。
    • 提案手法Multi-Cluster Memory(MCM)は,様々なデータセット(CIFAR-10-C, CIFAR-100-C, ImageNet-C, DomainNet)で既存手法を上回る性能を示した。
    • 特に,分布の複雑性が高いデータセット(ImageNet-C, DomainNet)において,MCMによる改善効果が顕著であった。
    • メモリ構造の最適化が,実用的なテスト時適応において重要な設計軸であることが示された。

    Link: https://arxiv.org/abs/2603.21135

  • XML文書に対するオントロジー駆動型パーソナライズ情報検索 [cs.IR, cs.LG]目的:XML文書の情報検索における精度向上
    • 情報検索は,大量のデータから必要な情報を効率的に抽出する上で不可欠である。
    • 従来の検索システムは,ユーザの知識や嗜好を考慮せず,画一的な結果しか提供できない。
    • ユーザの特性に合わせた,より関連性の高い検索結果を提供することを目指す。
    • オントロジーとユーザプロファイルを統合することで,検索の有効性が向上することが示された。
    • キーワードベースの手法と比較して,適合率と再現率が向上した。
    • 提案手法は,ユーザ中心の検索を実現し,XML検索結果の関連性と適応性を高める。

    Link: https://arxiv.org/abs/2603.21139

  • ORACLE:制約に基づいた合成データ誘発による大規模言語モデルの推論能力の最適化 [cs.AI]目的:大規模言語モデルの推論能力向上のための高品質な多段階推論データの生成
    • 大規模言語モデルの推論能力は,様々なタスクにおいて重要であり,その向上が求められている。
    • 既存手法では,最終的な正答に基づいて推論パスをフィルタリングするのみで,中間ステップの誤りを見落とす場合がある。
    • 曖昧または不完全な文脈を含む自然言語推論タスクにおいて,各推論ステップの信頼性の高い検証を可能にすること。
    • ORACLEは,三段論法に着想を得た構造化データ生成フレームワークであり,LLMの生成能力と記号的検証を統合する。
    • ORACLEは,ステップレベルの検証を可能にし,高品質な多段階推論データの構築を促進する。
    • 論理的,事実的,常識的推論の6つのベンチマークにおいて,ORACLEは強力なベースラインを上回る性能を示した。

    Link: https://arxiv.org/abs/2603.21140

  • NeSy-Edge:コンピューティングコンティニュームにおけるニューロシンボリックな信頼性の高い自己修復 [cs.RO, cs.RO, cs.DC, cs.AI, cs.LG, cs.SC]目的:コンピューティングコンティニュームにおける信頼性の高い自己修復
    • AIサービスの計算需要が急増し,クラウドからエッジやエンドデバイスへ処理が分散しているため。
    • 環境の規模,異質性,レイヤー間の依存関係が複雑で,タイムリーな自己修復が困難である。
    • ノイズの多いログやエッジのリソース制約下でも,迅速かつ効率的な自己修復を実現すること。
    • NeSy-Edgeは,エッジデバイスを優先した設計により,ローカルな知覚と推論を行い,最終診断段階でのみクラウドモデルを呼び出す。
    • ログを構造化されたイベント表現に変換し,事前制約のあるスパースな因果グラフを構築,過去のトラブルシューティング知識と統合する。
    • Loghubデータセットを用いた評価により,高いノイズレベル下でも高い精度を維持し,限られたメモリ内で動作することが示された。

    Link: https://arxiv.org/abs/2603.21145

  • 創発的形式検証:自律型AIエコシステムによる6つの領域におけるSMTベースの安全性独立発見 [cs.SE, cs.AI]目的:自律型AIエコシステムにおける形式検証の創発
    • AIシステムの安全性確保は,社会実装において不可欠であり,その重要性は増している。
    • 従来の安全性評価は,手動による検証に頼ることが多く,複雑化するAIシステムへの対応が困難である。
    • AI自身が安全性評価手法を発見することで,より効率的かつ網羅的な検証が可能となる。
    • 自律型AIエコシステムが,形式手法に関する明示的な指示なしに,6つの異なるAI安全性領域でZ3 SMTソルバーの使用を独立して提案した。
    • この発見は,形式検証がAI安全性の単なる有用な技術ではなく,複雑なシステムが自己の安全性を考察する上で創発的に現れる特性であることを示唆する。
    • 提案されたunified framework(substrate-guard)は,5つの実装された領域で181のテストケースに対し,100%の分類精度を達成し,実証的テストでは見逃されるバグを検出した。

    Link: https://arxiv.org/abs/2603.21149

  • 二重比例制約を用いたラベル比例からの学習 [cs.LG]目的:ラベル比例からの学習
    • インスタンスレベルのラベル付けが困難な場合でも分類器を学習できるため,弱教師あり学習の重要な手法である。
    • 従来のラベル比例からの学習は,比例制約を十分に活用できていないという課題があった。
    • 袋レベルとインスタンスレベルの両方で比例制約を適用することで,学習精度を向上させる。
    • 提案手法LLP-DCは,様々なベンチマークデータセットにおいて,既存のLLP手法と比較して一貫して性能が向上した。
    • 袋レベルでの学習は,予測平均と与えられた比例を一致させることで,比例制約を反映している。
    • インスタンスレベルでの学習は,最小コスト最大フローアルゴリズムを用いて生成されたハード擬似ラベルを活用し,比例制約を満たす。

    Link: https://arxiv.org/abs/2603.21153

  • LLMはグラフ学習を欺けるか?テキスト属性グラフに対する汎用的な敵対的攻撃の探求 [cs.CE, cs.AI]目的:テキスト属性グラフの安全性評価
    • グラフ学習は,ノード間の関係性を活用し,様々なタスクで高い性能を示す重要な技術である。
    • テキスト属性グラフは表現力が増す反面,テキスト情報を介した新たな脆弱性を抱えている。
    • 異なるバックボーンモデル(GNN,PLM)に対する汎用的な敵対的攻撃手法を開発し,その安全性を検証する。
    • 提案手法BadGraphは,グラフ知識をLLMに活用し,ノードのトポロジーとテキスト情報を同時に摂動させる。
    • BadGraphは,GNNベースとLLMベースの両方の推論器に対して,最大76.3%の性能低下を引き起こす汎用的な攻撃を可能にした。
    • 理論的・実験的分析により,BadGraphは秘匿性と解釈可能性を両立していることが示された。

    Link: https://arxiv.org/abs/2603.21155

  • 単一の信号を超えて:未知の未知に対する統合マルチ専門家異常検知器SPECTREG2 [cs.LG, cs.CV]目的:未知の未知に対する異常検知
    • 機械学習システムが自身の知識限界を認識し,不確実性下で安全に動作する必要がある。
    • 既存の不確測度化手法は単一の信号に依存し,多様な構造的異常の検出に失敗する。
    • 多様な異常タイプに対する検知性能向上と,未知の変数や交絡因子の検出。
    • SPECTRE-G2は,デュアルバックボーンニューラルネットワークから8つの補完的な信号を組み合わせる。
    • 合成データ,Adult,CIFAR-10,Gridworldデータセットで,AUROC,AUPR,FPR95において複数のベースラインを上回る性能を示した。
    • 新しい変数や交絡因子の検出に特に有効であり,オープンワールド環境での未知の未知の検知に貢献する。

    Link: https://arxiv.org/abs/2603.21160

  • LLMにおける木構造探索の再検討:Gumbelと逐次的な分割による予算規模に応じた推論 [cs.AI, cs.LG]目的:大規模言語モデルの推論能力向上
    • 複雑な問題解決において,木構造探索は有効な手法であり,様々な分野で活用が期待される。
    • 既存手法では,探索予算が増加するにつれて精度が低下するスケーリングの問題が存在する。
    • 本研究は,予算規模に応じて性能が向上する木構造探索アルゴリズムを開発し,その問題を解決する。
    • 提案手法ReSCALEは,Gumbelサンプリングと逐次的な分割により,既存手法のスケーリング問題を克服した。
    • GSM8Kデータセットにおいて58.4%,Game24データセットにおいて85.3%の精度を達成した。
    • 逐次的な分割が性能向上に大きく貢献することが確認された。

    Link: https://arxiv.org/abs/2603.21162

  • ゼロ次最適化におけるモデル進化:ニューラルタンジェントカーネルからの考察 [cs.AR, cs.LG]目的:ニューラルゼロ次カーネルによる関数空間上でのモデル進化の記述
    • ニューラルネットワークの学習は計算資源を多く必要とするため,効率的な学習手法が求められている。
    • バックプロパゲーションを必要としないゼロ次最適化はメモリ効率が良いが,学習の挙動が不明確である。
    • ゼロ次最適化におけるモデル進化を理論的に解明し,収束の加速を目指す。
    • 線形モデルにおいて,期待されるニューラルゼロ次カーネルは学習を通して不変であり,乱数摂動の一次および二次モーメントに依存することが示された。
    • この不変性により,二乗損失関数の下でのモデル進化について閉形式の表現が得られた。
    • 実験結果は理論的考察を検証し,単一の共有乱数ベクトルを使用することで,学習が加速されることを示した。

    Link: https://arxiv.org/abs/2603.21169

  • 剪定適応モジュール:継続学習基盤モデルのためのシンプルかつ強力なベースライン [cs.LG]目的:継続学習における強力なベースライン手法
    • 継続学習は,モデルの性能を維持しつつ新たなタスクに適応する上で重要である。
    • 基盤モデルを用いた手法が急速に進展しているが,軽量な従来手法との比較が不足している。
    • 厳密なベースラインを用いて,基盤モデルの進歩が真の進歩によるものかを検証する。
    • 提案手法PAMは,事前学習済みResNetの大半を固定し,疎なタスク固有層を通じてスケーラブルな適応を可能にする。
    • PAMは,学習可能なパラメータと総パラメータ数を大幅に削減し,継続的な更新のコストを低減する。
    • 多様なベンチマークにおいて,PAMは破滅的忘却を軽減し,最先端の基盤モデルベース手法を上回る性能を示す。

    Link: https://arxiv.org/abs/2603.21170

  • 深層強化学習における可塑性の再考 [cs.CL, cs.LG, cs.AI]目的:深層強化学習における可塑性喪失の根本的なメカニズム
    • 強化学習は,複雑な問題を自律的に解決する能力を持つため,ロボティクスやゲームなどの分野で重要である。
    • 環境が変化する場合,ニューラルネットワークの適応能力が低下し,性能が著しく悪化するという課題がある。
    • 過去のタスクの最適解が,新たなタスクにとって劣悪な局所最適解となることによる可塑性喪失を解明し,改善策を探る。
    • 可塑性喪失は,最適化の文脈において,過去のタスクで得られたパラメータが,新しいタスクにおいて局所最適解に陥ることで生じる。
    • ニューロンの休眠状態は,勾配信号の消失と等価であり,これが休眠状態の主要な原因であることが示された。
    • タスク固有の可塑性喪失が確認され,異なるタスクに切り替えることで休眠率の高いネットワークでも良好な性能が得られることが示された。

    Link: https://arxiv.org/abs/2603.21173

  • 拡散モデルに対する報酬鋭敏性認識微調整 [cs.CL, cs.LG, cs.AI]目的:報酬ハッキングの軽減と拡散モデルの堅牢性の向上
    • 大規模言語モデルの人間との整合性が重要視されており,その手法として強化学習が注目されている。
    • 拡散モデルを用いた強化学習は,報酬ハッキングに脆弱であり,知覚品質の向上を伴わない報酬スコアの増加が問題となる。
    • 報酬モデルの勾配の非ロバスト性が原因であり,本研究はその影響を緩和することを試みる。
    • 報酬モデルの勾配を平滑化する手法により,報酬ハッキングが軽減され,堅牢性が向上することが示された。
    • 拡散モデルのパラメータや生成サンプルに摂動を加えることで,平滑化された報酬モデルからの勾配を利用できる。
    • 提案手法RSA-FTは,簡便でありながら,強化学習による拡散モデルの信頼性を向上させる。

    Link: https://arxiv.org/abs/2603.21175

  • プロンプトの再利用:高シグナルプロンプトのオンポリシー再利用によるGRPOの高速化 [cs.LG, cs.AI]目的:LLMの推論能力を拡張する検証可能な報酬付き強化学習(RLVR)におけるGRPOスタイルの学習効率向上
    • LLMの推論能力向上には,報酬が検証可能な強化学習が不可欠である。
    • GRPOスタイルの学習では,ロールアウトにコストがかかり,利用できないプロンプトが無駄になる。
    • 有効なプロンプトのみを再利用し,計算資源の無駄を削減する。
    • プロンプトの再利用により,ゼロ分散プロンプトが減少し,平均絶対的優位性が向上した。
    • 初期の精度向上が加速され,Llama-3.2-3BやQwen3-8Bといったモデルファミリーで効果が確認された。
    • ただし,積極的な設定ではプラトーに達し,ベースラインと同程度の収束となった。

    Link: https://arxiv.org/abs/2603.21177

  • LLMベースの自動アーキテクチャビュー生成:現状はどこまでか [cs.SE, cs.AI]目的:ソフトウェアアーキテクチャビューの自動生成能力の評価
    • ソフトウェアの規模拡大に伴い,アーキテクチャの理解と保守が重要となる。
    • アーキテクチャビューの作成は手作業に頼るため,時間と労力がかかる。
    • LLMやエージェントを活用し,アーキテクチャビューの自動生成を支援すること。
    • プロンプト戦略の工夫は,わずかな改善にとどまることが示された。
    • Few-shotプロンプティングは,zero-shotと比較して明確性の欠陥を9.2%削減した。
    • カスタムエージェントが汎用エージェントを上回り,詳細度と明確性の点で優れた結果となった。

    Link: https://arxiv.org/abs/2603.21178

  • ALMAB-DC:逐次実験計画とブラックボックス最適化のための能動学習,多腕バンディット,分散計算 [cs.LG, stat.CO, stat.ME, stat.ML]目的:高コストで勾配情報のない目的関数に対する逐次実験計画とブラックボックス最適化
    • 実験回数に制約がある中で,効率的に情報を抽出することが重要である。
    • 限られた評価予算内で,最適な実験計画を立案することが難しい。
    • 並列分散処理による効率的な最適化手法を開発し,実験時間の短縮を目指す。
    • 提案手法ALMAB-DCは,用量反応最適化や適応空間場推定において,既存手法よりも低い後悔値を達成した。
    • 機械学習・工学のタスクにおいて,CIFAR-10の精度向上,空気抵抗の低減,強化学習の報酬増加に貢献した。
    • 分散実行により,16エージェントで7.5倍の高速化を達成し,アムダールの法則と一致した。

    Link: https://arxiv.org/abs/2603.21180

  • マルチUAVに基づく自律型精密農業システムのアーキテクチャ [cs.RO, cs.LG, cs.MA]目的:マルチUAVを用いた精密農業システムのアーキテクチャ
    • 農業分野における生産性向上や労働力不足解消のため,精密農業の重要性が高まっている。
    • 複数UAVの連携運用には,効率的なシステム構成や制御に関する課題が存在する。
    • UAV群による自律的な精密農業システムを実現するためのフレームワークを提供する。
    • 提案アーキテクチャは,画像処理,経路計画,通信,データ収集,圃場マッピング等の機能を統合している。
    • シミュレーション及び実証実験により,耐障害性,堅牢性,使いやすさ等の利点が確認された。
    • 本アーキテクチャは,農家がUAVを圃場に効果的に導入するためのエンドツーエンドの自律ソリューションを提供する。

    Link: https://arxiv.org/abs/2603.21183

  • 確率的条件勾配法におけるバッチサイズの役割 [cs.IR, cs.AR, cs.LG, math.OC, stat.ML]目的:確率的条件勾配法におけるバッチサイズの役割の解明
    • 大規模データに対する機械学習の重要性が増しており,効率的な最適化手法が求められている。
    • 確率的最適化法では,バッチサイズの選択が性能に大きく影響するが,理論的理解が不十分である。
    • バッチサイズとステップサイズの適切な選択方法を理論的に導き,効率的な学習スケジュールを提案する。
    • バッチサイズを大きくすると最適化精度が向上するが,ある閾値を超えると効果が飽和し,性能が低下することが示された。
    • 最適なステップサイズの大きさが理論的に予測され,大規模学習における実証的知見と一致することが確認された。
    • バッチサイズとシーケンス長を動的に調整する適応戦略が提案され,NanoGPTを用いた実験で理論予測との整合性が確認された。

    Link: https://arxiv.org/abs/2603.21191

  • 科学論文のフルテキストからの仮説および統計的証拠抽出のための文脈選択 [cs.CL, cs.AI, cs.DL]目的:科学論文からの仮説とその支持する統計的証拠の抽出
    • 実証研究の統合には不可欠だが,論文の長さや議論の分散により困難な課題である。
    • 関連性の高い段落が多数存在し,役割が異なるため,適切な情報を検索・抽出するのが難しい。
    • 文脈選択の最適化により仮説抽出の精度向上を目指す。
    • 文脈選択は,フルテキストプロンプトと比較して仮説抽出の性能を一貫して向上させる。
    • 性能向上は,検索品質と文脈の明確さを最適化した構成に集中する。
    • 統計的証拠の抽出は依然として困難であり,抽出器の数値とテキストの組み合わせ処理能力に限界がある。

    Link: https://arxiv.org/abs/2603.21193

  • 監視は十分か?マルチエージェント議論におけるステルス攻撃のための戦略的エージェント選択 [cs.CR, cs.AI]目的:マルチエージェント議論におけるステルス攻撃の戦略的エージェント選択
    • マルチエージェントシステムは普及が進んでおり,その安全性確保が重要となっている。
    • 既存の攻撃は監視下では検知されやすく,対策が求められている。
    • 議論監視下でも有効な攻撃手法を開発し,監視の限界を示す。
    • 議論監視下でも攻撃が成功することから,監視のみでは安全性が担保されないことが示された。
    • 既存の攻撃は監視下でパターンが露呈し,効果が低下することが確認された。
    • 議論監視に特化した新たな攻撃手法が,監視下でも効果的に機能することが実証された。

    Link: https://arxiv.org/abs/2603.21194

  • テキスト画像モデルの脱獄のための軽量フレームワーク:分布最適化によるJANUS [cs.CV, cs.LG]目的:テキスト画像モデルの脱獄攻撃に対する効率的な手法
    • テキスト画像モデルは広く利用されているが,有害コンテンツ生成のリスクが存在する。
    • 既存の脱獄攻撃は,真のend-to-end最適化ではなく,大規模な計算コストを要する。
    • 分布最適化を通じて,軽量かつ効率的な脱獄フレームワークを開発すること。
    • JANUSは,低次元の混合ポリシーを用いて効率的な探索を可能にし,ターゲットのセマンティクスを維持する。
    • Stable Diffusion 3.5 Large Turboにおいて,ASR-8を25.30%から43.15%に向上させ,CLIPおよびNSFWスコアも向上した。
    • JANUSは,オープンソースおよび商用モデルの両方で成功しており,現在の安全性パイプラインの脆弱性を明らかにする。

    Link: https://arxiv.org/abs/2603.21208

  • 事前学習済みビデオモデルを都市風の流れの微分可能な物理シミュレーターとして [cs.IR, cs.LG, cs.CE]目的:都市風環境の快適性と安全性を向上させる設計手法
    • 都市空間の設計において,歩行者の快適性・安全性を確保する風環境の予測が重要である。
    • 従来の数値流体力学(CFD)シミュレーションは計算コストが高く,広範な設計検討の妨げとなっている。
    • 事前学習済みビデオモデルを活用し,高速かつ微分可能な代替シミュレーターを開発することで,効率的な設計を可能とする。
    • WinDiNetは,20億パラメータの潜在ビデオ変換器をベースに,CFDシミュレーションデータでファインチューニングされた。
    • WinDiNetは,従来のニューラルPDEソルバーよりも優れた性能を示し,112フレームの風の流れ予測を1秒未満で生成する。
    • 勾配ベースの逆最適化により,都市の建物配置を最適化し,風の安全性と歩行者の快適性を向上させることが可能となった。

    Link: https://arxiv.org/abs/2603.21210

  • 位置セグメンテーション誘導対向的ファインチューニングによる空間的に局所化された画像合成 [cs.CV, cs.AI]目的:空間的に局所化された画像合成のための手法
    • 画像生成技術は,データ拡張,バイアス軽減,疾患モデリング等,幅広い応用が期待される分野である。
    • 既存手法では,対象者レベルの要因に限定され,局所的な構造変化を再現できず,全体的なアーティファクトが生じやすい。
    • 局所的な構造変化を誘導し,より現実的な対向的画像を生成することで,疾患進行のモデリング精度向上を目指す。
    • 提案手法Pos-Seg-CFTは,構造を局所的なセグメントに分割し,領域ごとの独立した測定値を用いることで,空間的に局所化された対向的画像を生成する。
    • 冠動脈CTアンギオグラフィー実験の結果,Pos-Seg-CFTは現実的で領域特異的な修正を生成し,空間的な制御性を高めることが示された。
    • 本研究は,より詳細な空間制御を実現することで,疾患進行のモデリングに貢献する可能性を示唆する。

    Link: https://arxiv.org/abs/2603.21213

  • AIは学生の思考を均質化するか? AI支援エッセイにおける構造的収束の多角的分析 [cs.AI]目的:AI支援エッセイにおける思考構造の収束性
    • 教育におけるAI利用は急速に拡大しており,学習効果への影響を理解する必要がある。
    • AI支援がエッセイの質向上に寄与する一方,学生の思考多様性への影響は未解明である。
    • AI支援エッセイにおける思考構造の均質化を検証し,その要因を特定することを試みる。
    • AI支援エッセイは全体的に質が向上する一方で,思考構造の均質化が確認された。
    • 特に,エッセイの結束構造において分散が大幅に低下し,多様性が失われた。
    • しかし,プロンプトの具体性を高めることで,均質化を逆転させ,議論の深さを多様化できることが示された。

    Link: https://arxiv.org/abs/2603.21228

  • 利便性がリスクとなる時:ホスト動作エージェントにおける意味的曖昧性のセキュリティに関する考察 [cs.CR, cs.AI]目的:ホスト動作エージェントにおける意味的曖昧性から生じるセキュリティ問題
    • ユーザーの意図とシステムの実行を一致させるホスト動作エージェントは,インターフェースの簡素化に貢献する。
    • 目標指定が曖昧な場合,エージェントが実行に必要な意味を補完する際に予期せぬリスクが生じる可能性がある。
    • 目標のみの指示から実行可能な計画への変換プロセスを制御し,セキュリティを確保する設計原則を導き出す。
    • 本研究では,意味的曖昧性に着目した脅威モデルを開発し,リスクをもたらす補完パターンの分類を行った。
    • OpenClawを用いたケーススタディと実行トレース分析により,曖昧性によるリスクの実態を明らかにした。
    • 実行境界を明確化し,リスクのある補完を抑制するための防御設計原則を提案した。

    Link: https://arxiv.org/abs/2603.21231

  • QMoP:クエリ誘導型混合射影器による効率的な視覚トークン圧縮 [cs.CV, cs.AI]目的:効率的な視覚トークン圧縮手法
    • マルチモーダル大規模言語モデルの発展において,計算資源とメモリ消費の最適化が重要である。
    • 既存の視覚トークン圧縮手法は,固定的なヒューリスティックに依存しており,多様なシナリオへの適応が課題である。
    • 視覚入力とテキストクエリに応じて動的に圧縮戦略を調整し,情報損失を最小限に抑えることを目指す。
    • 提案手法QMoPは,プーリング,リサンプリング,プルーニングの3つの分岐を組み合わせ,クエリ誘導型ルーターにより動的に調整される。
    • QMoPは,既存のベースラインと比較して,メモリ,計算量,推論時間の削減において優れた性能を示す。
    • 視覚トークン圧縮の効果を評価するためのベンチマークVTCBenchを新たに開発した。

    Link: https://arxiv.org/abs/2603.21232

  • メカニズム解釈可能性はデータモダリティ間で転移するか? 変分オートエンコーダのクロスドメイン因果回路解析 [cs.LG]目的:変分オートエンコーダにおける因果回路の一般化可能性の検証
    • 近年,機械学習の応用が広がる中で,モデルの解釈可能性が重要視されている。
    • 生成モデル,特に画像以外のデータに対する解釈可能性の研究は遅れている。
    • 画像データで得られた知見が,表形式データにも適用できるか検証する。
    • 表形式データの変分オートエンコーダは,画像データのものに比べて回路のモジュール性が約50%低い。
    • β-VAEは,異質な表形式データに対して因果効果強度が著しく低下し,再構成品質の低下と相関する。
    • 因果効果強度は,統計的に有意なアーキテクチャ間の差異を9/11で捉えることに成功した。

    Link: https://arxiv.org/abs/2603.21236

  • ConsRoute:クラウド・エッジ・デバイス大規模言語モデルに対する一貫性認識適応クエリルーティング [cs.AI]目的:クラウド・エッジ・デバイス間の大規模言語モデルにおける効率的なクエリルーティング手法
    • 大規模言語モデルの利用拡大には,推論遅延とコストが課題となり,低遅延かつリソース制約のある環境での利用が制限されている。
    • 従来のルーティング手法は,出力品質の粗い予測に依存しており,精度が低い場合がある。
    • 異なるティアのモデル間での応答の一貫性を直接評価し,動的にルーティング閾値を最適化することで,効率と品質を両立する。
    • ConsRouteは,クラウド同等の性能(95%以上)を維持しつつ,エンドツーエンドの遅延と推論コストを約40%削減することに成功した。
    • 応答の一貫性を評価するリランカーと,隠れ状態を再利用する手法により,デバイス側のオーバーヘッドを最小限に抑えている。
    • ベイジアン最適化を用いて,多様なクエリ分布下で品質,遅延,コストを動的に調整するルーティング閾値を学習している。

    Link: https://arxiv.org/abs/2603.21237

  • 欠損共変量を持つロジスティック回帰に対する償却型変分推論 [cs.IR, cs.LG, eess.SP]目的:欠損共変量を持つロジスティック回帰における推定手法
    • 統計的推論や機械学習において,欠損データは重要な課題である。特に分類タスクにおいて重要性が高い。
    • 既存手法は計算コストが高く,欠損率が高い場合に不安定になりやすい。不確実性の伝播にも限界がある。
    • 欠損データ空間で直接推論を行い,計算コストを削減し,より正確な推定を目指す。
    • 提案手法AV-LRは,最先端のEM類似アルゴリズムと同等かそれ以上の推定精度を,大幅に低い計算コストで達成する。
    • 欠損メカニズムを明示的にモデル化することで,欠損完全ランダムでない状況にも対応可能である。
    • 合成データおよび実データを用いた実験により,様々な欠損データシナリオにおいてその有効性と効率性が確認された。

    Link: https://arxiv.org/abs/2603.21244

  • 状態のグラフ:大規模言語モデルによる仮説的タスクの解決 [cs.CL, cs.IR, cs.AI]目的:大規模言語モデルを用いた仮説的推論の解決
    • 論理的推論は,AIの重要な要素であり,複雑な問題解決に不可欠である。
    • 既存のフレームワークは,仮説的推論に対応できておらず,証拠の捏造などの問題がある。
    • 状態のグラフを用いて,仮説的推論における信頼性と効率性を向上させる。
    • 本研究で提案する「状態のグラフ」は,多エージェント協調を構造化された信念状態に基盤づける汎用的なニューロシンボリックフレームワークである。
    • 因果グラフを用いて論理的依存関係を明示的にエンコードし,状態機械で推論プロセスの有効な遷移を制御することで,探索を収束的かつ指向的なものに変える。
    • 二つの現実世界のデータセットにおける評価で,GoSは全てのベースラインを大幅に上回り,複雑な仮説的タスクに対する堅牢な解決策を提供することが示された。

    Link: https://arxiv.org/abs/2603.21250

  • ライブラリ定理:外部組織化がエージェント的推論能力を支配する方法 [cs.AI, cs.CL, cs.DS, cs.LG]目的:エージェント的推論能力における外部記憶の組織化の重要性
    • 近年,大規模言語モデルを用いたエージェントの能力向上に大きな関心がある。
    • 思考過程の構造化された検索・索引は,まだ十分に探求されていない。
    • 外部記憶の索引化が推論コストを指数関数的に削減することを示す。
    • エージェントが索引付き外部記憶を持つ場合,検索コストは $O(\log_b N)$ となり,シーケンシャルスキャンによる $O(N)$ よりも大幅に低い。
    • 抽象的な内容では,索引付きエージェントはストアサイズに関わらず中央値で1ページ読み取りに成功し,$O(1)$ の予測を裏付けた。
    • 言語モデルは索引構築には有効だが,索引のトラバーサルには不向きであり,役割分担の必要性が示唆された。

    Link: https://arxiv.org/abs/2603.21272

  • データ不均衡下におけるMixture-of-Expertsを用いた連合学習のための集約アラインメント [cs.LG, cs.AI]目的:連合学習におけるMixture-of-Experts(MoE)モデルの集約戦略
    • 大規模言語モデルの性能向上と効率的な学習が求められている。
    • データプライバシー保護と分散環境での学習が課題となっている。
    • クライアント間のデータ不均衡によるモデル性能低下を解決する。
    • 提案手法FedAlign-MoEは,ルーティングの一貫性と専門家セマンティクスアラインメントを同時に強化する。
    • ルーティング分布のアラインメントと分布正則化により,クライアント間の安定性を維持しつつ,識別的なローカルな嗜好を上書きしない。
    • 実験結果から,FedAlign-MoEは最先端のベンチマークを上回り,非IID環境でより高速な収束と高い精度を達成することが示された。

    Link: https://arxiv.org/abs/2603.21276

  • 会話ツリー構造:文脈を意識したマルチブランチLLM会話のための構造化フレームワーク [cs.CL, cs.AI, cs.HC]目的:マルチブランチLLM会話における構造化された文脈管理
    • LLMは会話システムに応用が進むが,長文脈の管理が課題である。
    • 既存の会話インターフェースでは文脈が混濁し,応答品質が低下する。
    • 文脈を分離し,効果的な流れを制御する構造化フレームワークを提供する。
    • 会話ツリー構造(CTA)は,LLM会話を文脈が分離されたノードのツリーとして組織する。
    • 各ノードはローカルな文脈ウィンドウを持ち,親ノードと子ノード間で文脈の流れを制御する。
    • CTAは,マルチエージェント環境への拡張性も有する。

    Link: https://arxiv.org/abs/2603.21278

  • WARBENCH:軍事的意思決定におけるLLM評価のための包括的ベンチマーク [cs.CY, cs.AI]目的:軍事的意思決定におけるLLMの評価基準
    • 軍事領域における意思決定支援の自動化は,迅速かつ正確な判断を可能にするため重要である。
    • 既存のベンチマークは,現実的な戦術シナリオにおけるLLMの能力を過大評価する構造的な盲点が存在する。
    • 国際人道法遵守,エッジコンピューティング制約,不確実性下での堅牢性,明示的な推論能力を評価する包括的なフレームワークを提供する。
    • 現在のLLMは,複雑な地形や戦力差が大きい状況下で戦術的推論が著しく低下する傾向にある。
    • 最先端のクローズドソースモデルは機能的な適合性を維持するものの,エッジ最適化された小型モデルは,最大70%の法的違反率を示す深刻な運用リスクを抱えている。
    • 明示的な推論メカニズムは,意図しない違反を防ぐための効果的な構造的保護策となりうる。

    Link: https://arxiv.org/abs/2603.21280

  • 記憶と注意の融合:記号音楽生成のためのLSTM,Transformer,ハイブリッドアーキテクチャの研究 [cs.LG, cs.AI, cs.SD]目的:記号音楽生成におけるLSTM,Transformer,ハイブリッドアーキテクチャの比較分析
    • 音楽生成における機械学習の重要性が増しており,新たな表現手法の創出が期待されている。
    • LSTMとTransformerはそれぞれ異なる特性を持ち,音楽構造の局所性と全体性の両立が課題となっている。
    • LSTMとTransformerの長所を組み合わせることで,より高品質な音楽生成を目指す。
    • LSTMは局所的なパターンは捉えるものの,長距離の依存関係の保持に課題があることが示された。
    • Transformerは全体構造のモデリングに優れるが,フレーズが不規則になる傾向が確認された。
    • Transformer EncoderとLSTM Decoderを組み合わせたハイブリッドアーキテクチャが,局所性と全体性の両面で優れた性能を発揮した。

    Link: https://arxiv.org/abs/2603.21282

  • 中規模天気予報における計算壁の打破:Sonny [cs.LG, cs.AI, cs.CV, physics.ao-ph]目的:中規模天気予報の効率的な深層学習モデル
    • 気象予報は,人命やインフラを保護する上で不可欠な課題である。
    • 既存の深層学習モデルは,大規模な計算資源を必要とする場合が多く,研究機関の参入障壁となっている。
    • 限られた計算資源でも高性能な中規模天気予報を可能にするモデルを開発すること。
    • Sonnyは,効率的な階層型Transformerであり,中規模天気予報において高い性能を発揮する。
    • Sonnyは,大規模な計算資源を必要とせず,単一のNVIDIA A40 GPUで約5.5日で学習可能である。
    • WeatherBench2において,Sonnyは既存のモデルと同等以上の予測精度を示し,特に熱帯地域における長期予報で優位性を示す。

    Link: https://arxiv.org/abs/2603.21284

  • モデルが自己評価する:マルチモーダル推論のための教師なし自己進化 [cs.HC, cs.CY, cs.CV, cs.AI]目的:マルチモーダル推論における自己進化
    • マルチモーダル大規模言語モデルは推論能力で目覚ましい進歩を遂げている。
    • 高品質な注釈データや教師モデルからの知識蒸留に依存し,拡張性に課題がある。
    • 人間の注釈や外部報酬モデルを用いずに,推論性能を安定的に向上させること。
    • 提案手法は,入力ごとに複数の推論経路をサンプリングし,グループ内の構造を共同でモデル化する。
    • Actorの自己整合性信号を学習の事前分布として利用し,経路の品質に応じて重みを再調整する。
    • 5つの数学的推論ベンチマークにおいて,推論性能と汎化能力の一貫した改善が確認された。

    Link: https://arxiv.org/abs/2603.21289

  • DeepXplain:XAI誘導による多段階APTキャンペーンに対する自律的防御 [cs.CR, cs.AI]目的:多段階APTキャンペーンに対する自律的防御フレームワーク
    • サイバー攻撃は巧妙化・多様化しており,組織への被害が深刻化しているため,高度な防御技術が不可欠である。
    • 従来の防御システムでは,高度なAPT攻撃の検出・防御が困難であり,誤検知や対応遅延も課題となっている。
    • 説明可能なAI(XAI)を活用し,自律的な防御システムの意思決定の透明性と信頼性を向上させることを目指す。
    • DeepXplainは,段階認識と説明可能性を統合した新しいフレームワークであり,APT攻撃の各段階に適応的に防御する。
    • 実験結果から,DeepXplainはF1スコアと成功率を向上させ,説明の信頼性,忠実性,コンパクト性を改善することが示された。
    • これにより,自律的なサイバー防御の有効性と信頼性が向上し,実運用環境への応用が期待される。

    Link: https://arxiv.org/abs/2603.21296

  • 単純な足し算以上のもの:マルチモーダルヘイトスピーチ検出における意図の変化の解明 [cs.CL, cs.AI]目的:マルチモーダルヘイトスピーチ検出における意図の変化の特性評価
    • サイバー空間の安全確保において,ヘイトスピーチ対策は不可欠であり,自動検出システムの精度が重要となる。
    • 従来のシステムは,個々のモダリティの集計を超えた意味を持つマルチモーダルコンテンツの解釈に苦戦している。
    • 本研究は,明示的なスラングに頼らず,モダリティ間の相互作用によってヘイトスピーチが生成されるメカニズムを解明する。
    • 本研究で構築したH-VLIベンチマークにおいて,ARCADEは最先端のベースラインを大幅に上回り,特に暗黙的な事例において優れた性能を示した。
    • ARCADEは,裁判所の弁論プロセスを模倣することで,モデルに深い意味的手がかりを精査させ,より正確な判断を促す。
    • 既存のベンチマークにおいても競争力のある性能を維持し,マルチモーダルヘイトスピーチ検出の新たな方向性を示す。

    Link: https://arxiv.org/abs/2603.21298

  • 推論時の大規模言語モデルにおける推論精度の向上 [cs.CL, cs.AI]目的:大規模言語モデルにおける推論精度の向上
    • 大規模言語モデルは自然言語処理の発展に不可欠であり,その性能向上が求められている。
    • 大規模言語モデルは言語能力が高い一方で,多段階推論タスクにおいて信頼性に欠ける場合がある。
    • 追加学習やファインチューニングなしに,推論時の手法を用いて大規模言語モデルの推論精度を改善すること。
    • 自己整合性(核サンプリングと制御された温度値を用いる)は,貪欲なシングルパスデコーディングと比較して9%から15%の絶対的な精度向上をもたらした。
    • 二重モデルによる推論の一致は,より高い信頼性が要求される中リスクなドメインに適している。
    • 自己反省はわずかな改善しか示さず,推論時に小規模な非推論モデルに対しては効果が限定的である。

    Link: https://arxiv.org/abs/2603.21301