arXiv雑要約

AI - 2026/03/27 公開

  • マルチモーダルLLMにおける人口統計的公平性:顔認証におけるジェンダーと民族のバイアスに関するベンチマーク [cs.CV, cs.AI]目的:マルチモーダルLLMの顔認証における人口統計的公平性の評価
    • 顔認証技術はセキュリティや個人識別に不可欠だが,公平性の問題が重要視されている。
    • 既存の顔認証システムには,民族やジェンダーによるバイアスが存在することが報告されている。
    • マルチモーダルLLMにおけるバイアスパターンを明らかにし,公平性を改善する手がかりを得る。
    • 9つのオープンソースマルチモーダルLLMを評価した結果,FaceLLM-8Bが最も高い性能を示した。
    • バイアスのパターンは従来の顔認証システムとは異なり,ベンチマークやモデルによって影響を受けるグループが異なる。
    • 高い精度を持つモデルが必ずしも公平であるとは限らず,精度が低いモデルでも均一に高いエラー率を示すことで公平に見える場合がある。

    Link: https://arxiv.org/abs/2603.25613

  • ソーシャルヒポカンパスメモリ学習 [cs.LG]目的:異種エージェント間におけるメモリ共有を通じた協調学習
    • 社会学習は,知識の共有を通じて学習が促進されることを示しており,機械学習への応用が期待されている。
    • 既存の連合学習は,モデルパラメータの共有に依存し,情報漏洩やオーバーヘッドの問題を抱えている。
    • 本研究は,モデル共有ではなくメモリ共有による協調学習フレームワークを提案し,その有効性を検証する。
    • 提案手法SoHipは,エージェントの短期記憶を抽象化し,ヒポカンパスに触発されたメカニズムで長期記憶に統合する。
    • SoHipは,共有された長期記憶を利用してローカル予測を向上させ,データやローカルモデルのオンデバイス保持を実現する。
    • ベンチマークデータセットでの実験により,SoHipが既存手法を凌駕し,最大8.78%の精度向上を達成することが示された。

    Link: https://arxiv.org/abs/2603.25614

  • 効率的な非凸サンプリングの幾何学 [cs.CL, cs.DS, cs.LG, math.ST, stat.ML, stat.TH]目的:効率的な非凸サンプリング手法
    • 高次元データ解析において,確率分布からのサンプリングは重要な役割を果たす。
    • 既存手法は凸集合や星型集合に限定され,一般的な非凸集合への適用が困難であった。
    • 任意のコンパクト集合からの効率的な一様サンプリングアルゴリズムを開発すること。
    • 本研究では,等周性および自然な体積成長条件の下で,任意のコンパクト集合からの効率的な一様サンプリングアルゴリズムを提案した。
    • 提案手法は,凸集合や星型集合に対する既知の結果を大幅に一般化したものである。
    • アルゴリズムの計算量は,次元,集合のポアンカレ定数,および体積成長定数に関して多項式時間である。

    Link: https://arxiv.org/abs/2603.25622

  • 視覚的かテキストか:教育的推薦システムにおける説明形式と個人の特性が説明の認知に与える影響 [cs.RO, cs.HC, cs.AI, cs.CY]目的:教育的推薦システムにおける説明形式と個人の特性が,認知に与える影響の解明
    • 推薦システムにおいて,透明性,信頼性,ユーザー満足度は重要であり,説明はその向上に不可欠である。
    • 説明形式(視覚的 vs. テキスト的)が,ユーザーの特性によってどのように適合すべきか不明確である。
    • 様々な個人の特性を考慮し,最適な説明形式を特定することで,ユーザー体験を向上させる。
    • 適切に設計された視覚的な説明は,ユーザーの好みと推薦の関連性を明確に伝え,制御感,透明性,適切な信頼性,満足度を高める。
    • この効果は,個人の特性に依存せず,多くのユーザーに見られる。
    • 教育的推薦システムにおける効果的な説明設計のためのガイドラインを導き出した。

    Link: https://arxiv.org/abs/2603.25624

  • LanteRn:潜在的な視覚構造推論 [cs.CV, cs.LG]目的:視覚構造推論の枠組み
    • 言語推論モデルは進歩する一方,視覚推論は依然として困難な課題である。
    • 既存のLMMは,視覚情報をテキスト化し,詳細な空間・視覚理解を欠いている。
    • 潜在空間で効率的に視覚推論を行うための新たなアプローチを提案する。
    • LanteRnは,LMMが言語と潜在的な視覚表現を相互に作用させることを可能にする。
    • 視覚特徴と潜在状態を関連付ける教師あり学習と,タスクレベルの有用性と潜在的な推論を整合させる強化学習により学習する。
    • VisCoT,V*,Blinkの3つのベンチマークで,視覚的な接地と詳細な推論において一貫した改善が見られた。

    Link: https://arxiv.org/abs/2603.25629

  • 大規模言語モデルにおける数学の問題解決能力と評価性能の関連性 [cs.HC, cs.CY, cs.AI]目的:大規模言語モデルにおける数学の問題解決能力とステップレベルの評価性能との関連性
    • 数学教育において,学習支援の自動化が求められており,大規模言語モデルの活用が期待されている。
    • 大規模言語モデルによる評価性能と問題解決能力の関連性が明確でなく,信頼性の高い評価が困難である。
    • 大規模言語モデルの数学的専門知識が評価性能にどのように影響するかを明らかにすること。
    • GPT-4およびGPT-5を用いた実験の結果,正解した問題に対する評価精度は,誤答した問題よりも大幅に高かった。
    • 評価性能は問題解決能力と有意な関連性を示したが,問題解決能力よりも評価が困難であった。
    • 正確なステップ追跡やエラー特定能力が,信頼性の高いステップレベル診断には不可欠であると考えられる。

    Link: https://arxiv.org/abs/2603.25633

  • アンカー化分岐定常風況変換器 (AB-SWIFT): 都市環境における3次元大気流れのメタモデル [cs.LG, physics.ao-ph]目的:都市環境における3次元大気流れの予測
    • 汚染物質拡散や風力発電モデリングなど,局所的な風況モデリングは不可欠である。
    • 都市形状の多様性やメッシュサイズの大きさが,深層学習モデルの適応を困難にしている。
    • 都市形状の変動に対応し,大規模メッシュに対応できる高精度な予測モデルを開発する。
    • AB-SWIFTは,従来のTransformerやグラフベースのモデルと比較して,予測精度において最高の性能を達成した。
    • 都市形状をランダム化したデータベースと,不安定,中立,安定の大気成層化を組み合わせたデータセットで学習を行った。
    • 内部に分岐構造を持つTransformerモデルであり,大気流れモデリングに特化した設計となっている。

    Link: https://arxiv.org/abs/2603.25635

  • 大規模言語モデルが学術論文に与える影響:分析と推定 [cs.MA, cs.CL, cs.AI, cs.CY, cs.DL, cs.LG]目的:学術論文における大規模言語モデルの影響の分析と定量評価
    • 学術論文の質保証において,AI技術の影響理解は不可欠である。
    • 大規模言語モデルの利用増加に伴い,論文の信頼性評価が課題となっている。
    • 論文における言語パターンの変化を分析し,モデル特定と影響評価を目指す。
    • arXivの論文分析から,「beyond」「via」などの語頻度増加が確認された。
    • 既存の分類器では,複数の大規模言語モデルによる生成文の識別が困難である。
    • モデルやプロンプトの違いを考慮した線形アプローチにより,異質性と動的な利用状況が定量的に示された。

    Link: https://arxiv.org/abs/2603.25638

  • 非人間型ロボットへの心的要因の帰属を探るためのメンタリスティックなインターフェース [cs.RO, cs.AI, cs.HC]目的:非人間型ロボットに対する意図状態の帰属に関する研究プラットフォーム
    • ロボットとの共存が進む中で,人間らしい理解と相互作用が重要となる。
    • ロボットの行動に対する人間の心的要因の帰属が,受容性に影響する。
    • ロボットの説明方法が,意図の認識に与える影響を明らかにすること。
    • 行動を一定に保ちながら説明の枠組みを変えることで,意図の読み取り方を制御的に調査できる。
    • 言語と枠組みが,ロボットに対する意図の持ち方をどのように形成するかを明らかにする。
    • 本プラットフォームは,ロボティクスにおける意図の理解に関する研究を促進する。

    Link: https://arxiv.org/abs/2603.25646

  • 不確実性に基づくラベル再均衡化によるCPS安全監視 [cs.LG, cs.SE]目的:CPS安全監視のための不確実性を活用したデータセット再均衡化手法
    • CPSの安全性確保は不可欠であり,リアルタイムな監視が求められる。
    • CPS運用における異常事象は稀少であり,データ不均衡が監視性能を低下させる。
    • 不確実性を活用し,データ不均衡を解消することで安全監視の精度向上を目指す。
    • 行動不確実性と安全性の間に,中程度だが有意な相関関係が確認された。
    • 提案手法U-Balanceは,既存の最良手法と比較して14.3%高いF1スコア(0.806)を達成した。
    • U-Balanceの有効性は,ゲート付きMLPに基づく不確実性予測器とuLNRメカニズムの両方に起因することが示された。

    Link: https://arxiv.org/abs/2603.25670

  • 認知・運動発達の早期スクリーニングのための縦断的デジタル表現型解析 [cs.LG]目的:認知・運動発達の縦断的軌跡をモデル化すること
    • 早期の認知・運動発達の異常検出は,タイムリーな介入に不可欠である。
    • 従来の評価は主観的かつ静的な評価に依存しており,客観性に課題がある。
    • デジタルデータを用いた発達プロファイルの早期特定と,持続的な発達遅延の予測を目指す。
    • タブレット操作データから3つの発達プロファイル(低,中,高)を特定した。
    • 低パフォーマンス群は高い安定性を示し,早期の遅延が持続する傾向が確認された。
    • 本研究は,タッチスクリーンデータを用いた教師なし学習による発達経路の解明の有効性を示した。

    Link: https://arxiv.org/abs/2603.25673

  • 重要なものを測定するのか,それとも都合の良いものを?LLMベースの採点システムの構成無関係要素に対する頑健性 [cs.CL, cs.AI, cs.CY]目的:LLMベースの自動採点システムにおける構成無関係要素の影響評価
    • 教育評価において自動採点システムの利用が拡大しており,質の高い評価が求められている。
    • 既存の自動採点システムは,評価対象とは無関係な要素に影響を受けやすいことが課題となっていた。
    • 本研究は,LLMベースの自動採点システムの頑健性を検証し,信頼性の高い評価手法を確立することを目指す。
    • LLMベースの採点システムは,無意味なテキストの追加,スペルミス,文章の洗練度に対して概ね頑健であることが示された。
    • 大量のテキストの重複は,従来の採点システムとは異なり,スコアの低下をもたらすことが確認された。
    • 主題から逸脱した回答は,採点システムによって大幅に減点されることが明らかになった。

    Link: https://arxiv.org/abs/2603.25674

  • ズームインのみ:自己回帰的ズーミングによるクロスビュー地理位置特定 [cs.CV, cs.AI]目的:クロスビュー地理位置特定における自己回帰的ズーミングによる位置推定
    • GPSが利用できない環境下での位置特定とナビゲーションの実現に不可欠な技術である。
    • 既存手法は大規模なバッチ処理とハードネガティブマイニングに依存し,地図の幾何学的構造を無視している。
    • ストリートビュー画像からオーバーヘッド画像へのカバレッジミスマッチを解消し,空間推論を明示的に行う。
    • 提案手法「Just Zoom In」は,市規模のオーバーヘッド地図上で自己回帰的にズームインすることで位置を特定する。
    • 従来のコントラスト学習を用いた画像検索手法と比較して,Recall@1(50m以内)が5.5%,Recall@1(100m以内)が9.6%向上した。
    • 粗視点から徐々に詳細な視点へと空間推論を行うことで,クロスビュー地理位置特定における有効性が示された。

    Link: https://arxiv.org/abs/2603.25686

  • 継続学習による気象エミュレーションのためのニューラルスケーリング則 [cs.LG]目的:気象予測モデルにおけるニューラルスケーリング則の検証
    • 近年の機械学習の発展は,自然言語処理や画像認識分野に大きな進歩をもたらした。
    • 科学計算分野におけるニューラルスケーリング則の適用は,まだ十分に進んでいない。
    • 効率的な計算資源の配分と予測性能の限界を把握するためのスケーリング則の解明。
    • 継続学習と単純なSwin Transformerアーキテクチャを用いることで,予測可能なスケーリング傾向が確認された。
    • 標準的なコサイン学習率スケジュールよりも優れた性能を発揮し,予測精度が向上した。
    • IsoFLOP曲線を用いた分析により,計算資源に最適化された学習方法と性能限界が示唆された。

    Link: https://arxiv.org/abs/2603.25687

  • 確率的信頼性AIのための統一的なメモリ視点 [cs.LG, cs.AI, cs.AR, cs.ET]目的:確率的信頼性AIにおけるメモリシステムの評価基準
    • AIの信頼性向上の鍵は確率的計算であり,その性能はメモリシステムに大きく依存する。
    • 従来のメモリシステムは,確率的計算の要求に対応できず,性能ボトルネックとなっている。
    • メモリレベルでの評価基準を定義し,確率的AI向けのハードウェア開発の方向性を示す。
    • 本研究では,決定的なデータアクセスを確率的サンプリングの限定的なケースとして捉える統一的な視点を提示した。
    • 確率的需要の増加がデータアクセス効率を低下させ,システムをエントロピー制限された動作に導くことが明らかになった。
    • メモリ内計算を含む新しいアーキテクチャが,信頼性AI向けの拡張性のあるハードウェア実現への道筋を示す。

    Link: https://arxiv.org/abs/2603.25692

  • キッチンループ:自己進化型コードベースのためのユーザー仕様駆動開発 [cs.CY, cs.SE, cs.AI]目的:自己進化型ソフトウェアを構築するためのフレームワーク
    • ソフトウェア開発において,コードの生成は容易になったが,何を構築すべきか,そしてそれが機能するかを証明することが課題となっている。
    • 従来のテスト手法では,大規模かつ継続的なソフトウェア進化に伴う潜在的な問題を捉えきれない場合がある。
    • 本研究は,信頼性の高い自動進化を実現するシステムを構築し,長期的な運用における安全性を確保することを目的とする。
    • キッチンループを2つの実運用システムで285回以上の反復検証した結果,1,094件以上のプルリクエストがマージされた。
    • 回帰テストオラクルによる回帰は検出されず,自動化された品質ゲートによる継続的な品質測定が確認された。
    • 複数回の反復による自己修正チェーン,自律的なインフラストラクチャ修復,単調な品質向上などの創発的特性が観察された。

    Link: https://arxiv.org/abs/2603.25697

  • 機械学習パイプラインのニューラルネットワークへの変換 [cs.LG, cs.AI]目的:機械学習パイプラインを教師とし,ニューラルネットワークを生徒とする転移学習
    • 深層学習の発展により,様々なタスクにおいて高い性能が期待される一方,計算コストが課題となる。
    • 既存の機械学習パイプラインは,最適化が困難であり,統一的な推論エンジンが求められている。
    • ニューラルネットワークへの変換により,パイプライン全体の最適化と推論の一元化を目指す。
    • ランダムフォレストを教師とした場合,適切なニューラルネットワークのハイパーパラメータを選択することで,生徒ネットワークは教師の性能を模倣できることが示された。
    • OpenMLの100のタスクにおいて実験を行った結果,大部分のタスクでニューラルネットワークがランダムフォレストの性能に匹敵した。
    • ランダムフォレストをハイパーパラメータ選択に活用することで,ニューラルネットワークの性能向上に繋がる可能性が示唆された。

    Link: https://arxiv.org/abs/2603.25699

  • 視界から消れても記憶に残る:動的ビデオ世界モデルのためのハイブリッドメモリ [cs.CV, cs.AI]目的:動的ビデオ世界モデルにおけるハイブリッドメモリの実現
    • 物理世界をシミュレーションするビデオ世界モデルは,ロボティクスやコンピュータビジョンの発展に不可欠である。
    • 従来のメモリ機構では,動的な物体が視界から消えた後の追跡や再現が難しく,不自然な動きや消失を引き起こす。
    • 静的な背景と動的な物体を別々に管理し,視界外での動きを継続的に予測することで,この問題を解決する。
    • 本研究では,静的な背景の正確な記録と動的な物体の追跡を同時に行うハイブリッドメモリという新しいパラダイムを提案する。
    • 大規模なビデオデータセットHM-Worldを構築し,ハイブリッドメモリの評価を可能にした。
    • 提案手法HyDRAは,隠れた物体の識別と運動を効果的に保持し,既存手法を大きく上回る性能を示した。

    Link: https://arxiv.org/abs/2603.25716

  • ハイレベル合成のためのエージェントファクトリ:汎用コーディングエージェントはハードウェア最適化においてどこまでできるか [cs.AI, cs.AR, cs.LG]目的:ハードウェア最適化における汎用コーディングエージェントの能力評価
    • 高性能なハードウェア設計は,現代の計算システムにおいて不可欠であり,その自動化が求められている。
    • 従来のハードウェア最適化手法は,専門知識を必要とし,設計空間の探索が困難であるという課題がある。
    • 本研究は,汎用的なコーディングエージェントを用いて,ハードウェア最適化を自動化し,その可能性を探ることを目指す。
    • エージェントファクトリは,複数の自律的な最適化エージェントを連携させることで,ハードウェア設計の最適化を実現した。
    • 1~10個のエージェントをスケールさせた結果,ベースラインと比較して平均8.27倍の高速化を達成し,特にstreamclusterでは20倍以上の高速化が見られた。
    • エージェントは,ドメイン固有の学習なしに,既知のハードウェア最適化パターンを再現し,ILPの上位候補から最適解が得られない場合もあることが示された。

    Link: https://arxiv.org/abs/2603.25719

  • R-C2:サイクル整合性による強化学習がマルチモーダル推論を改善する [cs.AI, cs.CV]目的:マルチモーダル推論の改善
    • 堅牢な知覚と推論には,感覚モダリティ間の整合性が不可欠である。
    • 既存のマルチモーダルモデルは,同じ概念に対する視覚的・テキスト表現で矛盾した予測をすることがある。
    • クロスモーダル不整合を活用し,モデル内部の表現を整合させることを目指す。
    • RC2は,クロスモーダルサイクル整合性を強制する強化学習フレームワークである。
    • この循環的制約は,モデルが内部表現を自律的に整合させることを促す。
    • その結果,モダリティ固有のエラーが軽減され,推論精度が最大7.6ポイント向上した。

    Link: https://arxiv.org/abs/2603.25720

  • 負のサンプル不要:概念中心学習がコントラスト学習モデルの合成能力とゼロショット能力を両立する [cs.CV, cs.LG]目的:視覚と言語間のコントラスト学習モデルにおける合成能力の向上
    • 視覚と言語の理解を統合するモデルは,画像検索やキャプション生成など多様な応用で不可欠である。
    • 従来のモデルは,合成的な表現学習に苦戦し,複雑な関係性を捉えられない場合がある。
    • 本研究は,負のサンプルに頼らずに,概念中心学習によって合成能力を向上させることを目指す。
    • 概念中心の短いキャプションとクロスモーダルアテンションプーリングを導入することで,合成能力のベンチマークで最高水準の性能を達成した。
    • ゼロショット性能や検索能力といった基本的な機能を損なうことなく,合成能力が向上した。
    • 推論コストを増加させることなく,高い性能を両立することに成功した。

    Link: https://arxiv.org/abs/2603.25722

  • 自然言語エージェントの活用 [cs.CL, cs.AI]目的:エージェントの活用手法
    • AIエージェントの性能向上には,環境とのインタラクション設計が不可欠である。
    • 現在の環境設計はコードに埋め込まれており,再利用や比較が困難である。
    • 自然言語による記述により,環境設計の移植性と研究を容易にすること。
    • 自然言語エージェントの活用(NLAH)と知能的活用実行環境(IHR)を提案した。
    • NLAHは,環境の振る舞いを編集可能な自然言語で表現する。
    • コーディングやPC利用のベンチマークで,運用可能性やモジュール削減効果を確認した。

    Link: https://arxiv.org/abs/2603.25723

  • 基礎に戻る:音声エージェント時代における自動音声認識の再検討 [cs.AI, cs.MM]目的:自動音声認識システムの信頼性向上
    • 音声エージェントの普及に伴い,高精度な音声認識技術が不可欠となっている。
    • 既存の評価指標では捉えきれない実環境下での音声認識性能の低下が課題である。
    • 実環境下での性能低下要因を特定し,改善策を提示することを目的とする。
    • 既存の音声認識システムは,環境ノイズ,話者属性,言語的多様性において著しい性能低下を示すことが判明した。
    • モデルの頑健性は言語や条件によって異なり,汎用性に欠けることが示された。
    • 音声入力が不完全または劣化した場合,モデルが実際には発言されていない内容を生成するリスクが確認された。

    Link: https://arxiv.org/abs/2603.25727

  • PixelSmile: 微細な表情編集に向けて [cs.CV, cs.AI]目的:微細な表情編集の実現
    • 表情はコミュニケーションにおいて重要な役割を担うため,その制御は様々な応用分野で求められている。
    • 既存手法では,表情間の意味的重複が大きく,微細な表情編集が困難であった。
    • 表情の意味的曖昧さを解消し,より正確かつ制御可能な表情編集手法を開発すること。
    • PixelSmileは,拡散モデルを用いて表情の意味を分離し,高精度な表情編集を可能にする。
    • FFEデータセットとFFE-Benchを用いて,構造的混乱,編集精度,線形制御性,および個人特徴の保持に関する評価を行った。
    • 実験の結果,PixelSmileは既存手法よりも優れた表情分離能力と個人特徴の保持効果を示すことが確認された。

    Link: https://arxiv.org/abs/2603.25728

  • PackForcing:短編ビデオ学習で長編ビデオサンプリングと長文脈推論を実現 [cs.CV, cs.AI]目的:長編ビデオ生成における効率的な文脈管理手法
    • ビデオ生成モデルの発展は目覚ましいが,長編ビデオ生成には課題が多い。
    • 従来のモデルは,KVキャッシュの増大,時間的な反復,誤差の蓄積に悩まされている。
    • 本研究は,文脈圧縮によるメモリ効率の改善と,長編ビデオ生成の実現を目指す。
    • PackForcingは,3種類のトークン分割戦略を用いて,生成履歴を効率的に管理する。
    • これにより,単一のH200 GPUで2分間のビデオ生成が可能となり,KVキャッシュを4GBに抑制。
    • VBenchにおいて,時間的一貫性,動的度合において最先端の結果を示し,短編ビデオによる学習で高品質な長編ビデオ合成が可能となることを証明。

    Link: https://arxiv.org/abs/2603.25730

  • エビデンス蒸留と書き戻し強化による知識ベースの訓練 [cs.AI, cs.CL, cs.IR]目的:検索拡張生成における知識ベースの訓練方法
    • 大規模言語モデルの性能は,知識ベースの質に大きく依存する
    • 既存の知識ベースは静的であり,クエリに必要な情報が分散しがちである
    • 知識ベースを訓練可能なコンポーネントとし,改善を目指す
    • WriteBack-RAGは,ラベル付きサンプルを用いて関連文書を抽出し,コンパクトな知識単位に蒸留する
    • 4つのRAG手法,6つのベンチマーク,2つのLLMにおいて,平均+2.14%の性能向上を確認
    • 蒸留された知識は,訓練に使用したRAGパイプライン以外にも利益をもたらす

    Link: https://arxiv.org/abs/2603.25737

  • 私の道を運転する:パーソナライズされた運転のための視覚-言語-行動モデルの嗜好合わせ [cs.RO, cs.AI, cs.CV, cs.LG, cs.MA]目的:パーソナライズされた運転のための視覚-言語-行動モデルの嗜好合わせ
    • 自動運転技術の発展において,安全性向上に加え,人間らしい運転体験の提供が重要となっている。
    • 既存の自動運転システムは,汎用的な目標に最適化するか,固定された運転モードに依存しており,個人の嗜好に対応できていない。
    • 本研究は,運転者の長期的な習慣とリアルタイムの指示を考慮し,個々の運転スタイルに適応する自動運転システムを開発する。
    • 提案手法DMWは,運転者ごとの埋め込み表現を学習し,計画時にこれを条件として活用することで,運転スタイルを模倣する。
    • Bench2Driveベンチマークでの評価により,DMWがスタイル指示への適応性を向上させることが示された。
    • ユーザー調査では,生成された運転行動が各運転者のスタイルとして認識可能であることが示され,パーソナライズの有効性が確認された。

    Link: https://arxiv.org/abs/2603.25740

  • 自然言語指示による運転学習:Vega [cs.CV, cs.AI, cs.RO]目的:自然言語指示に基づいた運転生成および計画
    • 自動運転の高度化には,周囲状況の理解に加え,多様な指示への対応が不可欠である。
    • 既存のシステムは,指示をシーン記述や推論に限定し,個別の運転ニーズへの柔軟な対応が課題である。
    • 多様な運転指示に対応し,より知能的でパーソナライズされた運転システムの実現を目指す。
    • 大規模な運転データセットInstructSceneを構築し,多様な運転指示とそれに対応する軌跡を収集した。
    • 視覚情報と自然言語指示を処理するVegaモデルを提案し,拡散モデルを用いて未来予測と軌跡生成を実現した。
    • 実験により,提案手法が優れた計画性能と指示追従能力を示すことを確認し,高度な自動運転への道を開く。

    Link: https://arxiv.org/abs/2603.25741

  • 生成型AIチャットボットの歴史:過去,現在,そして将来の発展 [cs.GL, cs.AI, cs.CL, cs.HC]目的:チャットボット技術の発展の経緯
    • 会話型AIは,人間と機械のコミュニケーションに変革をもたらす可能性があり,社会への影響が大きい。
    • 初期のチャットボットは機能が限定的であり,自然な会話能力に課題があった。
    • チャットボットの歴史的変遷を明らかにすることで,今後の開発方向性を示す。
    • 本研究は,ルールベースの初期システムから,AIを活用した高度なチャットボットに至るまでの技術的進歩を包括的にレビューした。
    • チューリングテストやCALOなどの重要なマイルストーン,そしてTransformerベースのモデルの導入が,チャットボットの進化を牽引してきたことが明らかになった。
    • 自然言語処理と機械学習の統合により,現代のチャットボットはより洗練された能力を獲得していることが示された。

    Link: https://arxiv.org/abs/2402.05122

  • 悪意のあるLLMベースの会話型AIがユーザーの個人情報を漏洩させる [cs.CY, cs.ET, cs.HC, cs.NI, cs.SI, cs.CY, cs.AI, cs.CR, cs.HC]目的:ユーザーからの個人情報抽出
    • LLMベースの会話型AI利用拡大に伴い,プライバシー保護の重要性が高まっている。
    • LLMの悪用による個人情報漏洩リスクが懸念されているが,悪意あるAIの設計は未解明である。
    • 会話を通じて個人情報を巧みに聞き出す悪意あるAIの危険性を明らかにする。
    • 悪意のあるAIは,良質なAIと比較して有意に多くの個人情報を抽出することが確認された。
    • 特に,プライバシーの社会的な側面を利用した戦略が,リスクの認識を最小限に抑えつつ,効果的であった。
    • 本研究は,新たなタイプの悪意あるAIによるプライバシー侵害の脅威を強調し,今後の対策に貢献する。

    Link: https://arxiv.org/abs/2506.11680

  • 創発的厳密検証:自律型AIエコシステムが6つの領域でSMTベースの安全性独自発見 [cond-mat.dis-nn, cond-mat.stat-mech, cs.ET, math.DS, physics.data-an, cs.SE, cs.AI, cs.MA]目的:自律型AIエコシステムにおけるSMTベースの安全性発見
    • AIの安全性確保は,社会実装において不可欠であり,その重要性は増している。
    • 従来の安全性検証は,人為的な設計に依存しており,複雑化するAIシステムへの対応が困難である。
    • 本研究は,AIシステムが自律的に安全性検証手法を発見し,適用できる可能性を示す。
    • 自律型AIエコシステムが,異なる6つの領域において,Z3 SMTソルバーの使用を独立して提案した。
    • 提案された手法は,181件のテストケースにおいて100%の分類精度を達成し,誤検出はなかった。
    • 実用的なテストでは検出されないバグ(INT_MINオーバーフロー等)を発見し,安全性検証の有用性を示した。

    Link: https://arxiv.org/abs/2603.21149

  • X-OPD:音声LLMにおける能力整合のためのクロスモーダルオンポリシー蒸留 [eess.AS, cs.AI, cs.CL]目的:音声LLMとテキストLLMの能力整合
    • 近年のLLM活用において,音声処理の重要性が増している。
    • エンドツーエンド型音声LLMは,テキストLLMに比べて性能が劣る場合がある。
    • クロスモーダル蒸留により,音声LLMの能力をテキストLLMに近づける。
    • X-OPDは,音声LLMが自身の出力を評価させ,テキストLLMからのフィードバックを得ることで能力を向上させる。
    • 複数のベンチマークにおいて,X-OPDが複雑なタスクにおいて性能差を縮小することを示した。
    • X-OPDは,モデル本来の能力を維持しつつ,性能向上を実現している。

    Link: https://arxiv.org/abs/2603.24596

  • 応答を考慮したリスク制約付き制御バリア関数:車両への応用 [math.OC, cs.LG, cs.SY, eess.SY]目的:車両の動的安全性境界制御のための,応答を考慮したリスク制約付き制御バリア関数に基づく統一制御フレームワーク
    • 自動運転技術の安全性確保は,社会実装における重要な課題である。車両の安全性を数学的に保証する手法が求められている。
    • 車両モデルのパラメータ誤差や路面状況の変化により,安全性の保証が困難となる場合がある。特に,路面μの正確な推定は難しい。
    • パラメータ誤差の影響を受けにくく,ロバストな安全性確保を実現する制御フレームワークを構築すること。
    • 本研究では,応答と統計的分析を活用することで,路面μのオンライン推定に依存しない安全制御を可能とした。
    • CVaR理論とベイズオンライン学習を用いることで,安全マージンを適応的に調整し,安全性と追従性能の両立を図った。
    • シミュレーション結果は,本手法が従来の制御手法と比較して,安全性と性能の両面で改善効果を持つことを示している。安全違反確率は理論上2%以下に抑えられた。

    Link: https://arxiv.org/abs/2603.24598

  • 学習可能なSIMパラダイム:基礎,学習技術,および応用 [eess.SP, cs.AI]目的:学習可能なSIMアーキテクチャと,第6世代(6G)以降のシステムに向けたSIMベースの機械学習パラダイム
    • 無線通信分野において,電磁波を用いた効率的な信号処理が求められている
    • 既存の無線システムは,複雑で消費電力が多いという課題を抱えている
    • 軽量かつ高効率な無線インフラストラクチャの実現を目指す
    • 積層型インテリジェントメタサーフェス(SIM)と人工ニューラルネットワーク(ANN)の構造的類似性を明らかにした。
    • SIMを活用したマルチユーザ信号分離および妨害信号識別スキームを開発した。
    • 提案するSIMシステムは,スペクトル利用効率と耐妨害性を大幅に向上させることが示された。

    Link: https://arxiv.org/abs/2603.24599

  • FED-HARGPT:Transformer 기반 アーキテクチャを用いた人間コンテキスト認識のためのハイブリッド集中型・連合学習アプローチ [math.OC, cs.SY, eess.SY, eess.SP, cs.AI, cs.LG]目的:人間活動認識における精度とロバスト性の向上
    • スマートフォン等の普及により,個人の活動データが蓄積され,健康管理への活用が期待されている。
    • プライバシー保護とモデル性能の両立が課題であり,分散データ環境での学習手法が求められている。
    • 集中学習と連合学習を組み合わせ,プライバシーを保護しつつ高精度なモデル構築を目指す。
    • 提案手法は,非IIDデータ環境下において,集中学習モデルと同等の性能を達成した。
    • 連合学習を用いることで,データプライバシーを保護しつつ,人間活動認識の精度向上が確認された。
    • 本研究は,プライバシーと性能のバランスを取りながら,実用的な人間活動認識システムの実現可能性を示唆する。

    Link: https://arxiv.org/abs/2603.24601

  • MuViS:マルチモーダル仮想センシングベンチマーク [eess.SP, cs.AI]目的:マルチモーダル仮想センシングのベンチマーク
    • 物理システムの知覚と制御において,計測困難な量の推定は不可欠である。
    • 研究は分野ごとに孤立しており,汎用的な手法が確立されていない。
    • プロセス,モダリティ,センシング構成に依存しない汎用的な手法を確立する。
    • MuViSは,多様なデータセットを統合した,標準化された前処理と評価が可能なベンチマークスイートである。
    • 勾配ブースト決定木や深層ニューラルネットワークを含む既存手法を比較検証した結果,普遍的な優位性を示すものはなかった。
    • MuViSは,再現性のある比較と新しいデータセットやモデルの統合を可能にするオープンソースの拡張可能なプラットフォームとして公開されている。

    Link: https://arxiv.org/abs/2603.24602

  • 動的機能的結合からの融合学習:fMRI信号の振幅と位相を組み合わせ,脳疾患を特定する [q-bio.NC, cs.AI]目的:脳疾患の検出精度向上
    • 脳科学研究において,静止状態fMRIから得られる動的機能的結合は重要な役割を担う。
    • 既存手法はfMRI信号の振幅情報のみに依存しており,位相情報の活用が不十分である。
    • 振幅と位相の両方の情報を統合し,より高精度な脳疾患検出を目指す。
    • 提案手法MSFLは,自閉スペクトラム症および大うつ病のデータセットにおいて,既存モデルを上回る分類性能を示した。
    • MSFLは,振幅相関(SWC)と位相同期(PS)の両方のdFC特徴を活用することで,脳疾患の検出を効果的に行う。
    • SHAP分析により,SWCとPSの双方のdFC特徴が脳疾患検出に貢献していることが示された。

    Link: https://arxiv.org/abs/2603.24603

  • シングルセルRNA配列決定データに対するインピーチメント手法の広範な比較分析 [q-bio.GN, cs.LG, stat.ML]目的:シングルセルRNA配列決定データのインピーチメント手法の比較評価
    • シングルセルRNA配列決定は,遺伝子発現の個別細胞レベルでの解析を可能にする重要な技術である。
    • 技術的な限界によりドロップアウトが発生し,データに欠損が生じるため,解析結果にバイアスが生じる可能性がある。
    • 様々なインピーチメント手法が存在するが,最適な手法の選択が困難であるという課題を解決すること。
    • 従来の統計モデルに基づくインピーチメント手法が,深層学習に基づく手法よりも一般的に良好な性能を示すことが示された。
    • 数値的な遺伝子発現量の回復性能と,下流解析における生物学的解釈可能性は必ずしも一致しないことが明らかになった。
    • インピーチメント手法の性能は,データセット,実験プロトコル,下流解析タスクによって大きく変動し,単一の手法が常に優位性を示すわけではない。

    Link: https://arxiv.org/abs/2603.24626

  • スペクトル法:機械学習に不可欠か,量子コンピュータに自然か? [quant-ph, cs.LG, stat.ML]目的:機械学習モデルのフーリエスペクトルを学習,正則化,操作するスペクトル法の量子コンピュータへの応用可能性
    • 機械学習の成功にスペクトルバイアスが重要であるという仮説が近年提唱されており,その理論的基盤を深める必要がある。
    • 古典モデルでは,フーリエスペクトル操作は計算コストが高く,効率的な手法が求められている。
    • 量子コンピュータを活用し,モデルのスペクトル特性をより直接的かつ効率的に設計する方法を模索する。
    • 量子状態による生成モデル表現において,量子フーリエ変換を用いてフーリエスペクトルを操作することで,古典モデルでは困難な操作が実現可能となる。
    • スペクトル法は,深層学習の成功の根底にある原理,サポートベクターマシン,畳み込みニューラルネットワークなど,機械学習の様々な分野で基礎的な役割を果たしている。
    • 量子計算が,モデルのスペクトル特性を設計するための,より効率的なアプローチを提供する可能性が示唆されている。

    Link: https://arxiv.org/abs/2603.24654

  • 一般化されたリスク制御によるコンフォーマル選択的予測 [stat.ME, cs.LG, stat.AP, stat.ML]目的:モデル信頼度に基づく予測の抑制判断
    • AIの信頼性を高めるため,予測の不確実性への対処が重要である。
    • モデルが信頼できる場合でも,厳密なエラー制御が困難である。
    • 任意のリスクに対して,厳密なエラー制御を可能にするフレームワークを提案する。
    • 提案手法SCoREは,未知のリスク期待値を1以下に抑えるe値を構築する。
    • 仮説検定と組み合わせることで,有限サンプルでのエラー制御を実現する。
    • シミュレーションや実応用を通じて,本手法の有効性を実証した。

    Link: https://arxiv.org/abs/2603.24704

  • 共変ニューラルネットワークによる相関離散選択モデルの償却推論 [stat.ME, cs.LG, econ.EM]目的:相関離散選択モデルにおける選択確率の近似
    • 意思決定の理解と予測において不可欠であり,経営,経済,マーケティング等の分野で活用。
    • 既存モデルは確率的効用関数に制限があり,現実的な選択行動や代替パターンを捉えきれない。
    • より柔軟な誤差分布を扱い,正確かつ高速な選択確率の推定を実現する。
    • 提案手法は,選択モデルの不変性を尊重する特殊なニューラルネットワーク構造と学習手順を用いる。
    • シミュレーションの結果,GHKシミュレータと比較して,精度と速度の大幅な向上が確認された。
    • 学習されたエミュレータは,高速な尤度評価と勾配計算を可能にし,最尤推定量の漸近正規性が保証される。

    Link: https://arxiv.org/abs/2603.24705

  • T-PaiNNの自動調整:古典から量子への転移学習によるデータ効率的なGNN原子間ポテンシャル開発 [physics.chem-ph, cs.LG]目的:GNNベースの原子間ポテンシャル開発におけるデータ効率の向上
    • 分子シミュレーションにおいて,精度と計算コストの両立が重要課題となっている。
    • GNN-MLIPの学習には大量の量子力学計算データが必要であり,計算コストが課題となる。
    • 古典力場データを活用することで,量子力学計算データの必要量を減らし,効率的な学習を目指す。
    • T-PaiNNは,古典力場データで事前学習することで,少ない量子力学データでも高い精度を実現した。
    • QM9データセットでは,低データ領域において最大25倍の誤差低減が確認された。
    • 液体水シミュレーションでは,エネルギー,力,密度,拡散などの予測精度が向上した。

    Link: https://arxiv.org/abs/2603.24752

  • 二進拡張群交差ネットワーク [math.ST, cs.LG, stat.ML, stat.TH]目的:多変量二値データおよびビット符号化多項分布に対する条件独立性の表現
    • 現代統計学において条件独立性は重要だが,特殊なパラメトリック族以外では厳密な共分散特性を得ることは困難である。
    • 既存の手法では,非ガウス分布における条件独立性の効率的な表現が不足している。
    • 二値データとビット表現を用いた多項分布に対し,条件独立性の解析を可能とする新しいグラフモデルを提案する。
    • 二進拡張群交差ネットワーク(BEGIN)は,条件独立性を線形表現,ブロック分解,ブロック対角性という形で特徴づける。
    • BEGINは,二値相互作用群の交差によって定義されるグラフであり,ガウスグラフモデルの一般化と見なせる。
    • ハダマールプリズムを用いることで,相互作用共分散と群構造との関連性が明らかになった。

    Link: https://arxiv.org/abs/2603.24763

  • AI時代における数学の未来を形作る [math.PR, cs.CC, quant-ph, cs.ET, hep-lat, hep-ph, hep-th, math.HO, cs.AI]目的:AI時代における数学の未来の形成
    • 数学は科学技術の基盤であり,その発展は社会全体の進歩に不可欠である。
    • AI技術の急速な進歩が数学の価値観,実践,教育に大きな影響を与えつつある。
    • AI時代における数学コミュニティの自律性と倫理的原則の確立を目指す。
    • AIの変革に対応するため,数学の実践,教育,技術,倫理に関する提言を行った。
    • 知的自律性の保護,カリキュラムの拡充,学術インフラの構築が重要であると指摘した。
    • 数学コミュニティ自身が数学の未来を形作る必要性が強調された。

    Link: https://arxiv.org/abs/2603.24914

  • ニューラル演算子による対象特化型低磁場MRI合成 [eess.IV, cs.AI]目的:低磁場MRIと高磁場MRIの画像劣化モデリング
    • 低磁場MRIは低コストでアクセスしやすいが,画質が課題となる。
    • 既存のシミュレーターはコントラスト劣化を捉えきれていない。
    • 高磁場から低磁場への画像劣化を直接学習するフレームワークの構築。
    • 提案手法H2LOは,既存のノイズ合成モデルや画像変換モデルより高精度な低磁場MRI画像を生成する。
    • T1強調画像およびT2強調画像において,H2LOはより忠実なシミュレーション結果を示す。
    • 低磁場MRI画像の画質改善タスクにおいて,H2LOは性能向上に貢献し,診断能力向上への可能性を示唆する。

    Link: https://arxiv.org/abs/2603.24968

  • 制約のある資源に対する情報の価値 [math.OC, cs.LG, stat.ML]目的:需要予測の不確実性が動的価格設定に与える影響の評価
    • 航空券やホテルなど,消費期限のある資源の価格設定は重要であり,需要予測の精度が収益に直結する。
    • 需要予測の質は様々であり,不正確な予測に基づく価格設定は,将来の需要を満たす在庫を減少させるリスクがある。
    • 予測の不確実性が価格設定決定にどのように影響するかを定量的に評価し,最適な価格設定戦略を提案する。
    • 確実な需要予測は,価格設定の最適なパフォーマンスを向上させ,後悔の度合いを低減できることが示された。
    • バイアスのある代替モデルの使用は,価格設定の学習分散を低減させ,より安定した価格設定を可能にすることが確認された。
    • 実験結果は,理論的に導出された閾値と代替モデルによる分散削減効果を裏付けており,実用性を示唆する。

    Link: https://arxiv.org/abs/2603.24974

  • 新規スケーラビリティ係数による不良ベンチマーク問題の効率的な検出 [stat.AP, cs.AI]目的:不良ベンチマーク問題の検出方法
    • 大規模なAIベンチマークの信頼性は個々の問題の質に依存するが,十分な心理測定的検証は難しい。
    • 現代の評価ツールには多数の問題が含まれており,質の低い問題が混入しやすい。
    • 問題間の単調な回帰に基づき,不良問題を効率的に検出する手法を開発する。
    • 提案手法は,問題間の分散を最大化し,相関方向を維持することで,不良問題を高い精度で識別する。
    • AIベンチマークと人間の評価データにおいて,既存手法を上回るAUCを達成した。
    • 本手法は,小規模サンプル/大規模変数条件下でも堅牢であり,様々な問題タイプに対応可能である。

    Link: https://arxiv.org/abs/2603.24999

  • ネステロフ加速勾配法による無限深さベイズニューラルネットワークの改善 [stat.ML, cs.LG]目的:無限深さベイズニューラルネットワークの効率的な学習手法
    • 深層学習モデルの不確実性推定やロバスト性の向上に不可欠なベイズニューラルネットワークの研究。
    • 確率微分方程式に基づくベイズニューラルネットワークは計算コストが高く,収束が不安定になりがち。
    • ネステロフ加速勾配法を導入し,計算コストを削減し,収束性を高めることを目指す。
    • 提案手法は,ネステロフ加速勾配法と残差スキップ接続を組み合わせることで,学習およびテスト時の関数評価回数を大幅に削減する。
    • 画像分類や系列モデリングなどの様々なタスクにおいて,既存の確率微分方程式ベースのベイズニューラルネットワークと比較して,高い予測精度と低い関数評価回数を示す。
    • 本研究は,無限深さベイズニューラルネットワークの実用的な適用を促進する可能性を示す。

    Link: https://arxiv.org/abs/2603.25024

  • メモリを持つ量子過程に対する強化学習 [quant-ph, cs.AI, cs.LG]目的:量子系の強化学習における最適制御戦略の開発
    • 量子技術の発展は,古典的な計算機では困難な問題を解決する可能性を秘めている。
    • 量子系の状態は観測が困難であり,その制御は古典的な強化学習よりも難しい。
    • 未知の量子ダイナミクスを持つ量子メモリを持つ環境における最適制御問題の解決
    • 提案手法は,累積リグレットがエピソード数Kに対して$\widetilde{\mathcal{O}}(\sqrt{K})$としてスケーリングすることを示した。
    • このスケーリングは,多腕量子バンディット問題への帰着により,情報理論的な下限によって最適であることが示された。
    • 状態に依存しない仕事抽出の応用において,提案手法は累積散逸を亜線形に抑制し,漸近的にゼロの散逸率を達成する。

    Link: https://arxiv.org/abs/2603.25138

  • 局所的な人口統計的パリティ制約下での公平な回帰 [quant-ph, cs.DM, stat.ML, cs.LG]目的:回帰における公平性の確保
    • 機械学習モデルの公平性は,社会的な影響を考慮する上で重要である。
    • 従来の人口統計的パリティは回帰タスクにおいて過度に制約が強く,精度低下を招く場合がある。
    • 特定の分位点や閾値におけるパリティ制約によって,公平性と精度のバランスを取ることを目指す。
    • 提案手法(${\ell}$, Z)-fair predictorは,分位点におけるグループ間の分布の制約を課すことで公平性を実現する。
    • この手法では,ラグランジュ双対法を用いて最適な離散化予測子を導出し,離散化によるリスクギャップが縮小することを示す。
    • 実験結果は,決定に重要な分位点や閾値において,公平性と精度のトレードオフを調整できることを示している。

    Link: https://arxiv.org/abs/2603.25224