arXiv雑要約

AI - 2026/03/16 公開

  • ピラミッドMoA:コスト最適化されたAnytime推論のための確率的フレームワーク [cs.RO, cs.CL, cs.AI, cs.LG]目的:費用対効果と推論能力のバランスを最適化するAnytime推論のフレームワーク
    • 大規模言語モデルの利用拡大には,コストと性能のトレードオフが課題となる。
    • 高性能モデルは高コストであり,小規模モデルは複雑なタスクで性能が低い。
    • 動的なクエリエスカレーションにより,計算コストを抑えつつ高精度な推論を実現する。
    • 提案手法(Pyramid MoA)は,確率的なAnytime推論特性を持ち,計算量増加に伴い期待される解質が単調増加する。
    • MBPPベンチマークにおいて,81.6%のバグを捕捉し,GSM8K/MMLUベンチマークではOracleと同等の精度を維持しつつ最大18.4%の計算コスト削減を実現した。
    • HumanEvalやMATH 500といった未学習のベンチマークにおいても,Oracleと同等以上の精度とコスト削減効果を示した。

    Link: https://arxiv.org/abs/2602.19509

  • LLM監視への応用を含む,情報隠蔽の決定理論的定式化 [cs.AI, cs.CL, cs.CR, cs.IT, cs.MA, math.IT]目的:LLMにおける情報隠蔽の検出と定量化
    • LLMの進化に伴い,悪意のあるモデルが監視を回避する可能性が懸念される。
    • 従来の検出手法は参照分布の知識を必要とするため,LLMには適用が困難である。
    • 情報隠蔽がもたらす情報利用の非対称性に着目し,それを検出・定量化する。
    • 決定理論的視点に基づき,汎用的な情報量指標である$\mathcal{V}$-informationを導入した。
    • 情報隠蔽の度合いを定量化する指標「情報隠蔽ギャップ」を定義し,実証的にその有効性を検証した。
    • この形式化を用いて,LLMにおける情報隠蔽の検出,定量化,軽減が可能となった。

    Link: https://arxiv.org/abs/2602.23163

  • MovieTeller:ツール支援によるID一貫性のある段階的抽象化を用いた映画のあらすじ生成 [cs.CV, cs.AI]目的:映画のあらすじ生成
    • デジタルエンターテイメントの爆発的な増加に伴い,コンテンツ索引やパーソナライズされた推薦に必要不可欠である。
    • 既存のVision-Language Modelsは,長尺動画における登場人物のID一貫性や物語の整合性に課題がある。
    • 登場人物の特定と物語の整合性を高め,より正確で自然な映画のあらすじを生成することを目指す。
    • MovieTellerは,ツール支援による段階的抽象化という新しいフレームワークを提案する。
    • ファクトに基づいた生成プロセスにより,モデルの追加学習コストを抑えつつ,精度向上を実現した。
    • 実験により,事実の正確性,登場人物の一貫性,物語の整合性において,既存手法を上回る結果が得られた。

    Link: https://arxiv.org/abs/2602.23228

  • 静的な指示を超えて:適応型拡張現実ロボット訓練のためのマルチエージェントAIフレームワーク [cs.RO, cs.AI, cs.HC]目的:適応型拡張現実ロボット訓練のためのマルチエージェントAIフレームワーク
    • 産業ロボットの訓練は,熟練労働力の不足を補い,生産性向上に不可欠である。
    • 既存のロボット訓練インターフェースは静的であり,学習者の認知特性への対応が不十分である。
    • 学習者のニーズに合わせた動的な環境適応を実現し,訓練効果の向上を目指す。
    • 拡張現実を用いたロボット訓練インターフェースのユーザビリティは高いものの,タスク遂行時間にばらつきが見られた。
    • マルチエージェントAIフレームワークにより,音声,生理データ,ロボットデータ等のマルチモーダル入力の高度な前処理が可能となる。
    • 大規模言語モデル(LLM)エージェントを活用し,リアルタイムで学習環境を動的に適応させることで,個別最適化された訓練を実現する。

    Link: https://arxiv.org/abs/2603.00016

  • SvfEye:マルチスケール視覚的コンテキストを用いた意味・視覚融合フレームワーク [cs.CV, cs.AI]目的:マルチモーダル推論における意味・視覚情報の適応的融合
    • マルチモーダル大規模言語モデルの精度向上は,多様な応用を可能にする上で重要である。
    • 既存手法では,微細な視覚的詳細の認識が不十分であり,特に小さな対象や視覚的に曖昧な場合に課題がある。
    • 不要な情報を取り除き,ユーザーの意図に合致する視覚的領域に焦点を当て,効率的な推論を実現する。
    • SvfEyeは,追加の視覚情報が必要かどうかを判断する信頼度ベースの決定モジュールと,有益な局所領域を特定する意味・注意融合モジュールを備えている。
    • 実験の結果,SvfEyeは大幅な性能向上を示し,最先端手法ZoomEyeと比較して約4.0倍の推論速度向上を実現した。

    Link: https://arxiv.org/abs/2603.00171

  • IROSA:自然言語を用いたインタラクティブなロボットスキル適応 [cs.CL, cs.RO, cs.AI, cs.CL, cs.HC, cs.LG]目的:自然言語によるロボットスキルの適応手法
    • 産業界におけるロボットの柔軟な活用が求められており,新たなスキル獲得の効率化が重要である。
    • ロボットに新しいスキルを教えるには,多くのデータや専門知識が必要となる場合が多い。
    • 自然言語による指示で,ロボットが自律的にスキルを適応させることで,その問題を解決する。
    • 大規模言語モデルと模倣学習を組み合わせることで,少ないデータでロボットのスキル適応を実現した。
    • ツールベースのアーキテクチャにより,言語モデルとロボットハードウェア間の安全性を確保している。
    • ベアリングリング挿入タスクにおいて,速度調整,軌道修正,障害物回避といった自然言語コマンドによるスキル適応を成功裏に示した。

    Link: https://arxiv.org/abs/2603.03897

  • ターミナル向け効果的なAIコーディングエージェントの構築:スキャフォールディング,ハーネス,コンテキストエンジニアリング,および得られた教訓 [cs.AI]目的:ターミナル環境におけるAIコーディングエージェントの有効性向上
    • ソフトウェア開発の効率化には,AIによる自動化が不可欠であり,開発者の生産性向上に貢献する。
    • 従来のIDEプラグイン型AIアシスタントでは,柔軟性や自律性に課題があり,長期間のタスクには不向きな点がある。
    • ターミナル環境で動作するAIエージェントの安全性と効率性を高め,自律的なソフトウェア開発を支援する。
    • OPENDEVは,Rustで実装されたオープンソースのコマンドラインコーディングエージェントであり,新しいパラダイムに特化した設計となっている。
    • ワークロードに特化したモデルルーティングや二重エージェントアーキテクチャにより,安全性と効率性を両立している。
    • プロジェクト固有の知識を蓄積する自動メモリシステムにより,指示の消失を防ぎ,セッションを跨いだ継続的な学習を実現している。

    Link: https://arxiv.org/abs/2603.05344

  • 深層安全性アテンションヘッドからの脱獄:大規模言語モデルの脆弱性 [cs.CR, cs.AI]目的:大規模言語モデルの深層アテンションヘッドにおける脆弱性の解明
    • 大規模言語モデルは生成性能が向上しているが,公開された構造と重みにより,安全性確保が課題である。
    • 既存の攻撃は表面的な層に集中しており,深層の脆弱性を捉えきれていないため,誤った安全性の認識を生む。
    • 深層アテンションヘッドに着目し,より効果的な脱獄攻撃手法を開発し,モデルの安全性を評価する。
    • 提案手法SAHAは,深層アテンションヘッドの脆弱性を突くことで,既存手法よりも高い攻撃成功率を達成した。
    • アブレーション・インパクトランキングにより,危険な出力を生成しやすい重要な層を効率的に特定できることが示された。
    • レイヤーごとの摂動によって,意味的な関連性を維持しつつ,安全でないコンテンツの生成を回避する手法の有効性が確認された。

    Link: https://arxiv.org/abs/2603.05772

  • 行動しない知覚:大規模言語モデルにおける安全性メカニズムの解離幾何学 [cs.CR, cs.AI, cs.LG]目的:大規模言語モデルの安全性メカニズムにおける知覚と行動の解離
    • 大規模言語モデルの安全性確保は,社会実装において不可欠であり,そのメカニズム解明が急務である。
    • 既存の安全性対策は,有害性の検出と拒否が連動している想定だが,脱獄攻撃が多発し,その前提が揺らいでいる。
    • 知覚と行動の解離を検証し,安全性メカニズムの脆弱性を明らかにし,攻撃手法を提案すること。
    • 大規模言語モデルの初期層では安全性信号と拒否信号が拮抗するが,深層では構造的に独立するという「反射から解離への進化」が確認された。
    • 新たに開発した手法により,「知覚はあるが行動しない」状態を再現し,安全性メカニズムの解離を因果的に証明した。
    • 拒否メカニズムを外科的に除去する「拒否除去攻撃(REA)」を提案し,最先端の攻撃成功率を達成した。また,Llama3.1とQwen2.5のアーキテクチャの違いを明らかにした。

    Link: https://arxiv.org/abs/2603.05773

  • テスト時適応:多数ショットプロンプティングの利点,限界,および落とし穴 [cs.LG, cs.CL]目的:テスト時適応による大規模言語モデルの推論時の行動修正機構
    • 大規模言語モデルの応用範囲拡大には,推論時の適応能力向上が不可欠である。
    • 多数ショットプロンプティングの効果や限界は十分に解明されておらず,特にオープンソースモデルでは課題が多い。
    • プロンプトベースのテスト時適応の限界を明らかにし,その有効性と有害性を判断する。
    • 多数ショットプロンプティングは,実例が有益な情報をもたらす構造化タスクにおいて有効であることが示された。
    • しかし,その効果は選択戦略に大きく依存し,自由形式の生成タスクでは効果が限定的であることが分かった。
    • 入力空間の更新が有益か有害かを判断するための指針が提示された。

    Link: https://arxiv.org/abs/2603.05829

  • 物語紡ぎ手:マルチモーダル条件付けによる制御可能な長距離視覚的整合性に向けて [cs.CV, cs.AI]目的:マルチモーダル制御可能,長距離,かつ一貫性のある視覚コンテンツ生成
    • 映画制作や広告など,現実世界での応用には,長期間にわたる視覚的な整合性が不可欠である。
    • 既存モデルは短編コンテンツの生成に優れるが,長編における物語の一貫性や視覚的整合性を維持することが困難である。
    • 物語の計画,詳細な制御,長距離の一貫性を統合し,AIによるコンテンツ制作の可能性を広げる。
    • 本手法は,マルチモーダル大規模言語モデルと動的なメモリバンクを組み合わせ,視覚的なずれを抑制する。
    • 既存の事前学習モデルを効率的に活用する漸進的な多段階学習戦略により,限られたデータでも高い性能を発揮する。
    • E-commerce Advertising Video Storyboard Dataset(EAVSD)を構築・公開し,新たな評価基準を提示した。

    Link: https://arxiv.org/abs/2603.06688

  • AWPD:未知の水mark存在検出のための周波数シールドネットワーク [cs.CV, cs.AI]目的:未知の水mark存在検出
    • 画像著作権保護は重要であり,特にSNSやAIGCの発展に伴い,不可視ウォーターマーク技術の需要が高まっている。
    • 既存の不可視ウォーターマーク検出は特定のアルゴリズム知識に依存するため,未知の水mark検出能力が限定されている。
    • 本研究は,アルゴリズム知識なしに画像に著作権マークが存在するかどうかを判定する課題に取り組む。
    • 本研究では,大規模なデータセットUniFreq-100Kを構築し,様々な不可視ウォーターマーク埋め込みアルゴリズムに対応したモデルを提案した。
    • 提案するFSNetは,適応スペクトル知覚モジュール(ASPM)と動的マルチスペクトルアテンション(DMSA)を搭載し,高周波水mark信号を増幅し,異常を検出する。
    • 実験結果から,FSNetは既存モデルを凌駕するゼロショット検出能力を示し,AWPD課題において優れた性能を発揮することが示された。

    Link: https://arxiv.org/abs/2603.06723

  • Ref-DGS:反射的双ガウススプラッティング [cs.CV, cs.AI, cs.GR]目的:反射性表面の再構成と新規視点合成の精度向上
    • リアルな映像生成には,表面の反射表現が不可欠である。特に近場の強い反射は課題。
    • 既存手法では,近場の反射を正確にモデル化できないか,計算コストが高い。
    • 効率的なラスタライズパイプラインで,近場反射と遠方反射を分離して扱う。
    • Ref-DGSは,ジオメトリガウスと局所反射ガウスという二重ガウス表現を用いる。
    • これにより,明示的なレイトレーシングなしに近場反射を捉え,高速な処理を実現。
    • 反射性シーンにおいて,既存のガウス系手法を凌駕する性能と学習速度を両立した。

    Link: https://arxiv.org/abs/2603.07664

  • 表形式ファウンデーションモデルにおける分布回帰:適切なスコアリングルールによる確率予測の評価 [cs.LG, cs.AI]目的:表形式ファウンデーションモデルの確率予測の質の評価
    • 表形式データ分析は,様々な分野で重要な役割を果たしており,高精度な予測が求められる。
    • 既存の評価指標は点予測に偏っており,予測分布の質を十分に評価できていない。
    • 適切なスコアリングルールを用いて,予測分布の評価基準を確立し,モデルの改善に繋げる。
    • TabPFN v2.5とTabICL v2の予測分布の質を,CRPS,CRLS,Interval Score等の適切なスコアリングルールを用いて比較した。
    • 異なるスコアリングルールはモデルのランキングを変え,学習に異なる誘導バイアスを与えることが示された。
    • 事前学習時に使用していないスコアリングルールでTabPFN v2.5をファインチューニングすることで,対応する指標の改善が確認された。

    Link: https://arxiv.org/abs/2603.08206

  • 進行型疑似マスク洗練を伴う弱教師あり教師・生徒フレームワークによる腺分割 [cs.CV, cs.AI]目的:腺構造の正確な分割
    • 大腸癌の組織学的等級判定には腺構造の正確な分割が不可欠である。
    • 従来の深層学習は大規模なピクセルレベルのアノテーションに依存し,臨床での利用が困難である。
    • 疎な病理医のアノテーションと教師ネットワークを用いて,精緻な疑似マスクを生成し,分割精度を向上させる。
    • Gland Segmentationデータセットにおいて,平均IoU 80.10%,平均Dice係数89.10%を達成した。
    • TCGA COADおよびTCGA READに対するクロス・コホート評価では,追加のアノテーションなしに頑健な汎化性能を示した。
    • SPIDERデータセットでは性能が低下したが,これはドメインシフトによる影響と考えられる。

    Link: https://arxiv.org/abs/2603.08605

  • コンテキストエンジニアリング:プロンプトから企業向けマルチエージェントアーキテクチャへ [cs.AI, cs.MA]目的:AIエージェントの意思決定環境の設計,構造化,管理
    • AI技術はチャットボットから自律的なマルチステップエージェントへと進化しており,その発展は重要である。
    • プロンプトエンジニアリングだけでは,AIエージェントの複雑な運用を支えきれないという課題が存在する。
    • 企業規模でのAIエージェント展開におけるスケーラビリティ問題の解決を目指す。
    • 本研究では,コンテキストエンジニアリングを独立した分野として提唱し,AIエージェントの動作環境の質を定義する五つの基準を提示した。
    • 意図エンジニアリングと仕様エンジニアリングという二つの上位分野を定義し,エージェントエンジニアリングの成熟度モデルを提案した。
    • 企業データの分析から,AIエージェント導入の計画と実際の展開とのギャップが明らかになり,コンテキストと意図のコントロールが重要であることが示された。

    Link: https://arxiv.org/abs/2603.09619

  • 最適な学習率スケジュールの形状とは何か? [cs.LG]目的:ニューラルネットワーク訓練における最適な学習率スケジュール形状の特定
    • 深層学習の性能向上には学習率の適切な設定が不可欠であり,その重要性は高い。
    • 学習率スケジュールの形状に関する明確な指針がなく,試行錯誤に頼る部分が多い。
    • 様々なタスクにおいて,近似的に最適な学習率スケジュール形状を自動的に探索すること。
    • 提案手法により,線形回帰,画像分類,言語モデリングにおいて,近似的に最適なスケジュール形状を探索できた。
    • ウォームアップと減衰は良好なスケジュール形状の頑健な特徴であることが示された。
    • 一般的に使用されるスケジュール族は,これらのタスクにおいては最適ではないことが分かった。

    Link: https://arxiv.org/abs/2603.10301

  • H2LooP Spark Preview:低レベル組み込みシステムコードのための大規模言語モデル継続事前学習 [cs.LG]目的:低レベル組み込みシステムコードのための大規模言語モデル継続事前学習パイプライン
    • 組み込みシステムは,IoT機器から産業機器まで広範な分野で利用されており,社会インフラを支える重要な技術である。
    • 標準的な事前学習コーパスでは組み込みシステム特有の知識が不足しており,LLMの性能が制限されている。
    • 組み込みシステムデータを用いた継続事前学習により,LLMの専門性を高め,性能向上を目指す。
    • H2LooP Spark Previewは,OLMo-3-7Bを組み込みシステムドメインに適合させる継続事前学習パイプラインである。
    • 本研究では,100Bトークンを超える組み込みシステムデータを活用し,ドメイン内・外のperplexityをそれぞれ70.4%と66.1%削減した。
    • 7Bモデルは,コード補完ベンチマークにおいて,Claude Opus 4.6やQwen3-Coder-30Bを凌駕する性能を示し,専門性の高いタスクで競合する。

    Link: https://arxiv.org/abs/2603.11139

  • 多段階サイバー攻撃シナリオにおけるAIエージェントの進捗測定 [cs.AI, cs.LG]目的:AIエージェントのサイバー攻撃能力の評価
    • サイバーセキュリティは重要性が増しており,AIによる自動化が求められている
    • AIモデルのサイバー攻撃における能力は,まだ限定的であり,改善の余地がある
    • AIモデルの能力向上を定量的に評価し,改善の方向性を示す
    • AIモデルの性能は,推論時の計算量に対して対数的に線形に向上する。
    • 最新モデルは,以前のモデルよりも優れた性能を発揮する。特に企業ネットワーク攻撃において,完了ステップ数が大幅に増加した。
    • 産業制御システム攻撃では性能が限定的だが,最新モデルが初めて安定してステップを完了できるようになった。

    Link: https://arxiv.org/abs/2603.11214

  • COMPASS:主権,持続可能性,コンプライアンス,倫理のための説明可能なエージェントフレームワーク [cs.SI, cs.CL, cs.CY, cs.AI]目的:主権,持続可能性,コンプライアンス,倫理を統合した自律型エージェントの意思決定プロセス
    • LLMベースエージェントの急速な普及に伴い,デジタル主権や倫理的整合性が重要課題となっている。
    • 既存のフレームワークは個別の側面しか扱えず,これらの要件を体系的に統合したアーキテクチャが存在しない。
    • 自律型システムにおける多次元の原則に基づいた価値整合型AIを実現する。
    • COMPASSフレームワークは,モジュール化されたガバナンスメカニズムを通じて,価値に沿ったAIを強制する。
    • RAG統合により,意味的コヒーレンスが大幅に向上し,幻覚のリスクが軽減されることが示された。
    • 本フレームワークの構成ベース設計は,多様なアプリケーション領域へのシームレスな統合を可能にし,解釈可能性とトレーサビリティを維持する。

    Link: https://arxiv.org/abs/2603.11277

  • 認知―感情―行動フレームワークによるOpenClaw利用意向の検討 [cs.AI]目的:OpenClawの利用意向を規定する心理的メカニズム
    • AI技術の社会実装が進む中で,利用者の受容性を高めることが重要である。
    • 自律型AIエージェントの利用意向を予測するモデルが十分ではない。
    • 認知,感情,行動の連関を通して利用意向の形成過程を解明すること。
    • 肯定的な認知はOpenClawに対する態度を強化し,利用意向を高めることが示された。
    • 一方,否定的な認知は不信感を増大させ,利用意向を低下させる。
    • 本研究は,自律型AIエージェントの採用に影響する心理的メカニズムに関する知見を提供する。

    Link: https://arxiv.org/abs/2603.11455

  • 1つのスーパーバイザー,多様なモダリティ:自律的クエリのための適応的ツール編成 [cs.CL, cs.AI, cs.LG]目的:自律的多様式クエリ処理のためのエージェントAIフレームワーク
    • 多様なデータ形式の活用は,AIシステムの応用範囲を広げ,より複雑な問題解決を可能にする。
    • 既存のシステムは,各モダリティを個別に処理するため,効率が悪く,連携に課題がある。
    • 複数のモダリティを統合的に処理し,クエリ応答時間,コスト,再作業を削減すること。
    • 本フレームワークは,テキストのみのクエリに対しては学習されたルーティングを利用し,非テキストのパスにはSLM支援によるモダリティ分解を用いる。
    • 15のタスクカテゴリにわたる2,847件のクエリで評価した結果,正解までの時間,会話のやり直し,コストをそれぞれ72%,85%,67%削減した。
    • これは,インテリジェントな集中オーケストレーションが,マルチモーダルAIの経済性を大きく改善することを示している。

    Link: https://arxiv.org/abs/2603.11545

  • HomeSafe-Bench:家庭環境における具現化されたエージェント向け,危険行動検出におけるビジョン-言語モデルの評価 [cs.HC, cs.CV, cs.AI, cs.CR]目的:家庭環境における危険行動検出のためのビジョン-言語モデルの評価
    • 家庭用ロボットの導入が進む中で,安全性の確保は不可欠である。特に,予測不能な環境下での安全評価が重要となる。
    • 既存の安全評価は静止画やテキストに限定され,家庭環境における動的な危険行動検出を十分に評価できていない。
    • 本研究では,家庭環境における危険行動検出に特化した評価ベンチマークを構築し,より高度な安全評価を実現することを目指す。
    • HomeSafe-Benchは,物理シミュレーションと高度なビデオ生成を組み合わせた,6つの機能領域にわたる438件の多様なケースを提供する。
    • 提案手法HD-Guardは,高速なスクリーニングと深い多Modal推論を組み合わせることで,低遅延かつ高精度なリアルタイム安全監視を実現する。
    • 実験結果から,HD-Guardが既存のVLMベースの安全検出におけるボトルネックを克服し,優れた性能を発揮することが示された。

    Link: https://arxiv.org/abs/2603.11975

  • XSkill:マルチモーダルエージェントにおける経験とスキルの継続学習 [cs.AI, cs.CL]目的:マルチモーダルエージェントにおける経験とスキルの継続学習のためのフレームワーク
    • マルチモーダルエージェントは複雑な推論タスクをこなせるが,柔軟性に課題がある。
    • オープンな環境下での非効率なツール利用とオーケストレーションが問題となっている。
    • 過去の軌跡から学習し,パラメータ更新なしに継続的に改善することを目指す。
    • XSkillは,経験とスキルという2つの知識ストリームを活用するフレームワークである。
    • 視覚的な観察に基づいて知識の抽出と検索を行い,継続学習ループを形成する。
    • 5つのベンチマークで,既存手法と比較して大幅な性能向上を示した。

    Link: https://arxiv.org/abs/2603.12056

  • 畳み込みを超えて:学習ベース画像処理のための構造化オペレーターの分類 [cs.CV, cs.AI]目的:学習ベース画像処理における構造化オペレーターの分類
    • 画像処理において畳み込み演算は基盤技術であり,その性能向上が重要である。
    • 従来の畳み込み演算は構造的な信号特性の捉え方に限界がある。
    • より高度な信号特性を捉えうるオペレーターの体系化を目指す。
    • 本研究では,従来の畳み込み演算を拡張または代替するオペレーターを5つのファミリーに分類した。
    • 各ファミリーについて,定義,構造的特性,および適切なタスクについて議論した。
    • 線形性,局所性,対称性,計算コストなどの観点からファミリー間の比較分析を行った。

    Link: https://arxiv.org/abs/2603.12067

  • 最適化に基づく因果推論のためのデータ駆動型影響関数 [cs.RO, stat.ME, cs.LG, math.OC, stat.ML]目的:統計的関数に対するGateaux微分を有限差分で近似するための構成的アルゴリズム
    • 因果推論は,介入の効果を正確に評価し,政策決定を支援する上で不可欠である。
    • 因果推論における影響関数の導出は,モデルの誤指定に対する頑健性を保証する上で課題となる。
    • データから推定された分布を用いた実証的Gateaux微分を解析し,近似の精度を保証すること。
    • 本研究では,統計的関数に対するGateaux微分を有限差分で近似する構成的アルゴリズムを提案した。
    • 最適化に基づく推定法において,微小な変化に対する影響関数の近似が可能であることを示した。
    • 統計的構造(レート二重頑健性)によって,有限差分近似のレートが保守的でなくなる場合がある。

    Link: https://arxiv.org/abs/2208.13701

  • サブガウス固有モーメントノルムによるタイトな非漸近的推論 [stat.ML, cs.LG, econ.EM]目的:サブガウス分布の分散型パラメータ推定
    • 非漸近的学習において,統計的推論の信頼性確保が重要である。
    • 経験モーメント母関数によるパラメータ推定は困難である。
    • サブガウス固有モーメントノルムを用いた新たな推定手法を提案する。
    • サブガウス固有モーメントノルムは,MGFの指数モーメント境界を再構築できる。
    • よりタイトなサブガウス濃度不等式を提供する。
    • 有限サンプルサイズのデータがサブガウスであるか判定する直感的な方法を提示した。

    Link: https://arxiv.org/abs/2303.07287

  • フィッシャー・ラオ勾配流:測地凸性と関数不等式 [math.AP, cs.LG, math.FA, math.ST, stat.TH]目的:フィッシャー・ラオ計量における勾配流に関する関数不等式の研究
    • 確率密度関数のダイナミクスは,物理現象の理解やアルゴリズム設計に不可欠である。
    • 既存の研究は特殊なケースでの解明に依存しており,一般的な条件下での解析が課題であった。
    • フィッシャー・ラオ勾配流に対する関数不等式と測地凸性の包括的な研究を通してこの問題の解決を目指す。
    • 本研究で導出された関数不等式は,目的分布の対数凹性や対数ソボレフ定数に依存しない。
    • これにより,ダイナミクスの収束レートが一般的な目的分布に対して一様である事が示された。
    • フィッシャー・ラオ計量下の勾配流に対する関数不等式と測地凸性の解析を最小限の仮定の下で行った。

    Link: https://arxiv.org/abs/2407.15693

  • 脳波データのための基盤モデルに向けたネストされた深層学習モデル [stat.ML, cs.LG]目的:脳波・磁脳波におけるスパイク検出の精度向上と局在化
    • てんかんは世界中で約5000万人に影響を与え,早期診断と適切な治療が重要である。
    • 従来の手動でのスパイク検出は時間と専門知識を要し,専門家不足が課題となっている。
    • 多様なチャンネル構成への適応と,スパイク発生源の特定を可能にする手法の開発。
    • 提案手法であるNDLは,チャンネル構成の変化に対応し,高い予測精度を実現した。
    • NDLはスパイクが発生する主要チャンネルの特定を可能にし,臨床診断を支援する。
    • 異なる計測モダリティのデータ統合をサポートし,様々な神経生理学的応用への展開が期待される。

    Link: https://arxiv.org/abs/2410.03191

  • 量子スーパーコンピュータの構築:数百から数百万量子ビットへの拡張 [quant-ph, cond-mat.dis-nn, cs.AI, cs.DC]目的:量子コンピュータのスケーラビリティに関する課題と解決策
    • 量子計算は,基礎研究から実用技術への発展が期待され,社会変革の可能性を秘めている。
    • 現在の量子コンピュータは量子ビット数の制約,エラー率の高さなど,実用化に向けた課題が多い。
    • 半導体技術の活用やシステム工学的手法により,スケーラブルな量子コンピュータの実現を目指す。
    • 表面符号誤り訂正量子コンピュータにおける資源と感度分析を行い,現在のハードウェア仕様に基づいた性能向上策を提示した。
    • 量子化学計算,触媒設計,NMR分光法,Fermi-Hubbardシミュレーションなど,実用規模のアプリケーションの資源見積もりを提示した。
    • ハードウェア改善と量子HPC統合により,大幅な性能向上が可能であること,および量子確率的計算の高効率化アーキテクチャを提案した。

    Link: https://arxiv.org/abs/2411.10406

  • 幾何学的マージン条件下の二値分類器推定におけるミニマックス学習率 [math.OC, cs.SY, econ.TH, eess.SY, stat.ML, cs.LG, math.PR]目的:二値分類器の学習率推定
    • 機械学習における分類問題は,実用的な応用範囲が広く,性能向上が不可欠である。
    • 幾何学的マージン条件を満たす設定下では,理論的な解析が難しく,学習率の最適化が課題である。
    • 幾何学的マージン条件下の最悪の場合の学習率に関する下限を導出し,理論的なボトルネックを解消する。
    • 幾何学的マージン条件を満たす広範な関数クラスにおいて,最悪の場合の学習率の下限を導出した。
    • バロン正則関数,ヘルダ連続関数,強いマージンを持つ凸Lipschitz関数に対し,最適な学習率を特定した。
    • サンプル数nに対して,$\mathcal{O}(n^{-1})$に近い高速学習率が達成可能であることを示した。

    Link: https://arxiv.org/abs/2505.10628

  • 量子情報機械学習による時空間カオスの予測:実用的な量子優位性 [quant-ph, cs.LG]目的:高次元カオス系の長期的な振る舞いのモデル化
    • 複雑なシステムの予測は科学技術の発展に不可欠であり,精度向上は重要課題である。
    • 従来の数値シミュレーションは計算コストが高く,長時間の予測や高解像度化が困難である。
    • 量子計算の利点を活用し,計算コストを削減しつつ高精度な予測を実現する。
    • 量子情報機械学習(QIML)フレームワークにより,予測分布の精度が最大17.25%向上した。
    • 全スペクトル忠実度は最大29.36%向上し,古典的なベースラインを上回る結果が得られた。
    • 乱流チャネル流入において,量子事前分布(Q-Prior)は予測の安定性に不可欠であり,物理的に整合性の高い長期予測を可能にした。

    Link: https://arxiv.org/abs/2507.19861

  • 大規模言語モデルエージェントの合理的・道徳的選好との整合:教師ありファインチューニングによるアプローチ [econ.GN, cs.AI, cs.LG, q-fin.EC]目的:合理的・道徳的選好に沿ったエージェント行動の整合
    • LLMエージェントが市場や組織で自律的に行動する中で,その行動が経済的に重要な意味を持つようになる。
    • 既存のLLMエージェントは,経済ゲームにおいて,利己的な行動からの逸脱やインセンティブへの鈍感さを示す。
    • 経済的・道徳的選好に基づいたエージェント行動を,教師ありファインチューニングによって整合させる。
    • 経済理論に基づいた小規模な合成データセットでのファインチューニングは,戦略行動に持続的で解釈可能な変化をもたらす。
    • 道徳的ジレンマや繰り返しのある二社間価格設定において,異なる選好構造に沿ったエージェントは,系統的に異なる均衡結果と価格変動を示す。
    • マルチエージェント環境におけるAI整合を,目的設計の問題として捉え,経済理論が戦略的に整合性の取れたAIエージェントの設計を導くことを示す。

    Link: https://arxiv.org/abs/2507.20796

  • 量子埋め込み問題に対するニューラル量子状態不純物ソルバー [physics.flu-dyn, cs.SY, eess.SY, cond-mat.str-el, cs.AI, cs.LG, quant-ph]目的:量子埋め込み法における不純物ソルバーの設計とベンチマーク
    • 量子化学計算において,大規模分子や凝縮系物質の電子状態解析は重要である。
    • 従来の不純物ソルバーは計算コストが高く,大規模系の適用が困難である。
    • ニューラル量子状態を用いることで,効率的な不純物ソルバーを実現し,計算コストを削減する。
    • 開発したニューラル量子状態不純物ソルバーは,グラフTransformerアーキテクチャに基づき,任意に結合した不純物軌道を表現可能である。
    • ベンチマーク計算により,本ソルバーが正確な対角化法ソルバーの結果と高い一致を示すことが確認された。
    • 計算資源の分析から,埋め込みループで要求される物理量の高精度サンプリングがボトルネックであることが示唆された。

    Link: https://arxiv.org/abs/2509.12431

  • 深偽音声検出:表現が全てである [eess.AS, cs.AI]目的:深偽音声検出の精度向上
    • 音声合成技術の進歩により,悪意のある深偽音声が容易に作成可能になり,社会的な脅威が高まっている。
    • 既存の深偽音声検出研究は,現実世界での環境を考慮したデータセットと評価方法が不足している。
    • 現実的な通信環境を模倣したデータセットと評価方法を提案し,深偽音声検出の汎化性能を向上させる。
    • 提案手法により,より厳密な実験環境で深偽音声検出の精度が39%向上した。
    • 現実世界のベンチマークテストでは,深偽音声検出の精度が57%向上した。
    • データセットの改善は,モデルの規模拡大よりも深偽音声検出の精度向上に大きく貢献する。

    Link: https://arxiv.org/abs/2509.26471

  • 銀河天体物理学における因果構造 [physics.flu-dyn, cs.SY, eess.SY, astro-ph.GA, astro-ph.CO, cs.LG, stat.AP, stat.ME]目的:銀河天体物理学における因果構造の抽出
    • 天体物理学は宇宙の構造と進化を解明する上で不可欠であり,観測データに基づく理解が重要である。
    • 既存の研究は相関関係の検出に依存しており,因果関係や潜在的な交絡因子の考慮が不足している。
    • 観測データから因果構造を抽出し,物理メカニズムの識別精度向上を目指す。
    • 因果探索という手法を天体物理学に導入し,大規模データセットへの適用を可能にした。
    • NASA Sloan Atlasの近傍銀河データを用いて,相関関係だけでは区別できない物理メカニズムを識別することを示した。
    • 変数間の直接的な相関関係,その方向性,および交絡因子の存在を明らかにする新たな手法を開発した。

    Link: https://arxiv.org/abs/2510.01112

  • 対角線形ネットワークの精密なダイナミクス:動的平均場理論による統一的解析 [stat.ML, cond-mat.dis-nn, cs.LG]目的:対角線形ネットワークにおける勾配フローダイナミクスの様々な現象の統一的な解析
    • ニューラルネットワークの学習挙動を理解することは,AI技術の発展に不可欠である。
    • 初期値依存性や増分学習など,DLNの現象は個別に研究されてきたため,全体的なダイナミクスが不明確であった。
    • DLNのダイナミクスを統一的に解析し,学習率と汎化性能の関係を明らかにすること。
    • 動的平均場理論を用いて,高次元におけるDLNの漸近的な勾配フローダイナミクスを捉える有効過程を導出した。
    • 有効過程の解析から,損失の収束速度と汎化性能のトレードオフに関する新たな知見が得られた。
    • DLNの現象を系統的に再現することで,動的平均場理論がニューラルネットワークの高次元学習ダイナミクスの解析に有効であることが示された。

    Link: https://arxiv.org/abs/2510.01930

  • S字型効用関数における確率的支配制約付き最適化:不良パフォーマンス領域アルゴリズムとニューラルネットワーク [q-fin.MF, cs.LG, q-fin.PM, q-fin.RM]目的:S字型かつ非凹型効用関数の最大化を通じたポートフォリオ選択
    • 資産運用において,投資家のリスク選好を考慮したポートフォリオ構築が重要である。
    • S字型効用関数を用いた最適化問題では,有限な凹包関数が存在しない場合がある。
    • 第二階確率的支配制約下での非凹型効用関数最適化問題に対する解法を提案する。
    • 第一階確率的支配制約は,凹包関数の存在保証の代替案となり,リスク管理に有効である。
    • 不良パフォーマンス領域を特定し,その構造を変化させることで,準最適な解を効率的に求めるアルゴリズムを開発した。
    • アルゴリズムの指針に基づいた区分的ニューラルネットワークにより,標準的なニューラルネットワークよりも収束が速いことが示された。

    Link: https://arxiv.org/abs/2512.00299

  • 電気インピーダンス特性と教師あり機械学習を用いた細胞悪性度の予測 [eess.SP, cs.LG]目的:細胞悪性度予測のための電気インピーダンス特性の有用性評価
    • 細胞の電気的特性は,健康細胞と悪性細胞で大きく異なり,診断への応用が期待される。
    • 既存研究のデータが分散しており,統一的な解析と高精度な予測が課題となっていた。
    • 電気インピーダンスデータと機械学習を組み合わせ,細胞悪性度を高精度に予測すること。
    • kHz-MHz周波数帯の電気的パラメータに関する535データセットを統合し,機械学習アルゴリズムの性能を評価した。
    • 特に,虚誘電率と導電率は,細胞状態の分類において重要な役割を果たすことが示された。
    • 物理に基づいた特徴量の導入は,モデルの解釈性を向上させ,過学習を抑制する効果が確認された。

    Link: https://arxiv.org/abs/2601.04478

  • OpenVision 3:理解と生成のための統一されたビジュアルエンコーダ群 [eess.IV, cs.AI]目的:画像理解と画像生成の両方をサポートする単一の統一されたビジュアル表現の学習
    • 画像処理技術は,コンピュータビジョンの発展に不可欠であり,様々な応用分野で活用されている。
    • 画像理解と画像生成はそれぞれ異なる技術に依存しており,両者を統合的に扱うことが課題となっていた。
    • 画像理解と生成を両立する統一的な表現学習を通じて,汎用性の高いビジュアルエンコーダを開発すること。
    • OpenVision 3は,VAE圧縮された潜在表現を用いてViTエンコーダを学習することで,生成構造と意味特徴の両方を効果的に捉える。
    • 生成タスク(RAEフレームワーク)において,CLIPベースのエンコーダと比較して大幅な性能向上(ImageNetでgFID: 1.87 vs. 2.54)を示した。
    • 多modal理解タスク(LLaVA-1.5/NeXTフレームワーク)においても,標準CLIPエンコーダと同等の性能(SeedBenchで63.3 vs. 61.2,GQAで59.2 vs. 58.1)を達成した。

    Link: https://arxiv.org/abs/2601.15369

  • LatentChem:化学的推論におけるテキスト形式CoTから潜在的思考へ [physics.chem-ph, cs.AI, cs.CL, cs.LG]目的:化学的推論における潜在的思考のインターフェース
    • 化学分野では,複雑な推論が不可欠であり,高性能なモデルが求められている。
    • 既存のLLMはテキスト形式のCoTに依存し,計算効率や性能に課題があった。
    • 潜在的思考を導入することで,より効率的かつ効果的な化学的推論を実現すること。
    • LatentChemは,テキスト生成から化学的計算を分離し,連続的な潜在空間で推論を行う。
    • タスクの成功のみを最適化することで,モデルは自然に推論を内部化し,冗長なテキスト表現を避ける。
    • ChemCoTBenchにおいて,強力なCoTベースのモデルを59.88%の確率で上回り,推論オーバーヘッドを10.84倍削減した。

    Link: https://arxiv.org/abs/2602.07075

  • アルゴリズム改善の評価のための視覚的手法を用いた投影追跡木分類器の改良 [stat.ML, cs.LG]目的:投影追跡木分類器の改良と,その影響を評価するための視覚的診断手法
    • 高次元データ分析において,分類問題は重要な課題であり,効率的な分類手法の確立が求められている。
    • 従来の投影追跡木分類器は,クラス数に制限された深さしか持たず,複雑な分類問題への適用が困難であった。
    • 本研究は,より多くの分割と柔軟なクラスグループ化を可能にすることで,多クラス分類における性能向上を目指す。
    • 改良されたアルゴリズムは,不均一な分散共分散構造や非線形なクラス分離を持つデータセットにおいて,分類性能が向上した。
    • 高次元可視化技術を用いて,モデルの適合性を評価し,アルゴリズムが理論どおりに動作することを確認した。
    • インタラクティブなウェブアプリケーションを開発し,ユーザーがオリジナル版と改良版の分類器の動作を比較検討できるようにした。

    Link: https://arxiv.org/abs/2602.21130

  • 証明を伴う材料:機械学習型原子間ポテンシャルの反証可能な安全性証明書 [cond-mat.mtrl-sci, cs.AI, cs.LG, physics.comp-ph]目的:機械学習型原子間ポテンシャルの安全性評価と信頼性向上
    • 材料探索の加速化に機械学習が活用されているが,信頼性確保が課題となっている。
    • 既存の機械学習型原子間ポテンシャルは,真に安定な材料を十分に識別できていない。
    • 反証可能性に基づき,形式検証によってポテンシャルの信頼性を保証することを目指す。
    • 単一の機械学習型原子間ポテンシャルによる安定性フィルタは,DFT安定材料の93%を見逃すことが判明した。
    • Proof-Carrying Materials (PCM) を用いることで,機械学習モデルの弱点と盲点を特定し,信頼性を高めることができた。
    • PCMによる監査プロトコルは,既存のスクリーニング手法と比較して,25%の発見率向上を実現した。

    Link: https://arxiv.org/abs/2603.12183