arXiv雑要約

AI - 2026/04/20 公開

低リソース言語における数学教育のための大規模言語モデル：シンハラ語とタミル語の研究 [cs.CL, cs.LG]目的：シンハラ語とタミル語における大規模言語モデルの数学的推論能力の評価
- 多言語教育におけるAI活用は重要性が増しており，学習支援ツールとしてのLLMの可能性が注目されている。
- 英語以外の低リソース言語におけるLLMの数学的推論能力は不明であり，学習支援ツールとしての信頼性が懸念される。
- シンハラ語とタミル語におけるLLMの数学的推論能力を評価し，多言語教室でのAIツール導入の課題を明らかにする。
- 基本的な算術問題は言語間で頑健に推論能力が維持される一方，複雑な問題ではシンハラ語とタミル語で著しい低下が見られた。
- モデルや問題の種類によって失敗パターンが異なり，英語での高い性能が必ずしも他の言語での信頼性を保証するものではないことが示唆された。
- これらの結果は，多言語教室でのAIツール導入に直接的な影響を与え，非英語圏での数学教育における言語固有の評価の必要性を示している。
Link: https://arxiv.org/abs/2602.14517
有限要素法と極限学習ネットワークによる逆問題解決 [math.NA, cs.LG, cs.NA]目的：パラメータ依存偏微分方程式のモデリング手法
- 制御，逆問題，不確実性定量化など，様々な分野でパラメータ依存偏微分方程式が重要である。
- 高次元パラメータ空間において，従来の補間法では計算コストが増大し，精度の低下を招く恐れがある。
- 有限要素法と極限学習ネットワークを組み合わせることで，高次元パラメータ空間における逆問題を効率的に解決すること。
- 本研究で提案するフレームワークは，空間離散化とパラメータ近似の間の相互作用を明確に定量化する厳密な誤差評価を提供する。
- 高次元パラメータ空間では，極限学習機械による代替モデルを使用し，明示的な近似と安定性に関する仮定の下で誤差限界を得る。
- 定量光音響断層撮影における逆問題への応用により，計算量の削減と精度の維持が可能であることが示された。
Link: https://arxiv.org/abs/2602.14757
言語モデルの不正な蒸留に対する防御：トレース書き換えによるアプローチ [cs.AI, cs.CL]目的：言語モデルの不正蒸留を抑制するための手法
- 大規模言語モデルは高度な能力を持つが，開発には莫大な費用がかかる。
- 知識蒸留の不正利用により，開発者の努力が無駄になる可能性がある。
- 不正蒸留を抑制し，モデルの真正性を検証する技術を確立すること。
- 単純な指示に基づく書き換えアプローチが，高い不正蒸留抑制効果を示した。
- 書き換えアプローチは，教師モデルの性能を維持または向上させる。
- 信頼性の高いウォーターマークの埋め込みと検出が可能になった。
Link: https://arxiv.org/abs/2602.15143
医療画像解析のための差分プライバシー表現幾何学 [eess.SY, cs.SY, cs.RO, cs.CV, cs.AI, cs.LG]目的：医療画像における差分プライバシーの影響評価手法
- 医療画像解析は，疾病の早期発見や診断精度の向上に不可欠である。
- 差分プライバシー導入時のユーティリティ低下メカニズムが不明確であり，適切なプライバシーモデル選択が困難である。
- 差分プライバシーが表現空間に及ぼす影響を幾何学的に分析し，ユーティリティ低下の要因を特定する。
- 差分プライバシーは，線形分離性が維持される場合でも一貫して利用ギャップを伴うことが示された。
- 表現の変位やスペクトル次元は，初期化やデータセットに依存した非単調な変化を示すことが明らかになった。
- DP-RGMIは，プライバシー導入による失敗モードの診断とプライバシーモデル選択のための再現性のあるフレームワークとして有用である。
Link: https://arxiv.org/abs/2603.01098
エージェンシーの情報コスト：実用強化学習における相互作用効率の制限付き尺度 [cs.AI, cs.LG]目的：実環境における強化学習エージェントの相互作用効率評価指標
- 強化学習は，ロボティクスや自動運転など，様々な分野で応用が期待されている。
- 実環境での強化学習エージェントは，報酬やタスク指標のみで健全性を評価しづらい。
- 観測，行動，結果間の不確実性低減度合いを測る指標の開発が求められている。
- 提案手法である双予測可能性（P）は，エージェントの相互作用ループにおける情報伝達効率を定量化する。
- 理論的にPの上限は0.5であり，エージェンシーが存在する場合，Pは0.33程度に抑制されることが確認された。
- 実環境での実験において，双予測可能性に基づく監視は，報酬に基づく監視よりも高い精度と低い遅延でシステム劣化を検出した。
Link: https://arxiv.org/abs/2603.01283
Social-JEPA：創発する幾何学的同型性 [cs.CV, cs.AI]目的：異なる視点からの環境モデル間の幾何学的同型性の発見
- 分散型ビジョンシステムの相互運用性は，ロボットやAIの協調作業において重要である。
- 異なる視点からの環境モデルは，通常，表現空間が異なり，相互運用が困難である。
- 予測学習が表現幾何学に課す規則性から，相互運用性の新たな道筋を模索する。
- 異なる視点から学習したエージェントの潜在空間が，近似的な線形等距変換によって関連付けられることが示された。
- この幾何学的合意は，視点の大きな変化や生のピクセルの重複が少ない場合でも維持される。
- 学習されたアライメントを利用することで，一方のエージェントで訓練された分類器を，追加の勾配ステップなしに他方へ移植できる。
Link: https://arxiv.org/abs/2603.02263
脆弱な思考：大規模言語モデルにおける思考連鎖の摂動への対処 [cs.AR, cs.CL, cs.AI, cs.LG]目的：大規模言語モデルにおける思考連鎖の摂動に対する頑健性
- 大規模言語モデルは推論能力の向上に貢献するが，その信頼性評価は重要である。
- 思考連鎖プロンプトは有用だが，中間推論ステップのわずかな誤りが性能に及ぼす影響は不明である。
- 思考連鎖における様々な摂動がモデルの性能に与える影響を定量的に評価する。
- モデルサイズが大きいほど，多くの摂動に対して耐性が高い傾向が見られた。
- 特に数学的誤りによる摂動は，小規模モデルにおいて顕著な精度低下を引き起こした。
- 単位換算の摂動は，モデルサイズに関わらず，ある程度の性能低下をもたらすことが示された。
Link: https://arxiv.org/abs/2603.03332
ガンマ線分光における放射性同位体識別に対する教師なしドメイン適応 [cs.LG]目的：放射性同位体識別におけるドメイン適応手法の有効性
- ガンマ線分光は，環境モニタリングや核セキュリティなど，幅広い分野で放射性物質の同定に不可欠である。
- 実環境データはラベル付けが困難であり，シミュレーションデータと実環境データ間の分布のずれが課題となる。
- シミュレーションデータで学習したモデルを，ラベルのない実環境データを用いて適応させ，識別精度を向上させる。
- 教師なしドメイン適応(UDA)により，シミュレーションデータで学習したモデルの汎化性能が向上することが示された。
- 特に，最大平均不一致(MMD)最小化やドメイン敵対的学習などの特徴量アラインメント戦略が有効であった。
- MMD最小化を用いた場合，実験用LaBr$_3$テストセットで0.904±0.022の識別精度を達成し，アラインメントなしの0.754±0.014と比較して大幅な改善が見られた。
Link: https://arxiv.org/abs/2603.05719
ConFu：より良い推測サンプリングのために未来を考察する [cs.CL, cs.LG]目的：大規模言語モデルの推論加速のための推測デコーディングの改善
- 大規模言語モデルの利用拡大には，推論速度の向上が不可欠である。
- 従来の推測デコーディングでは，ドラフトモデルの誤り累積がボトルネックとなっていた。
- 未来の生成方向を予測するドラフトモデルを開発し，推測デコーディングの精度と速度を向上させる。
- ConFuは，未来志向のシグナルを活用するコンテンプレートトークンとソフトプロンプトを導入した。
- Llama-3およびQwen-3において，ConFuはEAGLE-3と比較してトークン受容率と生成速度を向上させた。
- 本研究は，推測デコーディングと連続的な推論トークンを融合させた最初の試みであり，LLM推論の加速に新たな方向性を示す。
Link: https://arxiv.org/abs/2603.08899
大規模言語モデルに対する脱獄スケーリング則：多項式から指数への移行 [cs.LG, cs.AI]目的：大規模言語モデルにおける脱獄攻撃の成功率の変動
- 安全性確保が重要な言語モデルの利用において，悪意ある攻撃に対する脆弱性が懸念される。
- 脱獄攻撃の成功率は，サンプル数増加に伴い，多項式的な増加にとどまる場合がある。
- プロンプト注入攻撃による成功率の指数関数的な増加のメカニズムを解明すること。
- プロンプト注入攻撃は，脱獄攻撃の成功率を指数関数的に高めることが実証された。
- この現象は，安全な生成分布の統計的メカニズムと，スピンガラスシステムにおけるレプリカ対称性の破れによって説明できる。
- 短く弱いプロンプトはべき乗則，長く強いプロンプトは指数則に従うことが理論的に示された。
Link: https://arxiv.org/abs/2603.11331
ソフトマックスTransformerにおいてアテンションシンクは証明可能に必要である：トリガー条件タスクからの証拠 [cs.LG]目的：ソフトマックスTransformerにおけるアテンションシンクの必要性
- Transformerは自然言語処理の基盤であり，その性能向上は重要な課題である。
- Transformerにはアテンションシンクという問題があり，モデルの解釈性や汎化性能を阻害する可能性がある。
- 本研究は，アテンションシンクが必ずしも不要な副作用ではなく，特定の条件下では機能的に必要であることを示す。
- 特定のトリガー条件タスクにおいて，ソフトマックス自己注意モデルには必然的にアテンションシンクが発生することが証明された。
- 確率シンプレックス上での正規化制約が，アテンションシンクの根本的な原因であることが示唆された。
- ReLUアテンションは正規化制約がないため，同様のタスクをシンクなしで解決可能であり，実験によって確認された。
Link: https://arxiv.org/abs/2603.11487
OSCBench：テキストから動画生成における物体状態変化のベンチマーク [cs.CV, cs.AI, cs.CL]目的：テキストから動画生成モデルにおける物体状態変化の評価
- 動画生成技術の発展は，エンターテイメントや教育など多岐にわたる分野での応用が期待される。
- 既存の評価指標は主に動画の品質やテキストとの関連性に焦点を当てており，物体状態変化の理解度は未評価である。
- テキストに明示された物体状態変化を正確に再現できる動画生成モデルの性能向上を目指す。
- 既存のテキストから動画生成モデルは，意味的整合性やシーンの整合性は高いものの，物体状態変化の正確性，特に新規・複合的な状況下で課題がある。
- OSCBenchは，料理の指示データを用いて構築されており，一般的な状態，新しい状態，状態の組み合わせのシナリオを網羅することで，モデルの汎化性能を評価できる。
- 本研究の結果は，物体状態変化がテキストから動画生成における重要なボトルネックであり，状態を意識した動画生成モデルの開発が不可欠であることを示唆する。
Link: https://arxiv.org/abs/2603.11698
ナラティブ生成における分布外のバイアス軽減のための事前条件付きテスト時適応 [cs.CL, cs.AI, cs.CY]目的：ナラティブ生成における分布外バイアスの軽減
- 大規模言語モデルの応用拡大に伴い，潜在的なバイアスへの対処が不可欠である。
- 既存のバイアス軽減手法は，未知のバイアスを含むプロンプトに対して効果が低下する。
- テスト時にバイアスを検出し，迅速かつ安定的にモデルを適応させることで，バイアス軽減を図る。
- 提案手法CAP-TTAは，バイアスリスクスコアに基づいてLoRA更新をトリガーすることで，低遅延でバイアスを軽減する。
- CAP-TTAは，既存の最適化手法と比較して，毒性/バイアススコアを効果的に低減し，カタストロフィック・フォゲッティングを防ぐ。
- ナラティブの流暢性を向上させつつ，バイアス軽減性能を維持することが確認された。
Link: https://arxiv.org/abs/2603.13683
ArrayTac：形状，剛性，摩擦を連続的に再現する閉ループ圧電触覚プラットフォーム [cs.RO, cs.AI, cs.HC]目的：形状，剛性，摩擦の再現に関する触覚ディスプレイ
- 人間の触覚は，形状，剛性，摩擦の統合に依存する。そのため，これらの情報を再現する技術が重要となる。
- 既存の触覚ディスプレイは，これらの感覚を直感的に知覚できる高精度な信号として連続的に再現することが困難である。
- ArrayTacは，これらの感覚を同時に再現し，多次元的な触覚レンダリングとインタラクションを可能にすることを目指す。
- ArrayTacは，4x4のアクチュエータアレイ上で，形状，剛性，摩擦を連続的に再現する閉ループ圧電触覚ディスプレイである。
- 心理実験の結果，訓練されていない参加者でも，触覚のみで3次元形状の識別や，複数の剛性・摩擦レベルの区別が可能となった。
- RGB画像からの触覚レンダリングや，1000km離れた場所からの医療用乳房腫瘍ファントムの触診において，参加者は腫瘍の番号と種類を亜センチメートル以下の誤差で識別できた。
Link: https://arxiv.org/abs/2603.13829
VLA評価：ビジョン・言語・行動モデル統一評価フレームワーク [cs.AI]目的：ビジョン・言語・行動モデルの評価パイプライン構築の効率化
- ビジョン・言語・行動モデルは多様なタスクに応用可能であり，その性能評価は重要である。
- 各ベンチマークの依存関係の不整合や評価プロトコルの仕様不足が評価のボトルネックとなっている。
- ベンチマークとモデルの統合コストを削減し，効率的な総合評価を実現することを目指す。
- vla-evalは，WebSocketとDockerを用いた環境分離により，ベンチマークごとの評価コストを削減する。
- モデルは単一のpredict()メソッドを，ベンチマークは四つのメソッドを実装するだけで統合が可能となる。
- 本フレームワークは14のベンチマークと6つのモデルサーバーに対応し，最大47倍の高速化を実現した。
Link: https://arxiv.org/abs/2603.13966
密な文章検索における埋め込み圧縮のためのスペクトルテンパリング [cs.IR, cs.AI, cs.CL]目的：密な文章検索における埋め込み圧縮手法の提案
- 大規模検索システム構築には次元削減が不可欠であり，効率的な手法が求められている。
- 既存手法は，分散の保持とノイズの抑制のトレードオフに陥り，最適なパラメータ設定が困難である。
- この研究は，データスペクトルに基づき，最適な次元削減パラメータを自動的に決定する手法を開発する。
- スペクトルテンパリングは，パラメータチューニングなしで，最適な性能に匹敵する結果を達成する。
- 提案手法は，モデルに依存せず，ラベル付きデータも必要としない。
- 局所的なSNR分析とニーポイント正規化により，適応的なパラメータをデータから直接導出する。
Link: https://arxiv.org/abs/2603.19339
CRoCoDiL：言語のための連続的かつロバストな条件付き拡散 [cs.CL, cs.AI]目的：言語生成における効率性と品質の向上
- 自然言語生成は，人間とコンピュータ間のコミュニケーションにおいて重要な役割を担う。
- 従来のマスク拡散モデルは，トークン間の依存関係や意味の一貫性に課題がある。
- 連続的な潜在表現に基づいた拡散プロセスを導入し，これらの課題を解決することを目指す。
- 提案手法CRoCoDiLは，エンコーダー・デマッシャー構造を共同学習し，MDMのデマスキングを連続潜在表現に固定する。
- これにより，デコードにMDMアルゴリズムを用いる新しいオートエンコーダーが実現された。
- 実験の結果，提案手法は無条件設定において，生成品質が向上し，サンプリング速度が10倍以上向上した。
Link: https://arxiv.org/abs/2603.20210
SLE-FNO：フーリエニューラルオペレーターにおけるタスク非依存型継続学習のための単層拡張 [cs.LG]目的：フーリエニューラルオペレーターと単層拡張を組み合わせた継続学習アーキテクチャの開発
- 科学機械学習は代替モデル構築に利用が拡大中。しかし，分布外のデータへの対応が課題である。
- 継続学習において，過去データの再アクセスなしでの分布シフトへの適応と破滅的忘却の防止が課題である。
- 実験条件やシミュレーションの変化に対応できる，効率的な継続学習フレームワークを確立すること。
- SLE-FNOは，既存の継続学習手法と比較して，記憶保持率と安定性のバランスが最も優れていた。
- 特に，再現バッファ法やアーキテクチャベースの手法が良好な結果を示し，SLE-FNOはゼロ忘却と最小限のパラメータ増加を実現した。
- 本研究は，継続学習アルゴリズム間の差異を明らかにし，外挿が必要な場面でのベースラインモデル適応戦略としてSLE-FNOの有効性を示唆する。
Link: https://arxiv.org/abs/2603.20410
Seed1.8モデルカード：汎用的な現実世界での自律性に向けて [cs.AI]目的：汎用的な現実世界での自律性のための基盤モデル
- 現実世界での応用が期待されるAIエージェントの開発において，基盤モデルの重要性が高まっている。
- 従来のモデルは単一ターン予測に偏っており，複数ターンの対話やツール利用，複雑なタスク実行に課題がある。
- 複数ターン対話，ツール利用，多段階実行を可能にする，より高度なAIエージェントの実現を目指す。
- Seed1.8は，言語モデルおよび画像・言語性能を維持しつつ，検索，コード生成・実行，GUI操作といった統一的なエージェントインターフェースをサポートする。
- 低遅延かつ低コストな推論が可能で，思考モードの構成や画像・動画の効率的なエンコードにより，実用性を高めている。
- 標準ベンチマークと応用ワークフローにおける評価により，基礎能力，マルチモーダル理解，エージェントとしての振る舞いにおいて優れた性能を示す。
Link: https://arxiv.org/abs/2603.20633
認知的主体性の放棄：足場付きAI摩擦による認識的自律性の擁護 [cs.HC, cs.AI]目的：生成AIによる認知的主体性の放棄リスクと，その認識的自律性の擁護
- 生成AIの急速な発展は，認知のオフローディングから認知能力の低下という新たな課題を生み出している。
- 「ゼロ・フリクション」設計の追求が，人間の認知バイアスを助長し，判断力の低下を招いている。
- 足場付きAI摩擦の概念を提示し，AIガバナンスと社会の認知的な回復力を高めることを目指す。
- 2023年から2026年初頭までのAI-HCI論文分析により，人間の認識的自律性を擁護する研究が一時的に増加したが，その後，自律型機械エージェントの最適化へのシフトにより抑制された。
- 「足場付き認知摩擦」は，マルチエージェントシステムを認知的な強制関数として再利用し，認識的な緊張を注入することで，人間のヒューリスティックな実行を阻害する。
- 視線移動エントロピー，瞳孔反応，fNIRS，HDDMなどを統合した多Modalな計算表現型分析により，意思決定の結果と認知努力を数学的に分離することが可能になる。
Link: https://arxiv.org/abs/2603.21735
ARC-AGI-3：最先端のエージェント知能への新たな挑戦 [cs.RO, cs.RO, cs.AI]目的：エージェント知能の評価
- 汎用人工知能実現には，自律的な問題解決能力が不可欠である。
- 既存のAIは，言語や外部知識に依存し，柔軟な適応性に課題がある。
- 言語や知識に頼らず，環境探索と計画能力を評価する新たなベンチマークが必要である。
- ARC-AGI-3は，抽象的な環境でエージェントの探索，目標推論，モデル構築，計画能力を評価する。
- 人間の100%の正答率に対し，最先端のAIシステムは1%以下のスコアにとどまることが示された。
- ベンチマーク設計，効率ベースのスコアリング，環境構築・検証・校正手法を提示する。
Link: https://arxiv.org/abs/2603.24621
持続的なコントラスト分散法によるスケーラブルな最大エントロピー母集団合成 [cs.LG]目的：集計された人口統計データからの合成母集団生成
- 個人レベルのマイクロデータなしで母集団を生成する原則的な枠組みを提供することから，社会科学研究に不可欠である。
- 属性数が増加すると，正確な列挙的アプローチの期待値計算が現実的でなくなる。
- 持続的なコントラスト分散法を用いて，大規模な属性数に対しても効率的な合成母集団生成を可能にすること。
- 提案手法 GibbsPCDSolver は，属性数が増加しても高い精度を維持しながら，計算量を削減することを示した。
- Syn-ISTAT データセットを用いた評価では，汎用化ラキングと比較して，86.8倍の多様性向上を実現した。
- 計算時間のスケーリングが属性数 $K$ に依存する $O(K)$ であることを確認した。
Link: https://arxiv.org/abs/2603.27312
マルチエージェントからシングルエージェントへ：スキル蒸留はどのような場合に有益か [cs.AI]目的：スキル蒸留の有益性判断基準および適応的な蒸留フレームワーク
- 複雑なタスク解決において，複数エージェントによる分散処理は有効だが，調整コストが大きい。
- マルチエージェントシステムからシングルエージェントへの蒸留のタイミングや対象の選択基準が確立されていない。
- 評価指標の種類に着目し，蒸留の有益性を予測することで，効率的な蒸留を可能にする。
- スキル蒸留の有効性は，タスクではなく評価指標の特性によって大きく左右されることが示された。
- 評価指標の「自由度」を測る指標Fを導入し，スキル蒸留の有効性を事前に予測することが可能になった。
- AdaSkillという適応的蒸留フレームワークを提案し，コストを最大8倍，遅延を最大15%削減しつつ，元の性能を維持または向上させた。
Link: https://arxiv.org/abs/2604.01608
多層パーセプトロンにおけるプラトー，最適解，過学習：鞍点-鞍点-アトラクターシナリオ [cs.LG, nlin.AO]目的：多層パーセプトロンにおける学習ダイナミクスの記述
- 機械学習は，現代社会の様々な分野で活用が拡大しており，その重要性は増している。
- 勾配消失や過学習は機械学習の主要な課題だが，その動的な起源は十分に解明されていない。
- 過学習に至る学習過程におけるダイナミクスを明示し，最適化の限界を示す。
- 学習ダイナミクスは，鞍点構造によって組織されたプラトーやほぼ最適領域を通過する。
- 適切な条件下では，過学習領域は対称性に関して単一のアトラクターに崩壊する。
- 有限ノイズデータセットにおいては，理論的な最適解への収束は不可能であり，必ず過学習解に落ち着く。
Link: https://arxiv.org/abs/2604.02393
Olmo Hybrid：理論から実践，そして再び理論へ [cs.LG, cs.CL]目的：ハイブリッドモデルの優位性に関する証拠
- 言語モデルの性能向上は，自然言語処理の発展に不可欠である。
- Transformerモデルの計算コストが課題となっており，代替アーキテクチャが求められている。
- ハイブリッドモデルの潜在的な利点を実証し，大規模化の妥当性を検証すること。
- 理論的に，ハイブリッドモデルはTransformerや線形RNNを超える表現能力を持つことが示された。
- 実証実験の結果，Olmo HybridはOlmo 3よりも優れた事前学習および中間学習性能を示した。
- ハイブリッドモデルはTransformerよりも効率的にスケールすることが確認された。
Link: https://arxiv.org/abs/2604.03444
個々の制約条件を持つレストレス強盗: ほぼ最適なインデックスと深層強化学習 [cs.LG]目的：個々の制約条件下のレストレス多腕バンディット問題に対する最適資源配分策
- 無線ネットワーク環境など動的な資源配分は重要であり，各ユーザーの要求に応える必要がある。
- 従来のRMABモデルでは，ユーザーごとの厳格な制約条件を考慮できず，公平性や効率が損なわれる場合がある。
- ユーザー固有の制約を考慮しつつ，効率的な資源配分を可能にする最適インデックスを提案する。
- 提案するPenalty-Optimal Whittle (POW)インデックスは，システムの規模に依存せず計算可能である。
- POWインデックスに基づく資源配分策は，全ての個々の制約条件を満たしつつ漸近的に最適である。
- 深層強化学習アルゴリズムを用いることで，POWインデックスを効率的に学習できることが示された。
Link: https://arxiv.org/abs/2604.04101
文脈エージェント：非線形対話のための動的談話木 [cs.CL, cs.AI]目的：非線形対話における文脈管理の改善
- 自然な会話は階層的かつ分岐構造を持つため，その構造を捉えることが重要である。
- 既存の対話履歴の扱いは線形であり，複雑な対話や話題の転換に弱い。
- 対話履歴を動的な木構造としてモデル化し，文脈の効率的な利用を目指す。
- 文脈エージェントは，複数の対話分岐を維持し，長期間の対話における一貫性を高める。
- 様々なLLMにおいて，タスク完了率の向上とトークン効率の改善が確認された。
- 非線形対話評価用のベンチマークデータセット「NTM」を新たに開発した。
Link: https://arxiv.org/abs/2604.05552
ニューラルコンピュータ [cs.LG, cs.AI]目的：ニューラルコンピュータの学習による実現可能性
- 計算機科学の発展において，ハードウェアとソフトウェアの境界を曖昧にする新たなアーキテクチャが求められている。
- 従来のコンピュータは，計算，記憶，入出力が分離しており，柔軟性に課題がある。
- 学習可能なランタイム状態を持つニューラルコンピュータの基本素子を確立し，新たな計算パラダイムを提示すること。
- ニューラルコンピュータは，CLIおよびGUI環境において，基本的なインターフェース素子を獲得できることが示された。
- 特に，入出力の整合性や短期的な制御において学習が成功した。
- しかし，ルーチンの再利用，制御された更新，記号的な安定性には依然として課題が残る。
Link: https://arxiv.org/abs/2604.06425
HQF-Net：リモートセンシング画像セグメンテーションのためのハイブリッド量子・古典的マルチスケール融合ネットワーク [cs.CV, cs.AI]目的：リモートセンシング画像セグメンテーションのためのハイブリッド量子・古典的マルチスケール融合ネットワークの設計
- リモートセンシングは，広範囲な地理情報の収集に不可欠であり，土地利用や環境変化の監視に活用される。
- 従来のセグメンテーション手法では，複雑なシーンにおける空間的詳細と高レベルな意味的文脈を同時に捉えることが課題である。
- 量子技術を活用することで，特徴表現の能力を向上させ，セグメンテーションの精度を高めることを目指す。
- 提案手法HQF-Netは，LandCover.aiにおいて0.8568のmIoUと96.87%の全体精度を達成した。
- OpenEarthMapでは71.82%のmIoU，SeasoNetでは55.28%のmIoUと99.37%の全体精度を記録した。
- アーキテクチャの構成要素ごとの検証により，各要素が性能向上に貢献することが確認された。
Link: https://arxiv.org/abs/2604.06715
AdaBoostは必ずしもサイクルしない：コンピュータ支援による反例 [cs.LG]目的：AdaBoostの収束に関する反例の提示
- 機械学習の理論的基盤を確立する上で，学習アルゴリズムの挙動理解は不可欠である。
- AdaBoostが常に有限サイクルに収束するかどうかは未解決問題であり，理論的な限界が不明確であった。
- AdaBoostが有限サイクルに収束しないケースの存在を示すことで，アルゴリズムの理解を深める。
- コンピュータ支援による反例を構築し，AdaBoostが有限サイクルに収束しない場合が存在することを示した。
- 反例の構成は，2つの要素を持つブロック積ガジェットに基づき，各要素が周期2の軌道を持つ。
- この非有理数は，勝利系列の漸近的周波数を非有理数にし，最終的な周期性を妨げる。
Link: https://arxiv.org/abs/2604.07055
共感的対話システムのための戦略に基づいた段階的推論フレームワークSTRIDE-ED [cs.CL, cs.AI]目的：共感的な対話のための戦略的，文脈に依存した応答生成
- 対話システムにおいて，ユーザーの感情を理解し，適切に応答することは重要である。
- 既存のアプローチは，包括的な共感戦略フレームワークや，明確なタスク指向の多段階推論を欠いている。
- 本研究は，共感的対話を複雑な認知・意思決定プロセスとしてモデル化することを目指す。
- STRIDE-EDは，戦略に基づいた解釈可能な深層推論フレームワークであり，共感的対話における構造化された戦略条件付き推論をモデル化する。
- LLMベースの注釈，多Modal一貫性加重評価，動的サンプリングを統合した戦略を意識したデータ洗練パイプラインを開発し，高品質な学習データを構築した。
- 教師ありファインチューニングと多目的強化学習を組み合わせた二段階の学習パラダイムを採用し，モデルの振る舞いをターゲットの感情，共感戦略，応答形式に適合させた。
Link: https://arxiv.org/abs/2604.07100
対話型顔動画における感情編集のためのクロスモーダル感情転移 [cs.CV, cs.LG]目的：対話型顔動画における感情編集のための手法
- 生成モデルの主要な応用分野であり，より自然で表現力豊かな動画生成が求められている。
- 既存手法では，感情表現の柔軟性や継続的な感情の生成が課題となっていた。
- 音声から感情意味ベクトルを学習し，視覚的特徴空間への感情転移を可能にすること。
- 提案手法C-METは，大規模な事前学習済み音声エンコーダと分離された表情エンコーダを活用し，感情意味ベクトルを学習する。
- 実験結果から，C-METは最先端手法と比較して感情認識精度を14%向上させることが示された。
- 未学習の複雑な感情を含め，表現力豊かな対話型顔動画を生成することが可能となった。
Link: https://arxiv.org/abs/2604.07786
Leave-One-Out分析によるSVG生成の構造評価指標 [cs.IR, cs.IR, cs.CL, cs.LG, stat.AP]目的：SVG生成の構造的性質の評価
- SVGは編集・分解・再利用が可能なベクトル画像であり，その利点を活かすには構造評価が重要である。
- 従来のSVG評価はレンダリングされた画像と参照画像の比較に依存しており，構造的側面を捉えられていない。
- 要素単位のLeave-One-Out分析によって，SVGの構造的性質を定量的に評価する指標を開発する。
- 要素単位のLeave-One-Out分析により，アーティファクト検出，要素-コンセプトの関連付け，構造的指標の算出が可能となった。
- 提案する構造的指標（純度，網羅性，コンパクト性，局所性）は，SVGのモジュール性を多角的に評価できる。
- 実データを用いた検証により，提案手法が5つの生成システムと3つの複雑さレベルにおいて有効であることが示された。
Link: https://arxiv.org/abs/2604.08809
LiDARにおける分布事前確率を用いた分布外検出 [cs.CV, cs.AI]目的：LiDARデータの分布外検出における性能向上
- 自動運転において，LiDARは悪天候下でも安定した知覚機能を提供する重要な技術である。
- 既存手法は，LiDARデータの分布外検出において，クラスの不均衡を無視し，均一な分布を仮定している。
- 学習データの分布をモデル化し，分布外スコアを適応的に重み付けすることで，分布外検出の精度向上を目指す。
- 提案手法NDPは，ネットワーク予測の分布構造をモデル化し，学習分布との整合性に基づき分布外スコアを再重み付けする。
- Perlinノイズを用いた分布外サンプル合成戦略により，外部データセットなしでロバストな分布外学習を実現する。
- SemanticKITTIとSTUベンチマーク実験の結果，NDPはSTUテストセットで点レベルAP61.31%を達成し，従来最高の結果を10倍以上上回る性能を示した。
Link: https://arxiv.org/abs/2604.09232
COMPOSITE-STEM：科学的発見を加速するAIエージェントの評価ベンチマーク [cs.AI, cs.CL, cs.LG]目的：科学的発見の加速を目的としたAIエージェントの能力評価
- AI技術は科学的発見を加速する潜在力を持つが，実用化には評価の基準が不可欠である。
- 既存の評価ベンチマークは飽和状態にあり，AIの多様な能力を十分に測れないという課題がある。
- 本研究は，より柔軟な評価基準を用いてAIエージェントの科学的思考能力を測定することを目指す。
- COMPOSITE-STEMは，物理，生物，化学，数学の分野における70の専門家作成タスクから構成される。
- 最先端モデルの評価の結果，平均正答率は21％であり，現在のAIエージェントの能力限界が示された。
- 全てのタスクはオープンソースとして公開され，再現性とさらなる研究を促進する。
Link: https://arxiv.org/abs/2604.09836
MR-Coupler: 関数結合分析による自動的変異テスト生成 [cs.SE, cs.AI]目的：関数結合分析を利用した変異関係の自動構築と変異テストケースの生成
- ソフトウェアの品質向上において，テストは不可欠であり，特にオラクル問題の解決が重要である。
- 変異テストは有効だが，効果的な変異関係の構築が難しく，専門知識や情報が必要となる。
- ソースコードから容易に得られる関数結合を利用し，変異関係を自動的に構築することで，この課題を解決する。
- MR-Couplerは，関数間の結合を分析し，大規模言語モデルを用いて変異テストケース候補を生成する。
- 生成された変異テストケースの妥当性は，テスト増幅と突然変異分析によって検証される。
- 実験の結果，MR-Couplerは90%以上のタスクで有効な変異テストケースを生成し，実世界のバグの44%を検出した。
Link: https://arxiv.org/abs/2604.10126
驚異のエージェントレース：強力なツール使用者，弱いナビゲーター [cs.AI, cs.CL, cs.LG]目的：LLMエージェントのツール使用とナビゲーション能力の評価
- LLMエージェントは多様なタスクへの応用が期待され，その能力評価が重要である。
- 既存のベンチマークは単純なタスクチェーンに偏っており，複雑な問題解決能力を測れない。
- 複雑なナビゲーションとツール使用を必要とするタスクでエージェントの弱点を明らかにする。
- 既存のベンチマークは単純なツールチェーンに偏りがあり，複雑なタスクでの評価が困難であった。
- 新ベンチマーク「Amazing Agent Race」は，分岐・合流のある複雑な問題でエージェントの能力を評価する。
- 実験の結果，ナビゲーションエラーが主要な原因であり，ツール使用能力よりもナビゲーション能力が課題であることが示された。
Link: https://arxiv.org/abs/2604.10261
エージェントの安全性の盲点：無害なユーザー指示がコンピュータ利用エージェントの重大な脆弱性を露呈する仕組み [cs.CR, cs.AI]目的：コンピュータ利用エージェントの安全性評価
- 近年，エージェントの自律性が向上し，複雑なタスクを実行できるようになったため，安全性確保が重要となっている。
- 既存の安全性評価は，悪意のある攻撃に焦点を当てており，無害な指示による潜在的な危険性を見過ごしている。
- 無害な指示の下で発生する可能性のある，環境や実行結果に起因する危害を明らかにすること。
- OS-BLINDベンチマークを用いた評価により，多くのCUAが90%以上の攻撃成功率(ASR)を示すことが判明した。
- 特に，安全性に配慮されたClaude 4.5 Sonnetでさえ，73.0%のASRに達し，マルチエージェントシステムでは92.7%に上昇した。
- 既存の安全対策は，無害な指示に対しては限定的な効果しかなく，安全性アライメントは初期段階でしか機能しない傾向にある。
Link: https://arxiv.org/abs/2604.10577
ReXSonoVQA：手順重視の超音波理解のためのビデオQAベンチマーク [cs.CV, cs.AI]目的：手順重視の超音波理解を目的としたビデオQAベンチマーク
- 超音波検査は熟練した操作を要し，医療現場でのニーズが高い。
- 既存のベンチマークは静止画像のみ評価し，動的な手順理解が不足している。
- 超音波検査における手順理解の評価と，自動化システムの開発を目指す。
- ReXSonoVQAは，514本のビデオクリップと514の質問で構成される新しいベンチマークである。
- Gemini 3 Pro等のLLMは，ある程度の手順情報を抽出できるものの，原因究明型の質問は依然として課題である。
- 本ベンチマークは，超音波トレーニング，ガイダンス，ロボット自動化のための知覚システムの開発に貢献する。
Link: https://arxiv.org/abs/2604.10916
固定された偽発見率を超えて：E変数を用いた事後的適合性選択 [cs.LG, cs.IT, math.IT, stat.ML]目的：適合性選択における，データに基づいた偽発見割合の推定と，ユーザーが指定する有用性を最大化することによる選択点の決定
- 多検定問題において，偽発見率の制御は重要な課題であり，ゲノミクスや神経画像処理等の分野で特に重要である。
- 従来の適合性選択法は，目標とする偽発見率を事前に固定するため，データに応じて選択数と偽発見率のバランスを調整することが困難であった。
- 本研究は，データ駆動型の偽発見割合の推定に基づき，ユーザーが指定した有用性を最大化することで，柔軟な選択を可能にすることを目指す。
- 事後的適合性選択（PH-CS）は，候補選択集合の経路を生成し，各集合とデータに基づいた偽発見割合の推定値を対応付ける。
- PH-CSは，ユーザーが指定する有用性を最大化することで，選択サイズと偽発見率のバランスを自由に調整できる。
- 理論的に，PH-CSは有限サンプルにおける信頼性保証を提供し，推定された偽発見割合と実際の偽発見割合の比率が平均で1以下となることが示された。
Link: https://arxiv.org/abs/2604.11305
マルチモーダル視覚言語モデルにおける地域適応 [cs.AI, cs.CL, cs.CV]目的：人間中心の視覚言語システムにおける地域適応の最適化
- 視覚とテキスト情報を統合する視覚言語モデルは進歩しているが，地域性への対応が課題である。
- 既存のシステムでは，地域固有の文脈への適合性と汎化性能の両立が難しい。
- 地域に適応させつつ，グローバルな性能を維持するフレームワークの構築を目指す。
- 新たなパラダイム「人間起源地域適応」を提案し，地域コンテキストへの適合性とグローバルな汎化能力の維持を両立する。
- 地域データフィルタリングとモデルマージを利用した効果的な適応手法「GG-EZ」を開発した。
- 東南アジア地域での実験により，GG-EZが文化的関連性の指標において5-15%の改善を示し，グローバル性能を維持・向上させることが示された。
Link: https://arxiv.org/abs/2604.11490
数値推論のための三項接尾辞トークン化方式 [cs.CL, cs.AI, cs.LG]目的：数値推論における言語モデルの誤差軽減策
- 大規模言語モデルの性能向上の鍵となるトークン化技術の重要性
- 従来のトークン化方法では，数値の構造が失われやすく，計算や科学的推論で誤りが生じやすい
- 数値の桁構造を維持し，言語モデルの学習を安定化させるトークン化方式を提案する
- 三項接尾辞トークン化(TST)は，数値を3桁のグループに分割し，明示的な大きさマーカーを付加する。
- TSTは，整数部と小数部に対してそれぞれ固定的なマッピングを用いることで，桁数の関係性を明確化する。
- 語彙ベースとサフィックスマーカーの2つの実装方法が提案されており，既存のモデルに容易に組み込むことが可能である。
Link: https://arxiv.org/abs/2604.11582
Transformerにおける文脈内分類の層別ダイナミクス [cs.LG, cs.AI]目的：Transformerにおける文脈内分類の層別ダイナミクス
- Transformerは自然言語処理の分野で重要な役割を果たしており，その性能向上は様々な応用を可能とする。
- Transformerの推論プロセスはブラックボックスであり，その内部メカニズムの解明が求められている。
- Transformerの層ごとの動作を分析し，文脈内分類におけるアルゴリズムを特定することを試みる。
- 各層における特徴量とラベルの置換不変性を強制することで，モデルの解釈可能性を向上させた。
- softmax変換器内で，層の深さに応じた明示的な再帰更新規則を初めて抽出した。
- 特徴量とラベルのグラム構造から生成された注意行列が，訓練点，ラベル，テストプローブの更新を促進する動的なアルゴリズムを実装していることを示した。
Link: https://arxiv.org/abs/2604.11613
LLM，スパース分散メモリ，ニューロモーフィックの先へ：超高速・超低電力・低コストなハイパー次元SRAM-CAM "VaCoAl" [cs.NE, cs.AI]目的：ハイパー次元計算における経路依存的セマンティック選択メカニズムの創発と，その定量化
- 人工知能分野において，従来のモデルの限界を超える新しい計算パラダイムの探求が重要である。
- 大規模言語モデルは強力だが，推論過程の可視性や説明可能性に課題がある。
- 本研究は，可逆的で監査可能な多段推論を実現する新しいハイパー次元計算モデルを提案する。
- ガロア体代数を活用することで，エラー訂正ではなく，相対的な類似性や経路品質の評価エンジンとして機能させる新たなアーキテクチャを提示した。
- 提案手法VaCoAlは，スパース分散メモリに基づき，経路積分信頼度を用いて候補をランク付けし，スパイクタイミング依存可塑性（STDP）様の選択を実現する。
- Wikidataのデータを用いた実験により，多段推論における概念伝播を定量的に評価し，従来のパラダイムシフトを示唆する結果を得た。
Link: https://arxiv.org/abs/2604.11665
ヒューリスティック思考分類 (HCoT): 大規模言語モデルへの構造化された推論統合 [cs.AI]目的：複雑な問題解決における大規模言語モデルの限界克服
- 大規模言語モデルは多様なタスクで高性能だが，複雑な問題解決には課題が残る。
- 言語モデルの推論過程の確率的性質が，決定的な計画立案を阻害する。
- 知識の動的な活用と推論戦略の連携による問題解決能力の向上。
- 提案手法HCoTは，既存手法（Tree-of-Thoughts，Chain-of-Thoughts）を凌駕する性能を示す。
- 24ゲーム問題においては，最新のTree-of-Thoughts-Breadth-First-Searchと比較して，トークン効率が大幅に向上する。
- HCoTは，精度とトークン使用量の両面で優れたトレードオフを実現し，計算コストも抑える。
Link: https://arxiv.org/abs/2604.12390
SOAR：拡散モデルにおける最適なアライメントと改良のための自己修正 [cs.LG, cs.AI]目的：拡散モデルの性能改善
- 拡散モデルは画像生成等の分野で高い性能を示すが，さらなる品質向上が求められている。
- 従来のファインチューニング手法では，生成過程のずれにより性能が低下する問題がある。
- 本研究は，自己修正による学習でこのずれを解消し，高品質な画像生成を目指す。
- SOARは，SD3.5-Mediumにおいて，GenEvalとOCRのスコアをそれぞれ0.70から0.78，0.64から0.67へと向上させた。
- 報酬モデルを用いずに，Flow-GRPOを上回る性能を，美的品質とテキスト・画像アライメントのタスクで示した。
- SOARは，標準的なファインチューニングに取って代わり，その後のRLアライメントとも互換性がある。
Link: https://arxiv.org/abs/2604.12617
KMMMU：韓国語と文脈における大規模多分野マルチモーダル理解の評価 [cs.NI, cs.CL, eess.AS, cs.CL, cs.LG, cs.MM]目的：韓国の文化的・制度的背景におけるマルチモーダル理解の評価
- AIの多様な言語への対応は重要であり，特に情報量の多い言語への応用が求められている。
- 既存の評価ベンチマークは英語中心であり，韓国語のような言語特有の理解度が評価されていない。
- 韓国語の専門知識や文化的背景を要する問題に対するAIの理解度を評価し，改善を目指す。
- KMMMUは，韓国の試験問題から作成された3,466問のデータセットである。
- 最も高性能なオープンソースモデルの正答率は42.05％，商用モデルは難易度の高い問題で52.42％であった。
- エラー分析の結果，ラベルへのマッピングの弱さ，知識の想起，ドメイン固有の理解が課題であることが示唆された。
Link: https://arxiv.org/abs/2604.13058
複数ターンのLLM対話におけるトークン統計が会話のずれを明らかにする [cs.CL, cs.AI]目的：複数ターンのLLM対話における会話の一貫性低下の検出
- LLMは対話形式での利用が増加しており，信頼性は対話の一貫性に依存する。
- 既存の評価方法は単一の応答を評価するだけで，対話全体の構造的な一貫性を捉えられない。
- トークン頻度統計を用いて，LLM対話の一貫性を監視し，信頼性を高めることを目指す。
- 会話の構造的一貫性は，トークン頻度統計から直接監視可能であることが示された。
- 提案手法であるBipredictability（P）は，構造的一貫性と85%の条件で一致したが，意味的品質との一致率は44%に留まった。
- Information Digital Twin（IDT）は，矛盾，話題のずれ，論理の飛躍を100%の感度で検出した。
Link: https://arxiv.org/abs/2604.13061
前方フィードフォワードにおける選択性と形状：善さ関数の設計 [cs.LG, cs.AI, cs.NE]目的：善さ関数の設計に関する探求
- 深層学習の性能向上には，学習アルゴリズムの改善が不可欠である。
- 従来の善さ関数の選択肢が限られており，その設計原理が不明確であった。
- ニューラル活動の形状に着目した善さ関数を設計し，性能向上を目指す。
- 善さ関数がニューラル活動の形状に敏感であることが重要であると示された。
- ピーク活動のみを計測する選択的関数と，重い裾を持つ分布を報酬する形状感受性関数が有効であることが確認された。
- 提案手法は，MNISTで98.2%という高い精度を達成し，従来のSoSと比較して大幅な性能向上を示した。
Link: https://arxiv.org/abs/2604.13081
KVパケット：LLMのための再計算不要な文脈非依存KVキャッシュ [cs.LG, cs.AI]目的：LLMの推論遅延を最小化するための文脈非依存KVキャッシュ手法
- LLMの性能向上には，高速な推論が不可欠であり，KVキャッシュが重要な役割を果たす。
- 従来のKVキャッシュは文脈に依存するため，文脈が変わると再計算が必要となり，効率が低下する。
- 文脈の変化に強い，再計算不要なKVキャッシュ手法を開発し，推論効率を向上させる。
- 提案手法KVパケットは，キャッシュされたドキュメントを不変の「パケット」として扱い，軽量なアダプターで文脈の断絶を埋める。
- Llama-3.1およびQwen2.5を用いた実験により，KVパケットは再計算ベースラインと比較してFLOPsをほぼゼロに抑え，TTFTを低減できることが示された。
- F1スコアは完全再計算ベースラインと同等の水準を維持しており，KVパケットの有効性が確認された。
Link: https://arxiv.org/abs/2604.13226