arXiv雑要約

AI - 2026/06/03 公開

視覚的指示チューニングは抽象化を通してモダリティを整合させる [cs.CV, cs.CL, cs.LG]目的：視覚と言語情報の処理を統合する大規模言語モデルの調整方法に関する研究
- 近年，画像とテキストの両方を理解できるモデルが求められており，そのための技術開発が重要である。
- 視覚的指示チューニングが有効であることは知られているが，LLMの内部でどのように視覚情報が組み込まれるのかは不明であった。
- LLMにおける視覚特徴の埋め込み位置を特定し，多imodal統合のメカニズムを解明することを目的とする。
- 視覚的指示チューニングは，LLMの早期層を迂回し，中間層に視覚特徴を直接埋め込むことで，視覚と言語を繋ぐ役割を果たすことが示された。
- 中間層が視覚と言語処理のセマンティックコアであり，ベンチマークにおける性能に重要な役割を果たすことが確認された。
- ファインチューニングは，既存の抽象化段階を拡張し，視覚特徴を事前学習済みのテキスト特徴と整合させる。
Link: https://arxiv.org/abs/2606.03871
高齢者の受動的トラッキングデータに対するLLM生成の振り返り要約を遠隔地の家族と共有すること：何からどのように，そしてなぜへ [cs.HC, cs.AI, cs.MA]目的：高齢者の遠隔地の家族に対する，マルチモーダルなトラッキングデータからの振り返り要約生成
- 高齢化社会において，遠隔地の家族が安心して高齢者の生活をサポートできる技術の重要性が高まっている。
- 多様なデータを統合し，意味のある情報として提供することが難しい。特に，感情的な繋がりを持つ家族への情報伝達は課題である。
- LLMを活用し，家族が理解しやすい，行動の背景や理由を含む要約を提供することで，情報格差を解消することを目指す。
- LLMを用いて生成した要約は，初期バージョンと比較して満足度，有用性，信頼性が有意に向上した。
- 家族は単に「何が」起こったかだけでなく，「どのように」高齢者が過ごしているか，そして「なぜ」そのような行動をとったのかを理解したいと考えている。
- AI生成要約は，客観的な統計情報から始まり，文脈を考慮した記述へと進化することで，家族の理解を深めることが重要である。
Link: https://arxiv.org/abs/2606.03876
エンコーダ蓄積を超えて：マルチエンコーダVLMにおけるエンコーダの役割の測定 [cs.CV, cs.AI]目的：マルチエンコーダVLMにおけるエンコーダの役割の理解
- 多様な視覚ストリームの融合が重要となる中で，エンコーダ間の相互作用を理解する必要がある。
- 大規模VLMはエンコーダの役割を分析するツールを欠いており，効率的なエンコーダ構成の特定が困難である。
- 共同学習下でのエンコーダの役割を再検討し，マルチエンコーダVLM設計のギャップを埋めるための基礎を提供する。
- エンコーダのサブセットを再学習した結果，固定チェックポイントでのマスクとは異なるエンコーダランキングが明らかになった。
- エンコーダの貢献を「能力」と「必要性」の2軸で分解し，最適戦略は高能力エンコーダ同士の組み合わせではないことを示した。
- エンコーダ前層プロジェクターの有効ランクがスコア変動を説明し，ランクが維持・拡大する組み合わせが最適であることが示唆された。
Link: https://arxiv.org/abs/2606.03879
大規模言語モデルの推論構造 [cs.AI, cs.LG]目的：大規模言語モデルの推論構造の分析
- AIの発展において，言語モデルの推論能力の理解は不可欠である。
- 既存の評価指標では，推論構造の違いを捉えきれないという課題がある。
- 推論構造を定量的に分析し，モデルの弱点を特定することを目指す。
- 論理パズルを用いたベンチマークと，推論グラフ変換パイプラインを開発した。
- 推論効率指標を定義し，モデルの論理的フローの集中度を定量化した。
- 構造的測定により，従来の指標では区別できない行動の違いを明らかにできた。
Link: https://arxiv.org/abs/2606.03883
情報開示のための分布経路による属性付与 [cs.LG]目的：入力特徴量の重要度を評価することによる予測の説明
- 機械学習モデルの意思決定過程を理解することは，信頼性と透明性を高める上で重要である。
- 既存の属性付与手法は，経路の定義や解像度制御が不十分で，誤った解釈を招く可能性がある。
- 入力空間ではなく分布空間で経路を定義し，より正確で安定した属性付与を実現することを目指す。
- 提案手法Reveal-IGは，期待されるモデル応答に関する完全性を維持しつつ，多規模画像プローブや特徴量ごとの不確実性に対応する経路属性付与フレームワークである。
- 合成診断の結果，Reveal-IGは入力空間法に見られる経路アーチファクトを回避できることが示された。
- ImageNet分類およびテーブル回帰タスクにおいて，Reveal-IGは属性付与の符号を活用する指標で優位性を示し，他の指標でも競争力がある。
Link: https://arxiv.org/abs/2606.03885
CoralBay：自己教師ありCT基盤モデル [eess.SY, cs.SY, cs.CV, cs.LG]目的：自己教師あり学習によるCT画像からの特徴抽出
- 医療画像診断の精度向上は，患者ケアの質を向上させる上で不可欠である。
- 2D画像で事前学習したモデルは，CT画像のような3次元データの特徴を十分に捉えられない。
- 3次元CT画像に特化した自己教師あり学習フレームワークを開発し，より高精度な特徴抽出を目指す。
- CoralBayは，階層的な3D Swinバックボーンと自己蒸留を用いることで，効率的な自己教師あり学習を実現した。
- CoralBayは，多様な解剖学的部位において，高い性能を示す幅広い下流タスクへの転移学習に成功した。
- 3次元放射線学のリーダーボードを公開し，ボリューム表現学習手法の標準化に貢献した。
Link: https://arxiv.org/abs/2606.03888
合成と報酬：実環境における多段階ツール利用のための強化学習 [cs.CL, cs.AI, cs.LG]目的：多段階ツール利用におけるLLMのオーケストレーション
- LLMの能力向上には，現実世界での複雑なタスク実行能力が不可欠である。
- 実環境の構築コストが高く，合成データは現実との乖離が生じやすい。
- 現実状態に基づいたデータ生成と効果的な報酬設計による課題解決を目指す。
- PROVEフレームワークにより，343のツールを持つMCPサーバー群を用いた実環境での強化学習が可能となった。
- 依存グラフに基づいた会話シミュレーションにより，現実のサーバー状態に即した検証済みツール利用軌跡を自動生成する。
- 複雑なプログラム報酬により，BFCL Multi-Turn等のベンチマークテストで最大10.2ポイントの改善が確認された。
Link: https://arxiv.org/abs/2606.03892
エージェント libOS：LLMエージェントのためのライブラリOS風ランタイム [cs.OS, cs.AI, cs.CR]目的：長期間実行可能で，機能制御されたLLMエージェントのランタイム基盤
- LLMエージェントは，応答アシスタントから複雑なソフトウェアへと進化しており，その実行環境の重要性が増している。
- 従来のLLMエージェントは，ツール実行における信頼境界が不明確で，セキュリティ上のリスクが存在する。
- エージェントのスケジューリング，認可，再開，監査を安全に行えるランタイム基盤を提供し，LLMエージェントの信頼性を向上させる。
- Agent libOSは，従来のOSの上に構築されたライブラリOS風のランタイム基盤である。ハードウェアドライバなどは実装しない。
- エージェントを「AgentProcess」として扱い，プロセスID，ライフサイクル，ツールテーブルなどを管理し，機能に基づいたアクセス制御を行う。
- プロトタイプは，非同期スケジューリング，名前空間ローカルなオブジェクトメモリ，人間による承認，テストなどを実装しており，安全性に着目した評価を行っている。
Link: https://arxiv.org/abs/2606.03895
ノイズ除去優先，直交化後：ミューオンにおけるモーメンタムの役割の理解 [cs.LG]目的：ミューオンにおけるモーメンタムの役割解明
- 大規模言語モデルの学習において，最適化手法の理論的理解は重要である。
- ミューオンの性能向上に寄与するモーメンタムのメカニズムが不明確であった。
- モーメンタムがスペクトルフィルタとして機能し，学習の安定化に貢献することを明らかにする。
- 本研究により，ミューオンにおけるモーメンタムが摂動を抑制し，主要な信号を保持するスペクトルフィルタとして機能することが示された。
- モーメンタムは直交化ステップへの入力行列の特異な部分空間を安定化させ，より信頼性の高い更新を可能にする。
- モーメンタムを直交化の前に適用することが，勾配の信号成分との整合性を高めることが理論的・実験的に示された。
Link: https://arxiv.org/abs/2606.03899
MAdam：メトリックを考慮した多目的Adam [cs.LG, cs.CV]目的：多目的最適化におけるAdamオプティマイザの改良
- 機械学習の様々な問題は多目的最適化を基盤としており，その重要性は高い。
- 既存の多目的最適化ソルバーとAdamの組み合わせに，意図と実行の乖離が存在する。
- ソルバーの意図を忠実に反映し，多目的最適化の性能を向上させることを目指す。
- MAdamは，ソルバーとオプティマイザを不変のまま，多目的最適化の方向性を事前調整するドロップインラッパーである。
- MAdamにより，Adamの第二モーメントは単位行列に近づき，嗜好性に基づいたメトリックによって更新が制御される。
- 多タスク学習，パレートフロントの回復，物理情報ニューラルネットワーク，医療画像処理など，様々なタスクでAdamを上回る性能を示した。
Link: https://arxiv.org/abs/2606.03904
scTranslation：単一細胞マルチオミクスモダリティ変換の包括的ベンチマーク [cs.RO, cs.AI]目的：単一細胞マルチオミクスモダリティ変換タスクの包括的ベンチマーク
- 細胞の状態や調節機構を包括的に理解するため，複数のオミクスモダリティの同時測定が重要である。
- 実験コストが高い，ノイズが大きい，モダリティの網羅性が不十分といった課題が存在する。
- データセット，評価指標，影響因子に関する体系的なベンチマーク評価の不足を解消すること。
- scTranslationは，多様な変換データセット，最先端モデルの統合，および包括的な評価指標を提供する。
- 特徴選択，特徴品質，少量データ設定など，モデル性能に大きく影響する要因を体系的に評価した。
- 大規模な研究により，今後の開発に向けた新たな可能性を示す洞察を得た。
Link: https://arxiv.org/abs/2606.03906
エージェント型AIコーディングツール設定がビルド vs 購入決定に与える影響：研究プロトコル [cs.SE, cs.AI, cs.HC]目的：エージェント型AIコーディングツールにおけるビルド vs 購入決定を制御する要因の解明
- ソフトウェア開発において，外部ライブラリの利用か自社開発かの判断は，セキュリティや保守性に大きく関わる。
- エージェント型AIコーディングツールのビルド vs 購入決定の基準は明確でなく，実験的な検証が不足している。
- 設定メカニズムがビルド vs 購入決定に及ぼす影響を定量的に評価し，最適な設定方法を提案する。
- Claude CodeとOpenAI Codexを用いて，様々な設定条件下でのプログラミングタスクを実行し，ライブラリ選択の傾向を分析した。
- 設定の変更が，ツールのライブラリ選択や情報開示の正確性に影響を与えることを確認した。
- 本研究で構築したベンチマークデータセットと分析パイプラインは，今後の評価に活用できる。
Link: https://arxiv.org/abs/2606.03907
NetKV：分散LLM推論のためのネットワークを考慮したデコードインスタンス選択 [cs.PF, cs.AI, cs.DC, cs.NI]目的：分散LLM推論におけるTime to First Token (TTFT) の削減
- 大規模言語モデルの利用拡大に伴い，高速な推論処理が不可欠となっている。
- 分散推論では，KVキャッシュの転送時間がボトルネックとなり，TTFTを悪化させている。
- ネットワーク状況を考慮したインスタンス選択により，KVキャッシュ転送の遅延を最小化することを目指す。
- NetKVは，ネットワークコストオラクルを用いて，コンピュート負荷だけでなくネットワークトポロジーと輻輳状況も考慮したインスタンス選択を行う。
- シミュレーション結果から，NetKVは従来のスケジューラと比較して，平均TTFTを最大21.2%削減し，SLO達成率を最大20.1%向上させた。
- NetKVは，推論エンジンやハードウェアを変更することなく，Time Between Tokensオーバーヘッドを0.5ms以下に維持することに成功した。
Link: https://arxiv.org/abs/2606.03910
ヘッジ・ベンチ：金融推論に関する難易度の高い現実的なタスクにおけるエージェントのベンチマーク [cs.AI]目的：金融推論タスクにおけるAIエージェントの性能評価
- 金融分析の自動化は重要であり，専門家の仕事を効率化する。
- 既存のベンチマークは，専門家が直面する複雑な推論タスクを捉えきれていない。
- 専門家による検証可能なステップに基づいた，より信頼性の高い評価手法の確立。
- ヘッジ・ベンチ1.0は，ヘッジファンドアナリストの実際の業務タスク102件を収録したベンチマークである。
- このベンチマークは，決定論的な採点と専門家による検証ステップとの比較を可能にする。
- 最先端モデルおよびエージェントのスコアはベンチマークにおいて16％を下回っていた。
Link: https://arxiv.org/abs/2606.03918
科学における概念拡散の予測：量子コンピューティングの場合 [cs.SI, cs.CY, cs.DL, cs.LG, physics.soc-ph]目的：科学における概念拡散の予測モデル
- 科学技術の進歩を予測することは，研究開発戦略の策定やイノベーション創出に不可欠である。
- 科学的概念の拡散過程は複雑であり，予測が困難であるという課題がある。
- 概念拡散のメカニズムを解明し，予測精度を向上させることを目指す。
- 量子コンピューティングにおける概念の内的強化は予測が困難であった。
- 概念の外的拡散とエントロピーは高い予測精度を示し，多様性が重要な要因であることが示された。
- エントロピーの急増は新たな研究領域の開拓を示し，低下は技術の収束やパラダイムシフトを示唆する。
Link: https://arxiv.org/abs/2606.03919
グラフ彩色における対照的ニューラルアルゴリズム推論 [cs.LG]目的：グラフ彩色における近似k彩色問題の解決
- グラフ理論の根幹であり，スケジューリングやリソース配分などへの応用が期待される。
- 既存のGNNアプローチは個々のインスタンスに最適化されており，グラフサイズや分布への汎化が課題である。
- 転移可能な彩色幾何構造を学習し，汎化性能の高いグラフ彩色モデルを開発すること。
- 対照学習フレームワークにより，同一色のノード表現が整列し，隣接ノードの表現が分離される彩色幾何構造を学習した。
- 単位ノルム埋め込みにおいて，最適解は線プロトタイプ構造を持ち，同一色のノード表現は一次元部分空間に収束することが示された。
- 提案手法は，合成グラフおよび実世界のグラフにおいて，貪欲法と同等またはそれ以上の性能を発揮し，汎化性能の高さを示した。
Link: https://arxiv.org/abs/2606.03923
DiffUNet^2：双方向予測，確率的生成，および科学データの協調的視覚的発見 [cs.HC, cs.LG]目的：科学データの時間的進化のモデリング
- 科学現象の解析・推論において，時間的変化の把握は不可欠である。
- 既存手法は決定論的な予測に偏りがちで，複数の可能性や逆方向の推論を支援しにくい。
- 時間軸に沿った双方向生成と，あり得る進化の分布の把握を目指す。
- 拡散モデルと視覚的分析を統合したフレームワークを開発した。
- DiffUNet^2は，時間軸に沿った双方向生成と，状態空間の確率分布を捉える。
- 専門家との協働により，実用的な科学データ分析ワークフローへの応用が確認された。
Link: https://arxiv.org/abs/2606.03926
FFR：回帰のための前方前方学習 [cs.LG, cs.AI]目的：実世界の回帰タスクにおける前方前方学習の拡張
- 深層学習は多様な応用分野で高い性能を示す一方，計算コストが大きい。
- 従来のバックプロパゲーションはメモリ消費量が大きく，生物学的な妥当性に欠ける。
- 前方前方学習を回帰問題へ適用するための新たな枠組みを提案し，効率性と性能を両立する。
- 提案手法FFRは，5つの回帰ベンチマークにおいて，バックプロパゲーションの性能の98.6%を平均的に達成した。
- FFRは，バックプロパゲーションと比較して，訓練メモリ使用量を大幅に削減し，計算効率も向上した。
- 特に，深層8層でピーク訓練メモリはバックプロパゲーションの27%に，深層32層では8%に削減された。
Link: https://arxiv.org/abs/2606.03927
推論モデルのための価値を考慮した確率的KVキャッシュ退去 [cs.LG, cs.CL]目的：推論モデルにおけるKVキャッシュ退去戦略
- 大規模言語モデルの推論能力向上にはメモリ効率が不可欠であり，KVキャッシュはその重要な要素である。
- KVキャッシュ退去は計算コスト削減に有効だが，精度低下を引き起こす可能性がある。
- 価値を考慮した確率的退去により，効率と精度を両立させることを目指す。
- 価値の大きい状態の保護と，退去決定の多様化が精度向上に貢献することを示した。
- 提案手法VaSEは，既存の選択型スパースアテンション手法と同等の精度を，より少ないメモリ消費量で達成する。
- VaSEはFlashAttention2をサポートし，推論モデルの静的なメモリフットプリントを実現する。
Link: https://arxiv.org/abs/2606.03928
二次積分発火ニューロンは，リーキー積分発火ニューロンよりも断片化の少ない損失地形を示し，スパイクに基づく勾配降下法において優れた性能を発揮する [cs.RO, cs.SY, eess.SY, cs.CE, cs.NE, cs.LG]目的：スパイクニューラルネットワークの訓練における，二次積分発火ニューロンとリーキー積分発火ニューロンの性能比較
- 生物学的ニューラルネットワークのモデル化や，ニューロモーフィックコンピューティングにおいて，スパイクニューラルネットワークの訓練は不可欠である。
- リーキー積分発火ニューロンでは，微小なパラメータ変化がスパイクの出現・消失を引き起こし，不安定なニューラル表現や沈黙ニューロンが生じやすい。
- 連続的かつ滑らかなスパイクに基づく勾配降下法を可能にする二次積分発火ニューロンの優位性を検証し，実用的な性能向上を目指す。
- 二次積分発火ニューロンは，Spiking Heidelberg Digitsデータセットにおいて，最適化されたパラメータ設定により，リーキー積分発火ニューロンよりも高い性能を示した。
- リーキー積分発火ニューロンの損失地形は不連続で断片化が激しく，勾配も不安定である一方，二次積分発火ニューロンはより滑らかな損失地形を持つことが示された。
- スパイクの出現・消失は，損失地形の断片化を引き起こす主な要因であり，二次積分発火ニューロンはこれらの問題を回避できることが示唆された。
Link: https://arxiv.org/abs/2606.03935
拡散事後サンプリングによるニューラル演算子スペクトルバイアスの修正：疎観測との組み合わせ [cs.LG, physics.geo-ph]目的：ニューラル演算子による偏微分方程式解の近似におけるスペクトルバイアス軽減
- 偏微分方程式の数値解法は計算コストが高い。ニューラル演算子は高速な代替手法として注目されている。
- ニューラル演算子は高周波成分を抑制するスペクトルバイアスを持つため，微細構造を伴う問題で信頼性が低い。
- 疎観測データと拡散事後サンプリングを組み合わせ，スペクトルバイアスを軽減し，高精度な解を復元する。
- 提案手法FreqNO-DPSは，高精度なシミュレーションで学習した拡散事前分布と，疎観測とニューラル演算子によって誘導される拡散事後サンプリングを組み合わせる。
- スペクトル形状を考慮したガイダンススコアを用いることで，ニューラル演算子のスペクトルバイアスを解消し，周波数依存の精度を向上させる。
- 3次元弾性波場予測において，5%および2%のセンサーカバレッジでほぼゼロのスペクトルバイアスを達成し，疎観測のみのDPSやニューラル演算子単体では見られる高周波減衰を抑制した。
Link: https://arxiv.org/abs/2606.03936
エントロピーだけでは不十分：視覚的アンカリングによるトークン選択を通じて視覚的推論のための効果的な強化学習を解き放つ [cs.AI]目的：視覚的推論のための強化学習における有効なトークン選択メカニズム
- 視覚的推論は，AIシステムの知能において重要な役割を担う。
- 従来のトークンレベルのエントロピーは，視覚的推論においては効果を発揮しない。
- 視覚的情報とトークンエントロピーを統合することで，学習効率を向上させる。
- 提案手法VEPOは，視覚的情報とトークンエントロピーを掛け合わせることで，より効果的な勾配の分配を実現した。
- 7Bスケールでは2.28ポイント，3Bスケールでは3.15ポイント，エントロピーのみのベースラインを大幅に上回る性能を示した。
- アブレーション実験により，提案手法の有効性が確認された。
Link: https://arxiv.org/abs/2606.03937
ハイパーエポック事前学習の基本要素 [cs.LG, cs.AI]目的：多様なモデル群の探索と予測の集約
- 計算資源が増大する中で，高品質なテキストデータの供給が追いつかない状況下での事前学習の重要性が高まっている。
- 単一モデルの多エポック学習では，計算予算を使い切る前に性能が飽和してしまうという課題がある。
- 本研究は，単一モデルの改良ではなく，モデル群を探索し，それらを組み合わせることで性能向上を目指す。
- ハイパーエポック事前学習（q0）は，多エポック予算を多様なモデル群に変換し，単一の洗練されたモデルよりも低い検証損失を達成する。
- 1.8Bパラメータモデルで実験した結果，q0は，56エポック（約4.6倍の効率）または67エポック（約3.8倍の効率）で，256エポックアンサンブルベースラインと同等の性能を発揮した。
- さらに，Slowrun設定下では，累積で約12.9倍のデータ効率の向上が見られ，下流タスクにも転移することが示された。
Link: https://arxiv.org/abs/2606.03938
フラッシュバックCL：連合学習における時間的忘却の軽減 [cs.LG, cs.AI, cs.PF]目的：連合学習における時間的忘却の軽減
- 連合学習は，分散データを用いたモデル学習の有望な手法であり，プライバシー保護にも貢献する。
- クライアントデータの分布が時間とともに変化する場合，既存の忘却軽減手法は十分な性能を発揮できない。
- 時間的分布変化下でも有効な連合学習のための忘却軽減手法を開発し，性能向上を目指す。
- フラッシュバックCLは，既存手法フラッシュバックと比較して，CIFAR-10における相対的な性能を6.9%～10.0%向上させた。
- 時間的忘却を最大68%削減し，時間的分布変化に対応する有効性を示した。
- クラスバランスリザバーサンプリング（CBRS）によるリプレイバッファが，性能向上に重要な役割を果たすことが明らかになった。
Link: https://arxiv.org/abs/2606.03939
MLスキップ：軽量メタデータによるMLフィルタのデータスキップ [cs.RO, cs.DB, cs.LG, cs.LO]目的：MLフィルタのためのデータスキップ技術
- データベースにおけるAI機能活用が重要視される中，MLモデルのコストが課題となっている。
- 従来のデータスキップ技術は，AI関数を用いたフィルタには適用困難である。
- Parquetのメタデータを用いて，MLフィルタにおけるデータスキップを可能にすること。
- ReLUアーキテクチャを用いた予備実験により，0.1%以下の選択率のフィルタで平均27.4%の削減効果が確認された。
- 2次元凸包を用いたメタデータ構造を提案し，削減効果を38.31%に向上させた。データサイズは行グループあたり45バイト以内。
- DuckDB環境において，PyTorchと比較して1.07倍の高速化を達成した。
Link: https://arxiv.org/abs/2606.03946
VLESA：人間活動モニタリングのためのビジョン言語具現化安全エージェント [cs.CV, cs.LG, cs.RO]目的：人間活動の安全性監視と危険行動予測に基づくリアルタイム介入
- AIが物理的タスクを支援する中で，安全性確保は不可欠である。物理的行動は不可逆的であり，デジタルエラーとは異なる。
- 文脈に依存する安全性評価が困難。同一行動でも意図によって安全か危険かが変化する。
- 意図を考慮した安全性評価により，危険な行動を予測し，適切な介入を行うことを目指す。
- VLESAは，ASIMOV-2.0ベンチマークにおいて，既存手法よりも正確なタイミングで介入を実現した。
- GRPOで訓練されたQフィルターは，意図を考慮した制約付きデコーディングにより，行動の安全性を41%以上向上させた。
- 意図と行動を同時に推論するエージェントにより，文脈に依存した安全性評価を可能にした。
Link: https://arxiv.org/abs/2606.03954
存在しない会話による効率的な音声認識モデルの学習 [cs.CL, cs.AI, cs.SD, eess.AS]目的：低リソース言語やニッチなドメインにおける会話型音声認識の性能向上
- 音声認識技術は，多様な言語や分野でのコミュニケーションを円滑にする上で不可欠である。
- 特定のドメインや言語に特化した多話者音声データが不足しており，音声認識モデルの学習を妨げている。
- 大規模言語モデルとTTSを活用し，合成会話データによる学習効果の向上を目指す。
- 合成会話データを用いた学習により，音声認識性能が安定して向上することが示された。
- 生成モデルの選択やデータ構成が，性能向上に大きく影響することが明らかになった。
- 実データ67時間と合成データ636時間を用いた学習は，2700時間の実データのみで学習したモデルよりも高い評価性能を達成した。
Link: https://arxiv.org/abs/2606.03957
報酬の不確実性を利用した強化学習における多様な行動の誘発 [cs.LG, cs.AI]目的：強化学習における多様な行動の誘発メカニズム
- 現代の応用では，言語モデルのファインチューニングや科学的発見など，多様性が求められる場面が増加している。
- 既存の方法は，性能を犠牲にしたり，ヒューリスティックな指標に頼ったりするなど，課題が残されている。
- 報酬の不確実性を考慮することで，より自然な多様性の獲得を目指す。
- 報酬関数の不確実性を分布として表現し，行動集合に対する非線形な目的関数を適用する新しいフレームワークを提案した。
- このフレームワークでは，行動の多様性が自然に現れ，報酬分布を通じて制御可能であり，期待報酬を犠牲にすることなく実現される。
- コンテキストバンディット設定で，提案手法の勾配推定量を導出し，バニラ方策勾配法や行動集合アプローチを一般化できることを示した。
Link: https://arxiv.org/abs/2606.03962
視覚情報に基づくUAVナビゲーションのための自己改善型エージェント強化学習 [cs.RO, cs.AI]目的：視覚情報に基づいたUAVナビゲーションにおける自己改善型強化学習フレームワーク
- ロボットの自律性は重要であり，複雑なナビゲーションタスクの実現が求められている。
- 従来の強化学習は，報酬関数の設計や微調整に人的介入が必要であり，効率性に課題がある。
- 報酬設計，ポリシー改善，実世界への展開を自律的に行うフレームワークを開発し，ナビゲーションの成功率向上を目指す。
- 提案手法AgenticRLは，報酬関数の自己改善ループを通じて，初期報酬と比較してポリシーの性能を71%向上させた。
- 実世界の実験では，91%の成功率を達成し，シミュレーションから実世界への転移精度は94%を示した。
- マルチモーダルGPTエージェントを活用し，多様なナビゲーションタスク（ゲート通過，障害物回避など）への適用を可能にした。
Link: https://arxiv.org/abs/2606.03963
効率的かつ制御可能なLLM推論のためのエージェントによる思考連鎖の誘導 [cs.CL, cs.AI]目的：LLMの推論における思考連鎖の効率化と制御
- 大規模言語モデルの能力向上には推論が不可欠であり，その性能は様々なタスクで重要な役割を果たす。
- 既存手法では，推論過程の効率化と制御が難しく，モデルの思考プロセスが不透明になりがちである。
- 本研究は，推論過程を制御し，効率的な思考を促すことで，より優れたLLM推論を実現することを目的とする。
- ACTSは，フル思考による性能と同等の精度を，大幅なトークン削減で実現した。
- 異なる推論器やタスクにおいて，精度と効率性のトレードオフを制御することが可能となった。
- コントローラーエージェントの初期化と強化学習による最適化が，ACTSの有効性に貢献している。
Link: https://arxiv.org/abs/2606.03965
AlignAtt4LLM：IWSLT 2026同時音声翻訳タスク向けデコーダー専用LLMのための高速AlignAtt [cs.CL, cs.AI]目的：IWSLT 2026同時音声翻訳タスクにおける英語からドイツ語，イタリア語，中国語への翻訳システム
- 音声翻訳は，言語間のコミュニケーションを円滑にする上で重要な技術であり，グローバル化の進展とともに需要が高まっている。
- 従来の音声翻訳システムは，高い計算コストや遅延の問題を抱えており，リアルタイム性の要求される場面での利用が制限されてきた。
- デコーダー専用LLMにAlignAttを適用し，低遅延かつ高精度な同時音声翻訳を実現することを目的とする。
- AlignAtt4LLMは，IWSLT 2026開発セットにおいて，英語からドイツ語，イタリア語への翻訳で，既存のベースラインシステムを低遅延（約2秒）および高遅延（約4秒）の双方の条件下で上回る性能を示した。
- 英語から中国語への翻訳結果は混在したが，AlignAtt4LLMはGemma-4に限定されず，より強力なデコーダー専用機械翻訳バックボーンにも適用可能である。
- AlignAtt4LLMは，決定的なプロンプト形式，校正された注意ヘッド，およびクエリ/キーのキャプチャを必要とするため，多様なターゲット言語への拡張性が期待できる。
Link: https://arxiv.org/abs/2606.03967
QUBRIC：報酬検証が困難な強化学習のためのクエリと評価基準の共同設計 [cs.CL, cs.AI]目的：クエリと評価基準の共同設計
- 強化学習は報酬が明確な場合に有効だが，人間のような複雑なタスクには適用が難しい。
- 既存手法ではクエリ分布を固定したまま評価基準を最適化するため，評価基準の質が制限される。
- クエリと評価基準を共同設計することで，より効果的な報酬ベースの学習を目指す。
- QUBRICは，教師データから主要なポイントを抽出し，クエリをシナリオベースの評価可能な質問に書き換える。
- 対照的な評価基準生成により，教師とポリシーのギャップをクエリレベルの基準に変換し，学習可能性フィルタリングで有用なペアのみを保持する。
- ArenaHardでSFTベースラインより5.5点向上，法律，倫理，物語推論の3つのベンチマークで平均6.3点向上した。
Link: https://arxiv.org/abs/2606.03968
大規模推論モデルにおける忠実な確信度表現の定量化 [cs.CL, cs.AI]目的：大規模推論モデルにおける忠実な確信度表現の定量化
- LLMの信頼性において，確信度の適切な伝達は不可欠である。誤った確信度は誤った意思決定につながりうる。
- 大規模推論モデルは推論過程を明示するが，その確信度と実際の精度が一致しない場合がある。
- 本研究は，大規模推論モデルの確信度表現の忠実度を定量的に評価する新たな枠組みを提案する。
- 提案手法は，トークン確率，隠れ状態，サンプリングの一貫性といった内部的不確実性の源泉と，言語的な確信度を比較することで忠実度を評価する。
- 実験の結果，大規模推論モデルにおける忠実な確信度表現は依然として大きな課題であることが示された。
- 既存の評価手法の脆弱性も明らかになり，大規模推論モデルに対する信頼性と整合性の新たな評価対象として，確信度の忠実度が重要であることが示唆された。
Link: https://arxiv.org/abs/2606.03969
束縛問題の形式化 [cs.CV, cs.AI, cs.LG, q-bio.NC]目的：モデル表現における束縛情報の測定
- 視覚認識において，物体の特徴とそれらが同一物体に属することの認識は不可欠である。
- ViTアーキテクチャでは，特徴の誤った物体への帰属が頻繁に発生する問題がある。
- 情報理論的アプローチで束縛問題を形式化し，モデル表現の束縛情報を測定する手法を提案する。
- ViTにおける束縛情報は，画像要約トークンや空間トークンなど，アーキテクチャの異なる部分から測定された。
- 特徴共有，隠蔽，自然な特徴といった様々な束縛課題を含むデータセットを用いた実験の結果，ViTの性能が評価された。
- 本研究は，強力な視覚認識と推論において，束縛が重要な要素であることを示唆している。
Link: https://arxiv.org/abs/2606.03976
言語モデルには睡眠が必要：自己修正と記憶の定着 [cs.LG, cs.AI]目的：言語モデルにおける継続学習と長期記憶への知識転移の能力向上
- 近年，機械学習は目覚ましい進歩を遂げている。しかし，より高度な学習能力が求められている。
- 既存の言語モデルは，瞬間的な予測や文脈学習は得意だが，継続学習と長期記憶への知識転移が課題である。
- 人間の学習プロセスに着想を得て，モデルが継続的に学習し，短期記憶を長期記憶に定着させる方法を提案する。
- 「睡眠」パラダイムを導入し，短期記憶を蒸留して長期知識とし，自己改善を行う「夢想」プロセスを組み込んだ。
- 知識の定着には，小規模モデルから大規模モデルへの知識蒸留である「Knowledge Seeding」という手法を用いた。
- 実験により，長期的な学習，知識の統合，および少数ショット汎化において，「睡眠」段階の重要性が示された。
Link: https://arxiv.org/abs/2606.03979
スキルRM：エージェントスキルによる異種評価基準の統合 [cs.LG, cs.CL]目的：異種評価基準を統合するための統一的枠組み
- LLMの性能向上には，適切な評価が不可欠であり，そのための報酬モデルが重要である。
- 現在の報酬評価は，基準が異質であり，それらを統合する仕組みが確立されていない。
- 様々な種類の証拠を動的に統合し，一貫性と透明性を高める報酬モデルを開発すること。
- 提案手法Skill-RMは，報酬モデリングを再利用可能な報酬評価スキルの実行として捉えることで，異種リソースを統合する。
- Skill-RMは，従来のjudgeベースラインと比較して，報酬ベンチマークおよび下流タスクで一貫して優れた性能を示す。
- 本研究は，報酬モデリングの統一的解決策を提供するだけでなく，証拠の戦略的編成による性能向上を示唆する。
Link: https://arxiv.org/abs/2606.03980
ヒューマノイドGPT：ゼロショットモーション追跡のためのデータと構造の拡張 [cs.CL, cs.RO, cs.AI, cs.CV]目的：ゼロショットモーション追跡のためのデータとモデル構造の拡張
- ヒューマノイドロボットの制御は，多様なタスクへの適応に不可欠である。
- 従来のモーション追跡器はデータ不足と汎化性能のトレードオフに悩まされていた。
- 大規模データとモデルにより，未知のモーションやタスクへの汎化性能向上を目指す。
- ヒューマノイドGPTは，20億フレームのモーションデータで事前学習されたGPTスタイルのTransformerである。
- データとモデル規模の拡張により，高い汎化性能とダイナミックな動作の追跡を両立した。
- 未知のタスクや複雑なモーションに対するゼロショット汎化性能において，新たな水準を確立した。
Link: https://arxiv.org/abs/2606.03985
想像的知覚トークンがマルチモーダル言語モデルの空間推論を強化する [cs.AI]目的：マルチモーダル言語モデルにおける空間推論能力の向上
- 視覚と言語を統合したモデルの発展は，現実世界の理解に不可欠である。
- 視覚情報が直接得られない状況での空間推論が課題となっていた。
- 観測されていない視点からの推論や，隠れた空間の経路追跡を可能にする。
- 想像的知覚トークン（IPT）の導入により，空間推論能力が向上することが確認された。
- IPTによる学習は，テキストによるChain of Thought学習よりも優れた性能を示した。
- 特にMultiview Countingタスクにおいて，IPTは精度を3.4%向上させ，Path Tracingでは強力なモデルに匹敵する性能を実現した。
Link: https://arxiv.org/abs/2606.03988
ニューロン集団はスケールに伴い多様な選択性を示す [cs.LG, cs.CL, cs.CV]目的：ニューロン集団のスケールに伴う進化の予測可能性
- 近年，大規模ニューラルネットワークの学習則が注目されている。その規模拡大に伴う振る舞いの理解は重要である。
- モデル規模が拡大するにつれて，ニューロンの機能や役割がどのように変化するかが不明であった。
- モデル規模に伴うニューロン集団の選択性変化のメカニズムを明らかにすることを目指している。
- Rosettaニューロンと呼ばれる，モデル間で共通の活性パターンを示すニューロン集団を分析した。
- Rosettaニューロンの数はモデル規模に対して亜線形に増加し，全体に占める割合は減少する傾向が見られた。
- モデル規模が大きくなるにつれて，Rosettaニューロンはより選択的かつ単一の意味を表すようになり，他のニューロンとの偏りが生じた。
Link: https://arxiv.org/abs/2606.03990
WUSH：LLM量子化のためのほぼ最適な適応変換 [math.OC, cs.RO, cs.SY, eess.SY, math.OC, cs.RO, cs.SY, eess.SY, cs.LG, cs.CL]目的：LLM量子化における最適な適応変換の導出
- 大規模言語モデルの効率的な展開には量子化が不可欠であり，計算コストとメモリ使用量の削減に貢献する。
- 量子化誤差は外れ値によって増幅されやすく，低ビット量子化における精度劣化が課題となる。
- データに依存した適応変換により，量子化誤差を最小化し，精度を向上させることを目指す。
- 提案手法WUSHは，ハダマール変換を基盤としつつ，データ依存的な成分を加えることで，ほぼ最適な変換を実現する。
- WUSHは，既存のハダマール変換ベースの手法と比較して，W4A4精度を最大2.8ポイント向上させる。
- FP4行列演算により，BF16と比較して最大5.8倍の層ごとのスループットを達成する。
Link: https://arxiv.org/abs/2512.00956
TRAP：敵対的パッチによるVLA CoT推論の乗っ取り [cs.CR, cs.AI, cs.RO]目的：VLAモデルにおけるCoT推論の脆弱性を利用した標的行動の乗っ取り
- ロボットの自律的な操作において，VLAモデルの性能向上が期待されており，特にCoT推論が重要な役割を担う。
- CoT推論の安全性が検証されておらず，悪意のある入力による行動乗っ取りのリスクが存在する。
- CoT推論の経路を操作することで，ユーザの指示とは異なる標的行動をロボットに実行させる問題の解決を目指す。
- 本研究では，敵対的パッチ（例：テーブルクロス）を用いて，CoT推論を誘導し，ロボットの行動を操作することに成功した。
- TRAPは，異なるCoT推論メカニズムを持つ3つの代表的なVLAモデルに対して有効であることが実証された。
- 敵対的パッチは紙に印刷するだけで実用性が高く，CoT推論のセキュリティ確保の必要性が示唆された。
Link: https://arxiv.org/abs/2603.23117
PaintBench：正確な視覚編集の決定論的評価 [cs.GR, cs.CV, cs.LG]目的：正確な視覚編集操作の性能評価
- 視覚編集技術は，画像処理やデザインにおいて不可欠であり，その精度向上は重要な課題である。
- 既存のモデルは，自由形式の編集は得意だが，正確な単一解答編集は依然として課題である。
- PaintBenchは，正確な視覚編集操作の性能を客観的に評価し，進捗を測定するための基盤を提供する。
- PaintBenchは，20種類の基本的な視覚編集操作を網羅する拡張可能なベンチマークである。
- 11の画像編集モデルの評価の結果，全体的な性能は低く，最良のモデルでもmIoUは17.1%に留まった。
- PaintBenchのスコアとデータ可視化編集の性能の間には，強い線形相関が認められた（$R^2 = 0.91$）。
Link: https://arxiv.org/abs/2606.00188
VESTA：統計ツールエージェントによる視覚的探索 [cs.AI, cs.CL, cs.CV, cs.LG, stat.CO]目的：統計モデルの適合における自動化の実現
- 科学的ワークフローにおいて定量モデルの適合は不可欠だが，自動化が遅れている。
- 既存のエージェントベースシステムは，複雑なモデリングタスクで性能が限界を迎えている。
- データ変換，可視化，統計的検定を組み合わせた探索ツールキットを活用し，モデリングの精度向上を目指す。
- VESTAは，動的にツールを作成することで，既存のエージェントパイプラインよりも優れた性能を示すことが確認された。
- 特に複雑なタスクやドメイン固有のタスクにおいて，その効果が顕著であった。
- 動的に生成されたツールは，既存のツール作成システムと比較して，より洗練された診断カテゴリーを網羅していた。
Link: https://arxiv.org/abs/2606.00384
センチネル5P衛星データを用いた都市大気汚染物質の追跡 [stat.AP, cs.AI]目的：都市における二酸化窒素汚染の追跡手法
- 都市の大気汚染は健康被害に繋がるため，そのモニタリングと評価が重要である。
- 都市部では汚染物質の濃度が時間や場所によって大きく変動し，正確な評価が困難である。
- 衛星データを用いて，データが少ない地域でも都市の大気質を評価する手法を開発する。
- センチネル5Pのデータを用いて，エクアドルのグアヤス県における都市の二酸化窒素汚染を追跡した。
- 都市化が進んだ地域では，高い二酸化窒素濃度と変動性が確認された。
- 本手法は，都市の大気質評価のための解釈可能かつ拡張性の高いツールとして活用できる。
Link: https://arxiv.org/abs/2606.02592
高次元潜在変数は位相構造を通して診断されるべきである [cond-mat.dis-nn, cs.LG]目的：オートエンコーダおよび変分オートエンコーダの潜在空間の診断
- 機械学習モデルの性能は潜在空間の構造に大きく依存するため，その理解は重要である。
- 潜在空間が秩序だった状態か，無秩序な状態か，あるいはその境界線上にあるかを見極めることが困難である。
- スピンガラス理論を用いることで，潜在空間の位相構造を明らかにし，モデルの挙動を解明することを目指す。
- 潜在空間にスピンガラス理論の指標を適用することで，秩序相，無秩序相，および安定性の限界相を検出できることが示された。
- 潜在空間を安定性の限界付近に誘導することで，CIFAR-10やCelebA64における再構成と生成のトレードオフが改善された。
- 異常検知においても，潜在空間の半秩序構造が，教師なし学習および条件付きOOD検知の性能向上に貢献することが確認された。
Link: https://arxiv.org/abs/2606.02600
FSA-GRPO：少数の事例学習を聴覚LLMに教える [eess.AS, cs.AI, cs.SD]目的：聴覚大規模言語モデルにおける少数の事例学習能力の強化
- 聴覚LLMは，音声認識や翻訳など多様なタスクに応用可能であり，その性能向上が求められている。
- 既存の聴覚LLMは，事例学習形式での推論に最適化されていないため，その効果が限定されている。
- 本研究は，事例学習を活用しやすい聴覚LLMを開発し，低リソース環境での性能向上を目指す。
- FSA-GRPOは，報酬関数を工夫した強化学習による後学習手法であり，少数の事例学習を効果的に活用する。
- 高リソースな成人音声認識データのみで学習することで，子供の音声認識だけでなく，音声翻訳や音声理解の性能も向上する。
- FSA-GRPOは，ドメイン内データが利用できない場合や利用が難しい場合に，関連するドメイン外データでの直接的な調整よりも有効である。
Link: https://arxiv.org/abs/2606.02615
TadA-Bench：エージェント型タンパク質工学に向けた将来ラウンドの探索のための百万バリアントベンチマーク [q-bio.QM, cs.AI, cs.LG]目的：将来ラウンドの探索
- 科学的発見におけるAIの進化であり，実験計画の自動化が求められている。
- 既存のタンパク質工学システムは静的なデータに依存しており，将来の実験を考慮できていない。
- 将来の実験ラウンドを予測し，エージェント型タンパク質工学を実現するための基盤を提供する。
- TadA-Benchは，31回のTadA誘導進化ラウンドから得られた百万バリアントの実験データを利用している。
- モデルは，初期の実験ラウンドデータに基づいて，将来のラウンドで出現するバリアントをランク付けするタスクを実行する。
- 進化的な網羅性が，局所的なデータ密度よりも有用であることが示唆された。
Link: https://arxiv.org/abs/2606.02624
DXAから得られる骨格表現型と股関節骨折リスク：バックドア調整因果分析 [q-bio.QM, cs.AI, cs.LG]目的：DXAから得られる股関節の骨格表現型と股関節骨折リスクの関係性
- 骨折リスク評価は公衆衛生上重要であり，予防策の展開に不可欠である。
- 既存の骨折リスク予測モデルは，予測精度に限界がある場合がある。
- DXAから得られる複数の骨格表現型を因果的に評価し，リスク層別化を改善する。
- 16種類の骨格表現型はいずれも，標準偏差1単位増加あたり負のバックドア調整因果効果を示した。
- 大腿骨BMCとBMDが最も大きな因果効果を示し，標準偏差1単位増加で約4.7件の股関節骨折を減少させる可能性が示唆された。
- 臨床変数と因果効果上位11個の表現型を組み合わせた予測モデルは，FRAXよりも高いAUC，感度，特異性を示した。
Link: https://arxiv.org/abs/2606.02625
階層的モチーフに基づくマルチモーダルタンパク質埋め込みによるタンパク質間相互作用予測の向上 [q-bio.QM, cs.AI, cs.LG]目的：タンパク質間相互作用予測のための手法
- タンパク質間相互作用は生命活動に不可欠であり，その予測は創薬や生命科学研究に重要である。
- 既存手法では，タンパク質の階層構造や，配列，構造，機能などの多様な情報を十分に活用できていない。
- 本研究では，階層的なモチーフに着目し，マルチモーダルな情報を統合することで，予測精度を向上させる。
- 提案手法MMM-PPIは，複数のPPIデータセットにおいて，最先端の予測モデルを上回る性能を示した。
- 特に，困難なデータ分割やデータ不足の状況下で，その有効性が確認された。
- MMM-PPIは，事前に学習されたエンコーダーをそのまま大規模なPPI予測に利用できる。
Link: https://arxiv.org/abs/2606.02629
ウェーブレットをトークナイザーとして：自然信号に対する共有ウェーブレットトークンスキーマの予備的な結果 [eess.AS, cs.AI, cs.CV, cs.LG, cs.SD]目的：音声，画像，動画の共通ウェーブレットトークンスキーマの可能性
- マルチモーダル学習において，異なる種類のデータを統合的に処理する重要性が高まっている。
- 各モダリティに特化した潜在的なグリッドに依存しており，データ間の共有が困難である。
- 異なるモダリティ間で共有可能なトークンスキーマを構築し，効率的なデータ処理を目指す。
- 音声，画像，動画の共通モデルは，それぞれ39.92 dB，29.37 dB，23.93 dBのPSNRを達成した。
- 視覚的な改善は潜在容量だけでは説明できず，メタデータの埋め込みも常に効果的ではないことが示された。
- 固定レートのエネルギー選択は強力なベースラインとなり，音声，画像，動画で平均PSNRが15dB以上向上した。
Link: https://arxiv.org/abs/2606.02631