arXiv雑要約

AI - 2026/06/05 公開

教師あり分類のためのハイブリッド切り捨て損失によるロバストかつ疎なサポートベクターマシン [cs.MM, eess.AS, cs.LG]目的：サポートベクターマシンにおけるロバスト性と疎性の向上
- 機械学習において，分類は重要なタスクであり，その性能は様々な応用分野に影響を与える。
- 従来のSVMは外れ値に弱く，また非凸損失関数は計算コストが高いという課題がある。
- 本研究は，外れ値に強く，計算コストも低い新しい損失関数を開発し，SVMの性能向上を目指す。
- 提案手法であるハイブリッド切り捨て損失関数($L_{\mathrm{ht}}$)を用いることで，より少ないサポートベクター数で高い分類精度を達成した。
- 多視点学習への拡張版であるMv$L_{\mathrm{ht}}$-SVMは，既存の多視点学習手法と比較して，精度，適合率，再現率，F1スコアにおいて優れていることが示された。
- 本研究で導入したP-stationary pointに基づき，最適な条件を導出し，効率的なアルゴリズムを設計した。
Link: https://arxiv.org/abs/2606.05814
LLMベースのプロンプト翻訳とLoRAファインチューニングによる韓国の日記テキストからの感情認識画像生成 [cs.CV, cs.AI]目的：韓国語の日記テキストから子供の落書き風画像を生成する手法
- 画像生成AIの発展は，表現の可能性を広げている。多様なテキストから画像を生成することへの需要が高い。
- 既存のT2Iモデルは，感情を正確に捉えられていない。特に日記のような文脈理解が重要なテキストでは課題がある。
- 日記テキストに内在する感情を認識し，それを画像生成に反映させることで，より表現豊かな画像を生成すること。
- Qwen3-8Bを用いて日記テキストから潜在的な感情を認識し，Stable Diffusion 3.5 Mediumで画像生成を行うパイプラインを提案した。
- LoRAを用いたファインチューニングにより，感情に基づいたトリガーワードを活用することで，子供の落書き風画像を生成することに成功した。
- CLIP Scoreが感情認識画像生成の評価指標として適切でない可能性を示し，その限界について議論した。
Link: https://arxiv.org/abs/2606.05816
Transformerスタックに沿った整合性学習 [cs.LG, cs.AI]目的：モデルの誤整列軽減策としての整合性学習の範囲拡大
- 大規模言語モデルの安全性確保は，社会実装において不可欠であり，その重要性は増している。
- 既存の誤整列対策は，限定的な脅威に対してしか有効でなく，汎用性に乏しいという課題がある。
- 多様な脅威に対するロバスト性を高め，モデルの誤整列を包括的に軽減することを目指す。
- MLP整合性学習(MLPCT)とAttention整合性学習(AttCT)という2つの新しい内部整合性ターゲットを導入した。
- 整合性学習は，従来研究よりも広範な脅威設定において，誤整列を効果的に軽減することを示した。
- ある失敗モードに対する学習が，別の失敗モードに対するロバスト性を向上させるなど，脅威間の汎化性も確認された。
Link: https://arxiv.org/abs/2606.05817
暗黙的嗜好のための統計的事前分布：パーソナルエージェントにおけるスキル選択の分離 [cs.HC, cs.AI, cs.CL]目的：パーソナルエージェントにおける暗黙的ユーザー嗜好の学習と適応
- LLMの進化により，API経由の外部スキルを活用するパーソナルエージェントが注目されている。
- 利用可能なスキルの増加に伴い，ユーザーの嗜好を効率的に学習・適応させることが課題となっている。
- ローカル環境の制約下で，軽量な嗜好学習メカニズムを構築し，スキル選択を最適化すること。
- 提案手法は，統計的学習と意味解析を分離することで，ローカル環境での効率的な嗜好学習を実現した。
- 実験結果から，提案手法が累積後悔を最小限に抑え，従来の記憶拡張エージェントを大幅に上回るテスト精度を達成した。
- リモートLLMの選択を統計的結果で制御することで，軽量かつ高性能なパーソナルエージェントを実現した。
Link: https://arxiv.org/abs/2606.05828
動画からの幾何学的表現学習：空間知能を持つマルチモーダル大規模言語モデルに向けて [cs.CV, cs.AI]目的：動画から幾何学的表現を学習すること
- マルチモーダル大規模言語モデルの発展は目覚ましいが，空間認識能力が課題である。
- 既存モデルは2D理解に優れるものの，3D認識が不十分で幾何学的整合性に欠ける。
- 3Dデータの不足を補い，モデルに空間知能を付与することを目的とする。
- GeoVRは，2D動画のみを用いて幾何学的表現を学習する新しいフレームワークである。
- 事前学習済みの3Dモデルから幾何学的知識を蒸留することで，モデル内部表現を再構築する。
- 空間推論ベンチマークにおいて，最先端の性能を達成し，新たなパラダイムを確立した。
Link: https://arxiv.org/abs/2606.05833
マルチモーダルLLMにおけるCoReヘッドによる機能的なスパース性のメカニズムに関する考察 [cs.CL, eess.SY, cs.RO, cs.SY, cs.CL, cs.AI]目的：マルチモーダルLLMにおける機能的スパース性のメカニズム解明
- 大規模言語モデルは多様なタスクで高性能だが，その内部メカニズムの理解は重要である。
- マルチモーダルLLMが複雑な視覚情報から必要な特徴を抽出する仕組みは未だ不明である。
- CoReヘッドと呼ばれる特定の注意ヘッドの役割を明らかにすることで，LLMの効率と性能向上を目指す。
- マルチモーダルLLMには，文脈に応じた情報抽出に特化したCoReヘッドが存在することが示された。
- CoReヘッドは，他のヘッドと比較して，より局所的な注意を払い，効率的な情報抽出を実現している。
- CoReヘッドの上位5%を削除すると性能が大幅に低下する一方，下位ヘッドの削除は影響が少ないことが明らかになった。
Link: https://arxiv.org/abs/2606.05843
GenTI：未知の攻撃に対する自律的なIDPSルール生成のためのLLMのベンチマーク [cs.CR, cs.AI]目的：未知の攻撃に対するIDPSルール自動生成のためのLLMベンチマーク
- サイバー攻撃は巧妙化の一途を辿っており，従来のシグネチャベースの防御では対応が困難になっている。
- IDPSルールは手動で作成されるため，新たな脅威への適応が遅れるという課題がある。
- LLMを活用し，リアルタイムでIDPSルールを生成することで，適応性と進化性を高める。
- 提案手法GenTIは，ルールレベルのCTIとLLMベースの自動化を組み合わせた大規模ベンチマークである。
- GenTIは，IDPSルールの品質スコア89.4%，CTIカバレッジ94.8%を達成し，未知の攻撃検出率を45%から87.4%に向上させた。
- 誤検知率は8.5%から2.3%に削減され，自律的に進化するIDPSの実現に貢献する。
Link: https://arxiv.org/abs/2606.05844
分子認識型探索による分子構造の復元 [cs.CL, eess.AS, cs.AI]目的：無効なSMILES構造の復元
- 創薬において，目的とする分子構造を効率的に生成することは重要である。
- LLMによるテキストからの分子生成では，しばしば無効なSMILES構造が生成される。
- 生成された分子構造の有効性を確保しつつ，元の意図を反映した構造を復元することを目指す。
- AMRECは，分子構造の不一致を追跡し，探索範囲を拡大することで，より効果的な復元を可能にする。
- 既存の修正戦略が構造を歪曲したり，意図しない構造変化を引き起こす問題を解決する。
- ChEBI-20データセットにおいて，構造的，完全一致，文字列レベルの指標において，既存手法を上回る結果が得られた。
Link: https://arxiv.org/abs/2606.05847
UniVoice：音声と歌声の生成を統合するモデル [cs.RO, eess.SY, cs.SY, cs.SD, cs.AI, eess.AS]目的：音声と歌声の生成
- 音声合成と歌声合成は，人間らしい音声を生成する上で重要であり，コミュニケーションやエンターテイメントに貢献する。
- 音声と歌声は異なる特性を持つため，両者を同時に扱える単一モデルの学習は困難であった。
- UniVoiceは，音声と歌声の生成を統一的に行うことで，この課題を解決することを目指す。
- UniVoiceは，条件付きフローマッチングに基づき，コンテンツ，メロディ，音調の条件を分解することで，自然な音声と制御可能な歌声を生成する。
- 学習の結果，音声合成におけるPERは5.26%であり，既存のTTSシステムに匹敵する性能を示した。
- 歌声合成においては，PERが16.22%であり，既存の統合ベースラインモデルVevo1.5を上回る性能を達成した。
Link: https://arxiv.org/abs/2606.05852
EEGDancer：強化学習を用いた動的感情潜在空間マスクモデリングによる脳波連続感情予測 [cs.HC, cs.AI]目的：脳波信号からの人間感情状態の時間的変化のモデル化
- 感情認識は，精神疾患の診断や脳機能解明に不可欠な要素である。
- 従来の離散感情認識では捉えきれない，感情の連続的な変化を捉えるのが課題である。
- 脳波のノイズの影響を受けにくい，感情の潜在空間を学習し，連続的な感情変化を予測することを目指す。
- 提案手法EEGDancerは，既存の機械学習・深層学習手法と比較して，SEED，SEED-IV，Long-Term Naturalistic Emotionデータセットで一貫して高い性能を示した。
- 因果関係に基づく時空間ベクトル量子化Variational Autoencoder (VQ-VAE) により，脳波信号から構造化された感情プロトタイプと潜在空間を学習した。
- Soft Actor-Critic (SAC) フレームワークを用いて，系列レベルでの感情予測軌道の最適化を行い，フレームごとの局所的な適合を回避した。
Link: https://arxiv.org/abs/2606.05855
時系列分析における動的アーキテクチャ生成と最適化のためのエージェントフレームワークGenAutoML [cs.CL, cs.CL, cs.CL, cs.LG]目的：時系列分析のためのニューラルアーキテクチャの動的生成と最適化
- 時系列分析は，予測や異常検知において重要な役割を担う。複雑なデータに対応するには，適切なアーキテクチャが必要となる。
- 従来のAutoMLシステムは静的な探索空間に依存するため，多様なデータ特性への適応が困難である。
- GenAutoMLは，LLMを活用し，自然言語の要件から実行可能なPyTorch実装を生成することで，この問題を解決する。
- GenAutoMLは，データセットの特性に合わせてタスク固有のニューラルアーキテクチャを動的に生成可能である。
- 生成されたモデルWaveInterferenceNetは，サンプルあたり0.01ms以下の推論遅延で，競争力のある予測性能を維持する。
- GenAutoMLは，計算効率，アーキテクチャの適応性，安定した最適化挙動を重視し，リソース制約のあるエッジAI環境に適した超軽量なニューラルネットワークの作成を可能にする。
Link: https://arxiv.org/abs/2606.05860
LLMCodec：大規模言語モデルの効率的な重み圧縮のためのビデオコーデックの適応 [cs.MM, cs.AI]目的：大規模言語モデルの重み圧縮手法
- 大規模言語モデルの発展は自然言語処理を大きく進歩させている。
- モデルの規模拡大に伴い，保存，伝送，展開に課題が生じている。
- 既存手法の汎用性の低さを克服し，より効率的な圧縮を実現する。
- LLMCodecは，VVC/H.266ビデオコーデックとアフィン量子化を統合した手法である。
- LLaMA-3-8Bの2ビット精度において，既存手法と比較してperplexityを1.5倍以上低減。
- ダウンストリームタスクの精度を21％改善し，汎用性の高さを示した。
Link: https://arxiv.org/abs/2606.05861
グロッキングにおける二つの学習時計：条件付きReLU削減による深層線形ネットワーク理論 [cs.LG, cs.AI]目的：グロッキング現象における学習の二つの時間スケール
- 深層学習モデルの学習メカニズム理解は，汎化性能向上に不可欠である。
- 学習データへの適合と，単純な規則の学習が異なる速度で進む現象が不明確である。
- 深層線形ネットワーク理論を用いて，この二つの学習段階を明確にすること。
- 深層線形ネットワークにおいて，一定の条件のもとでクロスエントロピー損失が対数時間スケールで減少することを示した。
- 層ごとの重み減衰は，構造エネルギーの収束を多項式時間スケールで促進し，二つの学習時計を分離する。
- ReLU多層パーセプトロンにおいても，同様のメカニズムが活性座標における線形モデルの削減を通して観察された。
Link: https://arxiv.org/abs/2606.05863
密度融合における構成的境界 [cs.CL, cs.IT, cs.AI, math.IT, stat.ME]目的：確率密度融合の順序不変性に関する代数的構成性問題の解決
- 分散型不確実性管理システムは重要であり，通信，プライバシー，スケジューリング制約下で確率モデルを組み合わせる。
- 中間ノードの結合順序に依存しない，最終的な密度を保証することが課題である。
- 順序不変性を保ちながら階層的に実行可能な局所融合ルールを特定する。
- 正規化された重み付き線形プールが，加法的な出力重みと重みのみの係数を持つ連続二項ルールに対して順序不変な階層的実行を特徴づける。
- 端点から候補への$f$-ダイバージェンスバランスは異なる局所的形状を持ち，ペアワイズな可解性だけではスケジュール非依存融合に不十分である。
- ガウス混合モデルは，厳密な融合が構成的であり，ステップごとの圧縮は非正規化された成分測度の合同条件の下でのみ構成的であることを示す。
Link: https://arxiv.org/abs/2606.05871
エントロピーに基づくAIエージェントの評価：行動パターンを測定する軽量フレームワーク [cs.AI, cs.CV]目的：AIエージェントの行動パターン測定
- AI開発において，エージェントの性能評価は重要な課題である。
- 従来の評価指標では，エージェントの探索性や柔軟性が見過ごされやすい。
- エントロピーを用いて，エージェントの行動プロセスの構造を詳細に分析する。
- 本研究で提案するEEAフレームワークは，行動エントロピー等の指標を導入した。
- これらの指標により，探索効率や堅牢性といった行動特性を定量的に評価できる。
- EEAは，LangChain等の既存フレームワークとの連携を可能にするPython実装を提供する。
Link: https://arxiv.org/abs/2606.05872
ラダーマン：ヒューマノイドロボットの知覚的な梯子登攀学習 [cs.RO, cs.AI, cs.CV, cs.LG]目的：ヒューマノイドロボットによる梯子登攀と，制約下での操作
- 人間と共存する環境でのロボット活用には，梯子登攀のような高度な運動能力が不可欠である。
- 足場や把手の少なさ，全身 координацияの複雑さ，知覚と制御の誤差の影響により，梯子登攀はロボットにとって極めて困難な課題である。
- 多様な梯子を安定して登攀し，制約下で操作を行うための，ロバストなシステムを開発すること。
- ラダーマンは，スケーラブルな二段階学習パイプラインと，ハイブリッド模倣・強化学習により，梯子登攀を実現した。
- 視覚的基盤モデルを活用することで，シミュレーションから実世界への知識転移を可能にした。
- 実験により，様々な形状の梯子でのロバストな登攀，実機へのゼロショット転移，そして挑戦的な制約下での操作が実証された。
Link: https://arxiv.org/abs/2606.05873
QCFuse：クエリ認識圧縮ビューによる効率的なRAGサービングのためのキャッシュ融合 [cs.CL, cs.AI, cs.DB]目的：RAGサービングにおける効率的なキャッシュ融合手法
- 大規模言語モデルの応答品質向上のため，外部知識の活用が重要である。
- 検索されたコンテキストの処理コストが，RAGサービング全体のボトルネックとなっている。
- クエリ認識と効率性を両立するキャッシュ融合選択手法の開発。
- QCFuseは，チャンクアンカークエリプロービングとクリティカルレイヤープロファイリングにより，効率的な再計算を実現した。
- 4つのオープンウェイトLLMと6つのデータセットでの評価で，フルプレフィルと同等の品質を達成した。
- フルプレフィルと比較して平均1.7倍，ProphetKVと比較して平均1.5倍のプレフィル時間高速化を実現した。
Link: https://arxiv.org/abs/2606.05875
TS-ICL：文脈学習による時系列のための柔軟な時間インデックス基盤モデル [cs.LG]目的：時系列モデリングにおける新しいアプローチ
- 時系列分析は，経済，気象，医療など幅広い分野で重要な役割を果たす。
- 既存モデルは予測に偏っており，不規則・欠損値を含む実データへの対応が課題である。
- 予測と補完を統合し，様々なデータ状況に対応できるモデルの開発を目指す。
- 提案手法TS-ICLは，欠損値補完において最先端の性能を達成した。
- 予測タスクにおいても，既存の基盤モデルと同等以上の競争力を示す。
- 特に，部分的に観測された過去データを用いた予測において高い性能を発揮する。
Link: https://arxiv.org/abs/2606.05878
より密な報酬では不十分：LLMエージェント長期訓練のためのエビデンスに基づくポリシー最適化 [cs.LG]目的：長期的なLLMエージェントの訓練におけるポリシー最適化手法
- LLMエージェントの複雑なタスク遂行能力向上は，AI研究の重要な課題である。
- 遅延報酬環境下では，中間的な意思決定への適切な報酬配分が困難である。
- 報酬の信頼性を高め，学習の安定性を向上させること。
- 提案手法ECPOは，既存手法GiGPOと比較して，ALFWorldとWebShopで一貫して高い性能を示す。
- Qwen2.5-1.5Bを用いた実験では，ALFWorldで5.2ポイント，WebShopで7.3ポイントの成功率向上を達成した。
- ECPOは，わずか0.1%の追加計算コストで，性能向上を実現する。
Link: https://arxiv.org/abs/2606.05885
連続作用空間における再試行方策勾配 [cs.AI]目的：複数経路からの最大報酬の最適化
- 強化学習において，探索は学習の効率と性能を左右する重要な要素である。
- 従来の強化学習アルゴリズムは，報酬の少ない領域での探索が困難になりやすい。
- 本研究は，連続作用空間においても探索を促進する再試行型目的関数を適用可能とする。
- 再試行型目的関数を用いることで，明示的な探索ボーナスなしでも探索が促進されることが示された。
- ReMACアルゴリズムは，SACと同程度の性能を達成しつつ，エントロピー正則化なしで高い方策エントロピーを維持する。
- ReMaxは，方策勾配の形状を変化させることで確率的探索を促し，Adam最適化アルゴリズムのパラメータ調整が重要となる。
Link: https://arxiv.org/abs/2606.05888
不確実性との共存：LLM間シミュレーション会話における人工道徳助言者の不確実性支持戦略 [cs.CL, cs.AI]目的：人工道徳助言者(AMA)が対話相手の「不確実性との共存」を支援するための戦略
- 倫理的ジレンマへの対応が求められる中で，AIが道徳的助言を行う重要性が高まっている。
- AI道徳助言者がどのような対話パターンを示すべきか，明確な指針が存在しない。
- 不確実性を受け入れる対話戦略が，より建設的な議論を促進すると仮定し検証する。
- オープンソースLLMは，人格間の乖離により人間の曖昧さを反映し，クローズドLLMは，人格内での回避的表現で曖昧さを反映した。
- 宣言的なペルソナは初期の立場多様性を捉えやすく，物語的なペルソナはより現実的な信念修正を示した。
- 6つのAMA戦略は，それぞれ特徴的な対話パターンを生み出し，立場修正の量ではなく，対話の質に違いが見られた。
Link: https://arxiv.org/abs/2606.05890
研究への注目を文脈構造化されたフローとして表現する [cs.CL, cs.CL, cs.LG]目的：研究への注意力の構造化表現
- 研究の可視性，影響力，社会への浸透度を測る指標として重要である。
- 既存の研究では注意力を集計値で表現しており，文脈や時間経過による変化が捉えられない。
- 注意力の構造と時間的変化を捉え，より情報に基づいた研究評価を目指す。
- 注意力のフロー表現は，研究成果間の類似性に基づく推論において，構造比較を効果的に行うことが示された。
- 特に，時間経過や文脈分布によって注意力が形成される状況において，その有効性が確認された。
- 学習されたフロー表現は，部分的な情報や構造的な変動に対するロバスト性を向上させる。
Link: https://arxiv.org/abs/2606.05895
可解な注意モデルにおけるLoRAファインチューニングの高次元理論 [cs.LG, cond-mat.dis-nn]目的：注意モデルにおけるLoRAの統計的性質の理論的解明
- 大規模言語モデルの効率的な学習は，計算資源の制約下で重要である。
- LoRAのようなパラメータ効率的なファインチューニング手法の理論的理解が不十分である。
- LoRAの性能を向上させるための最適な事前学習方法の指針を提示すること。
- 事前学習はLoRAにおける効果的なノイズ項として捉えられ，最適な事前学習手続きの設計に役立つ。
- テスト誤差と表現の質との間に不一致が生じる領域が存在することが示された。
- 本理論はアクティブ・ファインチューニングへの応用可能性を示唆する。
Link: https://arxiv.org/abs/2606.05899
複雑な質問応答におけるハルシネーション軽減：単純なグラフベースの検索拡張生成 [cs.CL, cs.AI]目的：複雑な質問応答におけるハルシネーションの軽減
- 大規模言語モデルは自然言語処理を大きく変革したが，誤った情報を生成するハルシネーションが課題である。
- LLMは学習データにない情報を生成したり，事実と異なる回答をしたりするハルシネーションを起こしやすい。
- 検索拡張生成(RAG)にグラフ構造を導入し，事実に基づいた正確な回答を生成することを目指す。
- グラフベースのツールを導入することで，事実の正確性に関する適合率と再現率が大幅に向上した。
- ハルシネーションによる誤った回答の数が半減し，詳細な真実性のスコアが最も高くなった。
- トークン使用量の増加はわずかで，効率的な改善が確認された。
Link: https://arxiv.org/abs/2606.05901
知識多様体：セマンティックマッピングと科学文献の測地分析のためのリーマン幾何学的フレームワーク [cs.CL, cs.IR, cs.LG]目的：科学文献のセマンティックな位置関係に基づくリーマン幾何学的空間の構築
- 科学技術の発展は，膨大な文献の効率的な理解と活用を必要とする
- 既存の手法では，文献間のセマンティックな関係性を定量的に捉えることが困難である
- 文献間のセマンティックな繋がりを幾何学的に表現し，新たな研究方向の発見を支援する
- 構築された知識多様体は，繊維強化複合材料と航空宇宙構造力学の分野における研究クラスタを再現した
- 測地線解析により，離れたトピック間の自然な概念的繋がりが明らかになった
- SPH/GPR補間により，未研究だが幾何学的に予測される研究方向を示す仮想的な論文概要の生成が可能になった
Link: https://arxiv.org/abs/2606.05907
DBHN-Net：低複雑度単一マイク音声強調のための二分岐ハイブリッドニューラルネットワーク [cs.SD, cs.LG, eess.AS]目的：低複雑度な単一マイク音声強調手法の提案
- 音声強調技術は，様々なデバイスにおける音声認識や通信品質向上に不可欠である。
- 従来のニューラルネットワークは高性能だが，計算量が多く，消費電力も大きいという課題がある。
- 本研究は，スパイクニューラルネットワークの省電力性と，ニューラルネットワークの性能を両立させることを目指す。
- 提案手法DBHN-Netは，ANNとSNNの二分岐構造により，計算量を7.5倍削減しつつ，優れた音声強調性能を維持する。
- BandSplitやTF-Mambaモジュールにより，省電力化とモデル性能の向上を同時に実現した。
- TF-Cross Attention-Fusionモジュールにより，SNN分岐がより重要な情報を保持できるようデータ適応的に誘導する。
Link: https://arxiv.org/abs/2606.05911
レトロスペクティブ・ハーネス最適化：軌跡ロールアウトにおける自己選好によるLLMエージェントの改善 [cs.AI, cs.CL, cs.LG]目的：LLMエージェントのハーネス最適化手法
- 複雑な問題を解決するため，AIエージェントの能力向上は不可欠である。
- 既存手法は教師データに依存し，実用的な環境でのデータ収集が困難である。
- 過去の軌跡のみを用いて，自己改善を行うハーネス最適化を目指す。
- RHOは，過去の軌跡から挑戦的なタスクを抽出し，並列に再解決することでハーネスを最適化する。
- 自己検証と自己整合性に基づき，エージェント自身が最適なハーネス更新を選択する。
- SWE-Bench Proにおけるパス率を59%から78%に向上させ，過去の失敗パターンを効果的に改善する。
Link: https://arxiv.org/abs/2606.05922
より良い文学翻訳：多角的データ生成とLLM学習アプローチ [cs.CL, cs.AI]目的：文学翻訳の質の向上
- 文学翻訳は，文化的理解を深め，多様な文学作品へのアクセスを可能にする重要な分野である。
- 高品質な翻訳データの不足と，表現の流暢性と文学効果のバランスが課題となっている。
- 多角的なデータ生成とLLM学習を通じて，文学翻訳の品質向上を目指す。
- 生成された参照翻訳は，SFTにおいてオリジナルの正解データよりも8.65ポイント高いCEA100スコアを達成した。
- 強化学習においては，DPOは性能低下をもたらしたが，明示的な報酬モデルを用いたGRPOは1.51ポイントの改善をもたらした。
- LitMT-8BおよびLitMT-14Bは，MetaphorTransベンチマークでそれぞれ67.25と69.07のCEA100スコアを達成し，Claude Sonnet 4.5と同等の性能を示した。
Link: https://arxiv.org/abs/2606.05924
生物医学研究におけるワールドモデルの構築に向けて [cs.AI]目的：生物医学的将来予測のためのAI駆動型発見パラダイム
- 生物医学研究は，疾患の理解と治療法開発に不可欠であり，その進歩は社会に大きな恩恵をもたらす。
- 既存のAIシステムは静的なパターン認識に偏り，将来予測や介入シミュレーションが不十分である。
- 生物医学的将来予測を可能にするワールドモデルを構築し，実験的検証可能な発見を促進する。
- 本研究では，分子，細胞，組織，臨床状態の潜在表現を学習し，介入条件付きダイナミクスをモデル化する。
- これにより，仮想細胞，オルガノイド，仮想患者，手術シミュレーションなど，様々な応用分野における将来軌跡のシミュレーションが可能となる。
- データ基盤，評価ベンチマーク，安全性，ガバナンスフレームワークの構築が，ワールドモデルの実現に必要である。
Link: https://arxiv.org/abs/2606.05925
多ラベルデータにおけるラベル固有の距離に基づくオーバーサンプリングによる不均衡への対処 [cs.LG]目的：多ラベルデータセットにおける不均衡問題の緩和
- 多ラベル分類は多様な応用分野で重要であり，現実世界の問題解決に不可欠である。
- 多くの多ラベルデータセットではラベル分布に偏りがあり，少数ラベルの識別精度が低い。
- ラベル固有の距離を用いて，より一貫性のある合成インスタンスを生成し，不均衡を解消する。
- 提案手法LSDMLOは，特徴空間内の各ラベルに対する重要度を考慮し，より適切な近傍を選択する。
- LSDMLOは，境界領域におけるラベル相関をより良く表現した合成インスタンスを生成する。
- 実験結果から，LSDMLOは既存のオーバーサンプリング手法よりも優れた性能を示すことが確認された。
Link: https://arxiv.org/abs/2606.05927
クエリ適応型アクティブモダリティ検出によるマルチモーダルまたはそうでないか：音声と視覚を用いた人物検索 [cs.CY, cs.CL, cs.AI, cs.CV, cs.IR, cs.LG, cs.MM, eess.AS]目的：クエリ適応型アクティブモダリティ検出フレームワーク
- 放送ビデオアーカイブにおける人物検索は，その規模の大きさから効率的な検索技術が求められている。
- 音声や顔情報が欠損している場合，単純なマルチモーダル融合では性能が低下することが課題である。
- 欠損モダリティの影響を抑制し，クエリに応じて最適なモダリティを選択することを目指す。
- 提案手法は，クロスモーダルスコアの一貫性を利用してアクティブモダリティを検出し，89%の精度を達成した。
- BBC Rewindコーパスを用いた実験で，P@1が94.2%となり，単一モダリティや固定融合よりも高い性能を示した。
- 本手法は，正解モダリティラベルを用いた場合との性能差を64%まで縮めることに成功した。
Link: https://arxiv.org/abs/2606.05931
自己整合性抽出と報酬設計における因果的分割の事前登録 - RLVRにおける検証可能な報酬からの強化学習 [cs.AI, cs.LG]目的：自己整合性抽出と報酬設計の効果の因果的な分割
- 強化学習は，AIの意思決定能力向上に不可欠であり，特に報酬設計が重要な役割を果たす。
- 従来の報酬設計効果の推定方法は，自己整合性抽出の影響を考慮せず，バイアスを含む可能性がある。
- 報酬設計効果と自己整合性抽出の効果を分離し，正確な評価方法を確立すること。
- 報酬設計効果の誤った推定は，自己整合性抽出と報酬設計の信号を混同していることが明らかになった。
- 実験の結果，報酬設計効果の割合は，事前確率の強さに応じて異なり，事前確率が低いほどその割合は高くなった。
- 本研究で開発した分割方法は，既存の論文の監査において，自己整合性抽出が優勢であることを示す強力な診断価値を持つことが示された。
Link: https://arxiv.org/abs/2606.05932
機械学習サプライチェーンにおけるGDPRに基づく修正と削除：モデルの不透明性 [cs.LG]目的：機械学習モデルにおける修正と削除の権利に関する課題
- 個人情報保護の重要性が増す中，GDPR等の法規制への対応が不可欠である。
- 機械学習サプライチェーンの複雑さから，GDPRに基づく権利の行使が困難になっている。
- 機械学習サプライチェーンにおける「闇モデル」に着目し，透明性・トレーサビリティの課題解決を目指す。
- GDPRの要件は，現状では技術的に完全に満たせない場合が多いことが判明した。
- 機械学習サプライチェーンにおける問題は，既存の研究では十分に扱われていないことが示唆された。
- 法規制と技術的実装のギャップを埋め，信頼できるAI開発に貢献することが期待される。
Link: https://arxiv.org/abs/2606.05946
複数回の画像編集のための文脈認識強化学習：Edit-R2 [cs.AI]目的：複数回の画像編集における性能向上
- 拡散モデル等の進展により画像編集技術は発展しているが，より現実的な複数回の編集に対応する必要がある。
- 文脈が長くなるにつれて指示が希薄化し，過去の編集ミスが後の生成に悪影響を及ぼす問題がある。
- セッション意図を再構築することで，複数回の編集における指示の追従と一貫性を向上させる。
- Edit-R2は，マルチモーダルモデルに対する強化学習を用いたポストトレーニングフレームワークである。
- セッション意図の再構築により，散在する過去の制約を明示的な推論トレースに統合する。
- MICE-Benchというベンチマークを用いて，Edit-R2が複数回の画像編集において大幅な改善をもたらすことを示す。
Link: https://arxiv.org/abs/2606.05950
敵対的合成シナリオによるロボット安全ポリシーの学習 [cs.DC, cs.RO, cs.AI]目的：ロボット安全ポリシーの学習
- ロボットが安全に実世界で動作するためには，潜在的な危険を予測し，回避する能力が不可欠である。
- 従来の手法では，網羅的な危険シナリオを特定することが困難であり，ロボットの安全性を保証することが難しい。
- 敵対的シナリオ生成によって，従来の手法では見落としがちな高リスクな状況を効率的に発見し，安全性を向上させる。
- 本研究では，危険を考慮したロボット安全ポリシーの学習のための，敵対的ゲーム化フレームワークを提案する。
- シナリオ生成を，危険な状況を構築するRed Teamと，それを防ぐ安全ポリシーを洗練するBlue Team間の敵対的なゲームとしてモデル化する。
- この反復プロセスにより，従来のシミュレーションや手動列挙では捉えにくい，高リスクなエッジケースの効率的な発見が可能になる。
Link: https://arxiv.org/abs/2606.05952
最長経路探索のための双方向探索：前方から前方へのヒューリスティクスの事例 [cs.AI]目的：最長経路探索における双方向探索手法の開発
- 経路探索は，様々な分野で重要な役割を担う基盤技術である。
- 双方向探索は計算量を削減できる可能性があるが，ヒューリスティクスのオーバーヘッドが大きい。
- 前方から前方へのヒューリスティクスを効率的に活用し，最長経路問題を解決すること。
- BiXDFBnBアルゴリズムは，最長経路問題にSFBDSフレームワークを適用し，前方から前方へのヒューリスティクスを自然に組み込む。
- 実験結果から，BiXDFBnBはノード展開回数を減らすことが多く，実行時間も改善される場合があることが示された。
- LSP，Snakes，CIBを含む様々な最長経路問題に対して有効であることが確認された。
Link: https://arxiv.org/abs/2606.05956
特異方向：幾何学的特異学習 [cs.LG, stat.ML]目的：特異学習理論における幾何学的構造の解析
- 機械学習モデルの過剰パラメータ化が進み，従来の理論の適用が困難になっている。
- 特異点におけるFisher情報量の挙動が理論的に解明されていなかった。
- Fisher情報量の方向微分から特異点の情報を抽出し，理論的な予測を可能にすること。
- 特異方向という概念を導入し，Fisher計量とKL散逸の関連性を明らかにした。
- この概念を用いることで，パラメータ空間の幾何学的構造と特異点の性質を解析できるようになった。
- 深層ネットワークにおける勾配法において，効率的な最適化手法であるDDCAdamを提案した。
Link: https://arxiv.org/abs/2606.05957
操舵ベクトルは敵対的攻撃対象となりうる [cs.LG]目的：大規模言語モデルの挙動制御における操舵ベクトルの脆弱性
- LLMの制御は重要であり，ファインチューニング以外の効率的な手法が求められている。
- 共有される操舵データセットの安全性に対する検証が不十分である。
- 操舵データセットへの巧妙な毒物注入攻撃によるリスク軽減を目指す。
- 攻撃者は操舵データセットの一部のトークンを置換することで，モデルを意図しない方向に誘導できる。
- 毒物注入攻撃により，攻撃成功率は20～55%に達し，清浄なデータと比較して19～51%の向上を示した。
- 拒否方向の直交化防御によって，攻撃成功率の低下を約82%まで回復可能である。
Link: https://arxiv.org/abs/2606.05958
物理的推論のための因果的足場：VLMにおける因果に基づいた物理世界理解のためのベンチマーク [cs.RO, cs.CY, physics.soc-ph, cs.DB, cs.AI]目的：VLMにおける因果的物理推論の理解度を評価するためのベンチマークデータセットと評価指標
- 知的な行動の基盤となる物理世界理解は，AI研究において不可欠である。
- 既存のVLMは，物理現象に対する因果関係の推論において課題を抱えている。
- VLMの因果的推論能力を向上させるためのデータセットと学習手法を提案する。
- CausalPhysという，3,000件以上の質問を含むベンチマークデータセットを構築した。
- モデルの思考過程と正解の因果関係の一致度を測る評価指標を新たに提案した。
- 因果構造に基づいたファインチューニング手法(CRFT)により，VLMの推論精度と解釈性が大幅に向上した。
Link: https://arxiv.org/abs/2606.05966
臨床退院サマリーにおけるLLMベースの構造化抽出に対するプロンプト，モデル，スキーマ選択の感度測定 [cs.CL, cs.AI, cs.LG]目的：臨床退院サマリーからの構造化抽出における，プロンプト，モデル，スキーマ選択の感度
- 臨床データからの情報抽出は，医療の質向上や臨床研究において不可欠である。
- LLMを用いた構造化抽出の出力は，設定に大きく左右され，再現性が課題となっている。
- プロンプト，モデル，スキーマ選択が抽出結果に与える影響を定量的に評価すること。
- プロンプト間の合意度は，ICD層位化サブセットにおいてCohen’s kappaで評価した結果，0.68～0.69であった。
- 大規模モデルは，特定の項目で合意度を向上させる一方で，他の項目では低下させる，分布の再配分を示した。
- スキーマを二値化することで，プロンプト間の不一致の大部分が解消され，欠損と沈黙の区別が主な要因であることが示された。
Link: https://arxiv.org/abs/2606.05970
反事実連鎖と因果グラフによるLLMの説明可能性 [cs.LG]目的：LLMの推論過程を可視化するための因果グラフの構築
- LLMの利用拡大に伴い，その意思決定プロセスを理解する重要性が増している。
- LLMの内部動作は不透明であり，なぜ特定の予測を行ったのか説明が困難である。
- LLMが概念をどのように認識し整理しているかを明らかにし，説明可能性を高める。
- 提案手法により，LLMが認識する概念間の依存関係を可視化した因果グラフを構築できた。
- 構築された因果グラフは，LLMの推論過程と整合性のある意味のある依存関係を捉えていることが示された。
- 反事実的な拡張手法は，安定した因果グラフの発見に貢献し，概念レベルの説明可能性の基礎となる。
Link: https://arxiv.org/abs/2606.05972
自己修正の錯覚：LLMは他者を修正するが，自分自身は修正しない [cs.AI, cs.CL]目的：LLMにおける自己修正と他者修正の非対称性の原因究明
- LLMの推論能力は向上しているが，誤りを認識・修正する能力には限界があることが課題となっている。
- LLMは，自身の推論過程の誤りを修正することが苦手であるのに対し，外部情報源の誤りは修正しやすいという矛盾が存在する。
- この研究は，LLMの自己修正能力の低さが，能力不足によるものか，チャットテンプレートの役割に起因するものかを明らかにすることを目指す。
- LLMは，誤りの内容ではなく，その提示される役割によって修正の有無が大きく変化することが示された。
- 自身の思考（<thought>）として提示された誤りは修正されにくいが，外部からのメッセージ（ユーザー，ツール，システムメモリ）として提示されれば修正率が大幅に向上する。
- この現象はチャットテンプレートのアーティファクトであり，モデルの学習や修正なしに，プロンプト構造を調整することで改善が可能である。
Link: https://arxiv.org/abs/2606.05976
統一的な世界モデリング，言語推論，行動合成のためのワールド・ランゲージ・アクションモデル [cs.RO, cs.AI]目的：世界モデリング，言語推論，行動合成を統合的に行うモデル
- ロボット工学において，環境を理解し，推論し，行動計画を立てる能力は重要である。
- 既存モデルでは，複雑なタスクを解決するための言語推論能力と，現実世界の物理的な挙動のモデリングが不十分である。
- 本研究は，言語，画像，ロボットの状態を統合的に理解し，高度な行動を生成するモデルを開発し，その問題を解決する。
- 提案手法であるWLAモデルは，テキスト指示，画像，ロボットの状態を入力として，サブタスク，ゴール画像，ロボットの行動を予測する。
- WLA-0プロトタイプは，RoboTwin2.0 Cleanで92.94％，RMBenchで56.5％の成功率を達成し，最先端の性能を示す。
- WLA-0は，行動アノテーションなしにクロス・エンボディメントロボット動画から直接新しいタスクを学習する可能性も示唆している。
Link: https://arxiv.org/abs/2606.05979
ビジョン認識型MLLM条件付き編集拡散におけるビデオレートストリーミングスタイライゼーション：蒸留されたUNet + MLLMテキストエンコーダを用いた非対称バッチ推論 [cs.CV, cs.LG]目的：リアルタイムテキスト-画像パイプラインにおけるフレームごとのボトルネックを解消し，ビデオレートでのストリーミングスタイライゼーションの実現
- 近年，大規模言語モデル(MLLM)を活用した画像生成・編集技術が発展しており，その応用範囲は広い。
- 従来の拡散モデルは計算コストが高く，リアルタイム処理が困難であり，特にMLLMとの組み合わせでは計算負荷が課題となっていた。
- 蒸留による軽量化と，効率的な推論パイプラインの構築により，リアルタイムなビデオストリーミングスタイライゼーションを実現すること。
- 蒸留されたUNetとMLLMテキストエンコーダを組み合わせたパイプラインにおいて，非対称バッチ推論などの技術を用いることで，高い処理速度を実現した。
- RTX 3090 Tiで512x512の解像度において，バッチサイズ8で27.4fps，バッチサイズ16で29.6fpsを達成し，RTX 4090および5090ではさらに高速な処理を実現した。
- 学習済みの油絵スタイルは，DAVIS-2017やその他の動画データセットにおいて，汎化性能が確認された。
Link: https://arxiv.org/abs/2606.05981
広範囲な二層ニューラルネットワークにおける不確実性の定量化：限界ゆらぎプロセスの法則について [cs.NE, math.AP, math.PR]目的：ニューラルネットワーク予測における不確実性の定量
- ニューラルネットワークの応用において，予測の信頼性評価は不可欠である。
- 従来のアンサンブル法は計算コストが高く，効率的な不確実性評価が課題である。
- 偏微分方程式の情報を用いて，計算コストを抑えた不確実性の評価を目指す。
- 広範囲な二層ニューラルネットワークのゆらぎプロセスが，線形確率進化方程式の弱解として特徴づけられることが示された。
- このゆらぎプロセスは，重み付きソボレフ空間の双対空間における中心ガウス過程であり，有限次元分布の閉じた共分散表現が得られた。
- 共分散は，平均場軌跡によって駆動される非局所的なソース項を持つ逆輸送方程式の解によって表される。
Link: https://arxiv.org/abs/2606.05982
フレーム化，判断，誘導：生成AIを用いた推論を学生に教えるための評価可能なコンピテンシーモデル [cs.AI, cs.CL]目的：生成AIを活用した推論能力を評価するためのコンピテンシーモデル
- AI技術の進歩は教育に大きな影響を与えており，AIを効果的に活用できる人材の育成が急務である。
- 従来の評価方法は，AI支援下での学習者の能力を十分に評価できていないという課題がある。
- AIを活用した学習における，課題設定，出力評価，モデル誘導の能力を個別に評価する手段を提供する。
- 本研究では，CoRe-3（Co-Reasoning）というコンピテンシーモデルを提案し，フレーム化，判断，誘導の3つのスキルに分解した。
- シミュレーション実験の結果，各スキルは独立して測定可能であり，妥当性と信頼性が確認された。
- このモデルは，AIを活用した教育における評価方法の改善に貢献すると期待される。
Link: https://arxiv.org/abs/2606.05983
AttackPathGNN：状態干渉グラフと論理積プーリングを用いたスマートコントラクトのクロス関数脆弱性検出 [cs.CL, cs.CY, cs.CR, cs.AI]目的：スマートコントラクトにおけるクロス関数脆弱性の検出
- ブロックチェーン技術の普及に伴い，スマートコントラクトのセキュリティ確保が重要となっている。
- 従来の脆弱性検出手法は，単一関数内の構文パターンに依存しており，関数間の関係性を見落とす場合がある。
- 本研究は，関数間の状態干渉を考慮し，攻撃経路を明示的に扱うことで，より高精度な脆弱性検出を目指す。
- AttackPathGNNは，状態干渉グラフと論理積プーリングを特徴とするグラフニューラルネットワークである。
- SmartBugs Wildテストにおいて，F1スコア92.3±0.2%を達成し，偽陰性率は4.3±0.3%と低い結果を示した。
- DASP10の6/10カテゴリとReentrancyをそれぞれ100%と98.7±1.8%の精度で検出した。また，関数レベルの監査報告書も生成する。
Link: https://arxiv.org/abs/2606.05986
推論トレース圧縮による効率的な知識蒸留 [cs.LG, cs.CL]目的：推論トレースの圧縮
- 大規模言語モデルの推論能力向上は重要だが，計算コストが高い。
- 推論時に生成される思考連鎖は長大で，蒸留の負担となる。
- 推論トレースを圧縮することで，効率的な知識蒸留を目指す。
- 推論トレースを圧縮することで，学習に必要なトークン数を12-30%削減し，学習速度を2.0-7.6倍に向上させた。
- 推論出力の長さを3-19倍短縮できた。ただし，生のトレースの方が高い精度を維持した。
- モデルによる圧縮は，単純なトレース切り捨てよりも優れた結果を示し，特に小規模な生徒モデルで効果がみられた。
Link: https://arxiv.org/abs/2606.05988
HoT-SSM：ヘルスケアのための状態空間モデルを用いた高次の時間的知識グラフ推論 [cs.LG, eess.SP]目的：医療知識グラフを用いた高次の時間的知識グラフ推論手法
- 医療分野において，解釈可能な予測を支援するため，臨床知識を組み込んだ医療知識グラフの利用が進んでいる。
- 既存手法では，臨床概念間のペアの関係性を捉えきれず，概念間の高次の相互作用をモデル化することが難しい。
- 高次の臨床的相互作用と長距離の時間的依存性を同時にモデル化することで，予測性能の向上を目指す。
- HoT-SSMは，ドメイン知識を用いて関連する臨床概念をハイパーエッジにグループ化し，診療レベルの臨床的文脈を保持する。
- 動的なハイパーグラフに基づく状態空間モデルを導入し，患者の潜在的な状態の時間的変化を明示的に捉え，長距離情報を保存する。
- MIMIC-IIIおよびMIMIC-IVデータセットにおける実験により，最先端モデルと比較して有意な性能向上が示された。
Link: https://arxiv.org/abs/2606.05994
2D口腔内画像からの深層学習による3D口腔内構造再構築 [cs.CV, cs.AI]目的：2D口腔内画像からの3D口腔内構造再構築手法
- 歯科治療において口腔内3Dモデルは不可欠であり，正確な診断と治療計画の立案に貢献する。
- 従来の印象採得や口腔内スキャナーは，患者への負担や高コストといった課題を抱えている。
- 低コストで患者負担の少ない，ソフトウェアベースの3D再構築手法を確立すること。
- 提案手法は，10枚の2D口腔内画像のみを用いて3Dモデルを再構築し，専用機器を必要としない。
- Dental3DSデータセットを用いて学習した結果，最近傍一致による精度は77.49%を達成した。
- 再構築モデルの頂点は，グランドトゥルースの高密度領域に集中する傾向があり，点分布が不均一になるという課題が残る。
Link: https://arxiv.org/abs/2606.05998