arXiv雑要約
AI - 2026/05/19 公開
単語埋め込みの残差意味分解 [cs.CL, cs.CL, cs.LG]目的:単語埋め込みの残差意味分解手法
- 自然言語処理において,単語の意味表現は重要な課題であり,文脈に応じた意味の把握が求められる。
- 従来の単語埋め込みは,多義性のある単語に対して,文脈に応じた意味を十分に分離できない場合がある。
- 残差意味分解により,単語の曖昧さを解消し,より適切な意味表現を獲得することを目指す。
- 残差意味分解(RSD)は,単語埋め込みを再構成と関係構造の維持のバランスを取りながら分解する手法である。
- 曖昧な単語に対する文脈診断において,RSDはシャッフルラベルの制御よりも優れた結果を示した。
- RSDの残差近傍は,ベンチマークとしての意味予測ではなく,定性的な診断に役立つことが示唆された。
DyGRO-VLA:動的グループ化残差最適化によるビジョン・言語・行動モデルのクロス task スケーリング [cs.RO, cs.LG]目的:ビジョン・言語・行動モデルの汎化性能向上
- ロボティクスにおけるVLAモデルの重要性が増しており,環境とのインタラクションを通じて学習する能力が求められている。
- 既存の強化学習最適化手法はタスク特化型であり,VLAモデルの汎化性能を制限している。
- クロス task 特徴表現を獲得し,タスク間の干渉を抑制することで,汎化性能を向上させる。
- DyGRO-VLAは,情報理論に基づいたクロス task 潜在表現の獲得と,RL残差の混合による動的なポリシー最適化を組み合わせる。
- LIBEROやRoboTwin2のベンチマーク,さらには実世界での実験で,マルチタスク学習と分布シフトにおいて,強力なベースラインと比較して一貫した改善が示された。
- この手法により,最適化プロセス全体を通して,タスク関連の潜在情報を活用しつつ,学習された表現に対する有害な干渉を戦略的に軽減することが可能となる。
線形重ね合わせを超えて:KAN-SAEを用いたAI天気モデルにおける気候特徴の発見 [cs.LG, cs.AI, cs.CV, physics.ao-ph]目的:AI天気モデルにおける気候特徴の表現の解明
- 気候変動予測の精度向上は喫緊の課題であり,AI技術の活用が期待されている。
- AI天気モデルの予測性能は高いが,内部表現が不透明であるという課題がある。
- 非線形な活性化関数を用いることで,AIモデル内部の気候特徴の可視化を目指す。
- KAN-SAEは,線形ベースラインと比較して72%多くの特徴を発見し,特徴間の冗長性を20%低減した。
- 気候に関する教師信号を用いずに,ヨーロッパの熱波や西太平洋の台風追跡特徴を特定した。
- 非線形活性化関数が,深層学習天気モデルの解釈可能性に不可欠であることが示された。
推論言語モデルのための自己教師ありオンポリシー蒸留 [cs.LG]目的:推論言語モデルの性能向上
- 複雑な推論問題を解決できる言語モデルの構築は,AI研究における重要な課題である。
- 既存手法では,推論過程における中間的なフィードバックが十分に活用されていない。
- 自己生成される正誤の対比を利用し,密な過程の監督学習を実現する。
- 提案手法SSOPDは,AIME 2024,AIME 2025,HMMT 2025の全9つのモデル・ベンチマーク設定においてGRPOを上回る性能を示した。
- Qwen3-8Bにおいては,macro Avg@12で65.6を達成し,GRPOを1.6ポイント,OPSDベースラインを0.8ポイント上回った。
- 最短正解と最長誤答の比較を通じて,持続的な失敗の修正と迅速な成功への行動を促す。
t-gems:CLIP画像エンコーダの計算量を削減するためのテキスト誘導型出口モジュール [cs.CG, cs.LG]目的:マルチモーダル深層ニューラルネットワークにおける計算量削減手法
- 多様なデータ様相を統合することで,より高度な理解を可能にする技術分野である。
- 大規模な画像エンコーダと,予測時の全データ処理が計算資源を圧迫する。
- テキスト情報に基づき,エンコーダの利用を抑制し,計算コストを削減することを目指す。
- 本研究では,CLIP等のエンコーダの中間層における意味内容分布をテキスト記述から解析した。
- テキスト誘導型出口モジュール(T-GEMs)とレートベース正則化を導入し,計算コストとクロスモーダル理解性能のバランスを取った。
- 中間層の活用により,計算量の削減と高い理解性能の両立を実現した。
沈黙の筆:AI画像生成における芸術様式の流出の評価 [cs.LG, cs.CV]目的:AI画像生成における芸術様式の流出の評価
- 画像生成AIは急速に進歩しており,創造的な可能性を広げている。しかし,学習データ由来の問題も顕在化している。
- 学習データに著作権で保護された美術作品が含まれる場合,意図しない様式の再現が懸念される。
- プロンプトに明示的に指定されなくても,学習された様式が生成画像に現れる現象を評価する。
- 本研究では,芸術様式の流出を評価するためのArt Arenaというプロトコルを提案した。
- Art Arenaは,美術作品のエンコードの強さ,作品間の相互作用,そして様式の再出現頻度を測定する。
- 実験結果から,芸術様式の流出は,作品間の表現力の強さの差と相互作用のダイナミクスに起因することが示された。
深層学習とLLMを用いたRAGベースの脳波-テキスト変換 [cs.AI, cs.CL, cs.HC]目的:脳波からの言語情報の変換
- 脳波を用いた脳コンピュータインタフェース研究は,人間の思考を直接的に読み取る可能性を秘めており,医療や福祉分野への応用が期待される。
- 脳波信号はノイズが多く,文レベルでの正確な復号が困難であり,ランダムよりも良い性能を示すことは稀であった。
- 脳波信号から意味のある文章を生成するため,外部知識の参照と大規模言語モデルの活用による性能向上を目指す。
- 提案手法は,9名の被験者においてランダムベースラインを上回り,平均コサイン類似度が0.181±0.022であった。
- これはベースラインの0.139±0.029と比較して,30.45%の相対的な改善に相当する。
- 厳格な評価ワークフローにおいて,正解ラベルを用いずに推論を行うことで,有意な改善が確認された。
視覚的メカニズム解釈のための分布的視点:KL最小ソフト制約原理 [cs.CV, cs.AI]目的:視覚的メカニズム解釈における分布的視点
- 深層学習モデルの内部動作を理解する重要性が増しており,その解釈可能性が求められている。
- 既存の手法は,ヒューリスティックに依存しており,解釈の質やモデルへの忠実性に課題がある。
- 自然な画像分布との乖離を最小化し,解釈性とモデルへの忠実性を両立することを目指す。
- 本研究では,特徴活性化が自然画像分布に与える影響を分布的にモデル化する理論的枠組みを確立した。
- 既存の手法に統計的な偏りが存在し,人間にとって解釈しにくいか,モデルの機能を正確に表現できていないことが示された。
- KL最小ソフト制約原理に基づいたモデルを提案し,DINOv3モデルを用いた実験で有効性を検証した。
BESplit:エビデンスに基づく集約によるバイアス補正型分割連合学習 [cs.LG, cs.AI]目的:非IIDデータ分布下におけるバイアス最適化と不安定な収束の軽減
- プライバシー保護が重要視される中で,分散データを用いた機械学習の需要が高まっている。
- 従来の連合学習手法では,非IIDデータ分布下で性能劣化や収束不安定性が問題となる。
- 分割連合学習の構造に着目し,バイアス補正によって学習の安定化と精度向上を目指す。
- 提案手法BESplitは,エビデンスに基づく集約によりクライアントの貢献度を再重み付けすることで,バイアスを抑制する。
- 分割層の表現を整列させるバイアス補正型協調モジュールにより,分布の偏りをさらに低減する。
- 二重教師蒸留により,クライアントとサーバーモデル間の知識を同期させ,独立したローカル推論を可能にする。
座標の不均一性が二値量子化を支配する:InfoNCEからRecallへ [cs.RO, cs.RO, cs.LG, cs.DB]目的:二値量子化における性能を支配する要因の解明
- 高次元埋め込みの効率的な近傍探索は,情報検索や機械学習において重要な課題である。
- 二値量子化は埋め込みの圧縮に有効だが,コントラスト学習とそうでない場合で性能が異なる。
- 座標の不均一性が二値量子化の性能に与える影響を解析し,最適な設計指針を提供する。
- InfoNCEで学習された表現のガウス構造と,二値量子化の品質に関する解析的フレームワークを結びつけた。
- 座標の分散の不均一性(座標の不均一性)が二値量子化の性能を決定づけることが示された。
- 実験結果は,13のデータセットと6種類の埋め込みファミリーにおいて,予測と一致し,二値量子化システムの設計指針として機能する。
SaaSBench:長期間のエンタープライズSaaSエンジニアリングにおけるコーディングエージェントの限界探求 [cs.SE, cs.AI]目的:エンタープライズSaaSエンジニアリングにおけるコーディングエージェントの能力評価
- ソフトウェア開発の自動化は,生産性向上とコスト削減に貢献し,ビジネスの迅速な展開を可能にする。
- 既存のベンチマークは簡略化されたアプリケーションに限定され,実際のSaaSシステムの複雑さを捉えられていない。
- 本研究は,現実的なエンジニアリング制約下でのAIエージェントの性能評価を可能にするベンチマークの提供を目指す。
- SaaSBenchは,6つのSaaSドメイン,8つのプログラミング言語,6つのデータベース,13のフレームワークを含む複雑なタスクで構成される。
- 実験の結果,最先端のエージェントの主なボトルネックは,単独のコードロジックの生成ではなく,マルチコンポーネントシステムの構成と統合であることが明らかになった。
- タスクの95%以上の失敗は,ビジネスロジックに到達する前に発生し,過信や誤ったデバッグループが原因であることが示唆された。
構造的に妥当な合成データ生成:CasualSynth [cs.LG, cs.AI, cs.CL]目的:因果構造に基づいた合成データ生成手法
- 大規模言語モデルの活用が期待される一方,因果関係の再現性は課題である。
- 既存手法では,言語モデルが事前学習データの影響を受け,因果構造を無視することがある。
- 因果構造と豊富な意味情報を両立した,信頼性の高い合成データ生成を目指す。
- CasualSynthは,因果構造生成と意味実現を分離し,因果的に妥当な合成データを生成する。
- 反復的な整合性検証モジュールにより,言語モデルが因果関係を無視する「意味的バックドア」問題を軽減する。
- ベンチマークテストにおいて,条件独立性を高い精度で維持し,96%以上の実現率を達成した。
オンライン三重項マイニングを用いた少数事例ネットワーク侵入検知 [cs.CR, cs.AI, cs.LG, cs.NI]目的:少数事例分類によるネットワーク侵入検知手法
- ネットワークセキュリティにおいて,サイバー攻撃の検知は不可欠であり,その重要性は増している。
- 十分なラベル付きデータがない場合,既存の機械学習モデルは性能が低下しやすい。
- ラベル付きデータの少ない状況でも有効な侵入検知を実現することを目的とする。
- 提案手法は,オンライン三重項マイニングとKNN分類器を組み合わせることで,少ない事例でも効果的な分類を可能にする。
- 様々なオンライン三重項マイニングアルゴリズムを比較検討し,最適なモデル設計を選択した。
- 実験の結果,提案手法は,クラスごとの悪意あるサンプルが10個程度でも,既存手法と遜色ない性能を示した。
自己教師あり階層的視覚推論とワールドモデル [cs.AI]目的:3Dオープンワールド環境における強化学習のための,効率的な視覚推論表現の構築
- 広大な状態空間を持つ環境は,強化学習における主要な課題であり,効率的な表現が不可欠である。
- 既存の自己教師あり視覚的予測アプローチは,多段階エラーの蓄積に苦しむ場合が多い。
- ドメイン知識に依存せずに,より安定した推論を可能にする新たなアプローチを提案する。
- ResDreamerは,階層的なワールドモデルであり,各上位層が下位層の残差を再構成するように学習する。
- この設計により,複雑なワールドダイナミクスの漸進的な抽象化と,より豊富な潜在表現の創発を促進する。
- 実験の結果,ResDreamerは最先端のサンプル効率とパラメータ効率を達成した。
メモリ誘導型木探索と知識伝達によるLLMソルバー合成 [eess.SY, cs.SY, cs.AI]目的:LLMソルバー合成における探索効率の向上
- 組合せ最適化は,物流からチップ設計まで幅広い分野で意思決定の基盤であり,重要性が高い。
- 既存手法では,探索経路間の知識伝達が不十分で,同じ制約違反を繰り返したり,類似のアルゴリズムに収束しがちである。
- 探索経路間の知識伝達を促進し,探索の安定性と効率を向上させることを目指す。
- MEMOIRは,2階層のメモリ構造を持つ木探索フレームワークであり,探索経路間の知識伝達を実現する。
- 7つの組合せ最適化問題において,96.7%の解の有効性を達成し,既存の最良手法を9.2ポイント上回る結果を得た。
- 複数回の実行において,解の有効性の標準偏差が既存手法よりも大幅に小さく,探索の一貫性を示唆している。
AI時代におけるコードレビューの再考:エージェントによるコードレビューの展望 [cs.SE, cs.AI]目的:AIを活用したコードレビューのワークフローの展望
- ソフトウェア開発において,コードレビューは品質確保の重要なプロセスである。
- AIコーディングアシスタントの普及により,レビューすべきコード量が増加し,ボトルネックとなっている。
- AIエージェントと人間の判断を組み合わせた,効率的かつ質の高いコードレビューを実現すること。
- 本研究では,コードレビューの歴史的変遷と,LLMやエージェントAIシステムの影響を分析した。
- PR作成,拡充,レビューアー選定,AI支援レビュー,振り返りを含む,AIを活用したコードレビューの5段階フレームワークを提案した。
- 信頼性,偏り,プライバシー,自動化バイアスなどの課題と,人間とAIの協調に関する研究課題を提示した。
Q-LocalAdam: エッジ連合学習のためのメモリ効率の高いクライアント側適応的最適化 [cs.LG]目的:エッジデバイスにおける連合学習のためのメモリ効率的な適応的最適化手法
- エッジデバイスでの連合学習は,データプライバシー保護の観点から重要性が増している。
- 既存の適応的最適化手法はメモリ消費量が大きく,リソース制約のあるエッジデバイスでの利用が困難である。
- 本研究では,メモリ消費量を削減しつつ,連合学習の精度を維持することを目的とする。
- Q-LocalAdamは,momentumとvarianceの特性に着目し,分布を考慮した量子化と符号化を用いることで,最適化メモリを3.37倍削減。
- 中程度のデータ不均一性下では精度損失なく,極端な不均一性下では精度向上(CIFAR-100で+5.74pp)を確認。
- 分布を考慮した設計の重要性を示し,メモリ制約のあるエッジデバイスでのより大規模なモデルや並行処理を可能にする。
専門家コンサルティング業務における深層研究エージェントの評価:検証者,評価基準,認知罠を用いたベンチマーク [cs.AI, cs.LG]目的:深層研究エージェントの専門家コンサルティング業務における能力評価
- 企業における意思決定支援の自動化ニーズの高まり
- 既存のベンチマークでは,深層研究エージェントの実際の活用場面を十分に評価できていない
- 実務レベルのコンサルティング業務を想定した評価基準を開発し,エージェントの課題を特定すること
- Claude Opus 4.6は,ファイル要件のあるタスクでは他のエージェントより安定して成果を出したが,虚偽情報の生成率が高かった。
- OpenAI o3は,論理的な推論は比較的正確だが,必要なセクションの欠落や計算ミスの頻度が高かった。
- Gemini 3.1 Proは,合格率と評価の最低点数の両方の点で二極化しており,パフォーマンスにばらつきが見られた。
PFlow-T:トポロジー制御生成のための持続性に基づく前方過程 [cs.LG, cs.CV]目的:トポロジー制御生成のための持続ホモロジーに基づく前方過程
- 生成モデルにおいて,構造的特徴を保持しながら多様なデータを生成することは重要である。
- 既存のトポロジー認識拡散モデルは,ノイズ付加と構造復元でアプローチが異なり,非効率である。
- 持続ホモロジーに基づき,構造的なノイズ付加を実現し,効率的な生成を可能にすること。
- PFlow-Tは,前方過程を完全持続ホモロジーに基づいた生成モデルである。
- PFlow-Tは,MNISTデータセットにおいて,指定されたベティ数の生成でベースラインモデルを上回る性能を示した。
- 分布外タスクへの対応においても,PFlow-Tの有効性が確認された。
視覚的彫刻:長期的ロボット粘土彫刻のための視覚的に整合した計画表現 [cs.RO, cs.AI]目的:ロボット粘土彫刻における視覚的に整合した計画表現
- ロボットによる複雑な作業自動化の実現は,製造業やサービス業において不可欠である。
- 既存の変形物体の操作は,目標ごとに再学習が必要か,特徴を捉えにくい。
- 視覚情報に基づいた計画表現により,長期的タスクの達成を目指す。
- 本研究では,粘土の質感や照明を捉えた視覚的に整合した表現を用いることで,ロボット粘土彫刻におけるダイナミクスモデリングを行った。
- 提案手法は,最先端の手法と同等の性能を示しつつ,視覚的計画との互換性を有する。
- 100ステップを超える長期的タスクである粘土レリーフ彫刻への適用可能性が示された。
無効なバグレポートの自動原因分類とノーコード修正生成 [cs.SE, cs.AI, cs.MA]目的:無効なバグレポートの原因分類とノーコード修正の生成
- ソフトウェア利用における問題報告は重要であり,効率的な解決が求められる。
- バグレポートの多くが無効であり,サポート担当者のリソースを浪費している。
- 無効なバグレポートの分類と,迅速な解決策の提案を自動化することを目指す。
- 無効なバグレポートの原因分類において,Retrieval Augmented Generationが最も高い性能(F1スコア0.66)を示した。
- 再現性の問題に関する分類性能は最も高く(F1スコア0.85),機能要望や質問も高い性能(F1スコア0.79)を示した。
- ノーコード修正生成においては,Agentic Web Searchが最も高い成功率(68.9%)を達成し,特に「設計通り」のケースで高い性能(87.4%)を示した。
精度を超えて:脳波基盤モデルの頑健性,解釈可能性,表現力 [cs.LG, cs.AI, cs.HC]目的:脳波基盤モデルの頑健性,解釈可能性,表現的質に関する評価
- 脳波解析は,脳の活動を理解し,神経疾患の診断や治療に不可欠である。
- 脳波基盤モデルの評価は主にクリーンなデータに対する精度に偏っており,実用上の頑健性は未解明である。
- 脳波基盤モデルの信頼性と応用範囲を広げるための評価基準を確立すること。
- 脳波基盤モデルの頑健性評価の結果,特定のモデルがすべてのノイズ条件下で優位性を示すことはなかった。
- 注意喚起層別関連伝播(AttnLRP)を用いた解釈性評価により,モデルは適切な脳領域に注意を向けていることが示されたが,予測精度低下との乖離が見られた。
- ブロックごとのプロービングにより,基盤モデルの早期層がすでにタスク関連情報を保持していることが明らかになった。
一般化か暗記か:チェス学習済み言語モデルの脆性テスト [cs.AI, cs.CL]目的:チェス学習済み言語モデルの性能評価と,その能力の根底にあるメカニズムの解明
- 言語モデルの応用範囲拡大のため,特定の専門知識獲得能力の評価が重要である。
- チェス学習済み言語モデルの性能は高いものの,真の理解に基づいているか不明確である。
- 言語モデルの能力がパターンマッチングに依存している可能性を示し,より効率的な学習方法を模索する。
- KinGPTは,パラメータ数が少ないにも関わらず,既存のモデル(ChessGPT, C1-4B)をチェスのパズル問題で上回る性能を示した。
- チェス学習済み言語モデルの高性能は,主にパターンマッチングによるものであり,真の理解に基づくものではないことが示唆された。
- 汎用言語モデルと外部検証器の組み合わせが,特定の領域における学習効率を向上させる有効な手段であることが示された。
構造化ニューラルマークト点過程による解釈可能なイベント相互作用モデリング [cs.LG]目的:多クラスイベントストリームにおける構造化されたイベント間関係の解明と高精度な予測
- イベント間の関係性を理解することは,様々な応用分野で重要な課題である。
- 既存のニューラル点過程モデルは表現力は高いが,相互作用がブラックボックス化している。
- イベントの種類と時間的な遅延を考慮した明示的な関係性構造の発見を目指す。
- 提案手法は,イベントの種類間の影響関係を符号付きネットワークで表現し,時間減衰パターンを柔軟に捉える。
- 実験結果から,本手法は構造化された関係性を明らかにし,予測性能においても優れていることが確認された。
- 効率的な学習のために,層化モンテカルロ推定法を用いた確率的学習手法を開発した。
オフポリシーはどこまで可能か?効率的なLLM強化学習のためのMu-GRPO [cs.LG, cs.CL]目的:大規模言語モデルの強化学習における効率化
- 言語モデルの能力向上には,強化学習による報酬最適化が不可欠である。
- 従来のGRPOは,システム負荷が高いオンポリシーに近い学習方法に依存している。
- 高いロールアウトの鮮度を保たずに効率的な学習を実現することが課題である。
- Mu-GRPOは,GRPOと同等以上の性能を,約2倍の速度で達成した。
- ロールアウトの鮮度を大幅に高め,ロールアウト・最適化の切り替えオーバーヘッドを削減した。
- リラックスドクリッピングと負の優位性拒否の組み合わせにより,鮮度の低いデータ下での学習を安定化した。
クラスインクリメンタル学習における Mixture-of-Experts の安定ルーティング [cs.CV, cs.LG]目的:クラスインクリメンタル学習における Mixture-of-Experts の安定的なルーティング手法
- 継続学習は,モデルが新しい知識を獲得しつつ,過去の知識を保持することが重要である。
- MoEモデルでは,エキスパート拡張に伴うルーティングの不安定性が課題となっていた。
- 本研究は,ルーティングの安定性を確保し,知識の保持と新しいクラスへの適応を両立することを目指す。
- 提案手法 StaR-MoE は,感度を考慮したルーティングアラインメントにより,過去のルーティング分布との整合性を保つ。
- StaR-MoE は,非対称な容量正則化により,拡張されたエキスパートプールの効果的な活用を促進する。
- 4つのベンチマークデータセットにおいて,StaR-MoE は最先端手法と比較して平均精度と最終精度を向上させた。
UniAlign: 分布シフト下におけるロバストなネットワークトラフィック分類のためのモデル非依存フレームワーク [cs.LG, cs.AI]目的:分布シフト下での深層学習ベースのネットワークトラフィック分類モデルのロバスト性向上
- ネットワークセキュリティにおいて,正確なトラフィック分類は,脅威検出やQoS制御等のために不可欠である。
- 現実のネットワーク環境では,ネットワーク条件の変化により分布シフトが発生し,分類性能が著しく低下する。
- 特定のモデル構造に依存せず,既存のモデルに容易に組み込めるロバスト性向上手法が求められている。
- UniAlignは,ドメイン不変なトラフィック表現の学習と,安定したモデルアンサンブルにより,分布シフトに対するロバスト性を高める。
- 3つの公開データセットを用いた評価では,標準的な学習と比較して,平均分類精度が2.51%,F1スコアが2.71%向上した。
- UniAlignは,既存のベースライン手法を上回り,NTC固有のベースラインのトレーニング時間の12.4%~53.9%で同等の性能を発揮した。
生理学的情報を組み込んだ心電図ワールドモデル:臨床介入シミュレーションへの応用 [cs.AI]目的:臨床介入シミュレーションのための心電図ワールドモデル
- 心電図は心臓の状態を把握する上で不可欠であり,迅速かつ正確な診断が求められる。
- 既存モデルは静的な予測に偏っており,薬物療法などの介入下での心電図変化を捉えるのが困難である。
- 薬物などの介入が心電図に及ぼす影響を予測し,安全な臨床意思決定を支援すること。
- 提案手法は,生理学的ODE priorを潜在拡散ダイナミクスに統合することで,生理学的に妥当な心電図を生成する。
- 不確実性を考慮した評価戦略により,介入のリスクとばらつきを定量化し,より信頼性の高い比較評価を可能にする。
- 薬物応答の制御されたシナリオや実際の臨床記録において,リスク評価の精度と専門家の治療選択との整合性が示された。
スケール不変生成予測:重み共有された膨張畳み込み,ウェーブレット散乱入力,スペクトル一貫性学習による自己相似時間系列 [cs.LG, cs.CE]目的:自己相似時間系列の生成予測におけるスケール不変性の実現
- 自然現象や工学的時系列データは自己相似性を示すことが多く,その理解は重要である。
- 既存の深層学習モデルはスケール不変性を考慮せず,多重スケール構造に留まっている。
- 本研究は,スケール不変性を組み込むことで,より効率的かつ正確な時系列予測を目指す。
- 提案手法であるSE-WaveNetは,S&P 500の株価データにおいて,アラン分散を用いたスケーリング崩壊診断において実証的な結果を再現した。
- 従来のWaveNetと比較して,SE-WaveNetは同等の性能を維持しつつ,畳み込みパラメータ数を大幅に削減することに成功した。
- NLL,KSキャリブレーション,テールエネルギー距離などの評価指標においても,提案手法はベースラインと同等またはそれ以上の性能を示した。
形態と機能:機械アンラーニングを状態の不整合問題として [cs.LG, math.OC]目的:オンラインL-BFGSにおける機械アンラーニング
- 機械学習モデルのプライバシー保護が重要視されるようになり,データ削除への対応が求められている。
- 既存手法では,パラメータの修正のみでは十分なアンラーニングが実現できない場合がある。
- 削除されたデータが存在しなかった場合の最適化状態への整合を目指すことでアンラーニングを実現する。
- 機械アンラーニングを,反事実的な状態整合問題として定式化し,状態を評価する指標を導入した。
- オンラインL-BFGSにおいて,アンラーニングはパラメータ修正だけでなく,最適化状態の整合が重要であることを示した。
- 凸性仮定の下で,反事実的な状態偏差に関する再帰的な上限を導出した。
NeuSymMS:永続的で自己キュレーションを行うLLMエージェントのためのハイブリッドニューロシンボリックメモリシステム [cs.RO, cs.AI]目的:大規模言語モデルエージェントにおけるユーザーに関する学習,記憶,推論の実現
- LLMエージェントの性能は,長期的な知識の保持と活用に依存する。
- 従来のLLMはコンテキストウィンドウの制限や情報の陳腐化に課題がある。
- ニューロシンボリックアーキテクチャによる信頼性と監査可能性を備えたメモリシステムの構築。
- NeuSymMSは,非構造化対話から事実を抽出し,CLIPSベースのエキスパートシステムで管理する。
- 本システムは,知識を主語-述語-目的語のトリプルとしてデータベースに格納し,スコープ管理とメモリモデルを実現する。
- NeuSymMSは,メモリの連続性を維持しつつ,コンテキストウィンドウの肥大化とエンティティ間の汚染を防ぐ。
AutoRubric-T2I:テキスト画像生成のアライメントのためのロバストなルールベース報酬モデル [eess.SY, cs.SY, cs.CL, cs.RO, cs.AI, cs.CV, cs.LG]目的:テキスト画像生成モデルと人間の嗜好を整合させるための報酬モデルの自動合成と選択
- 画像生成技術は進歩しているが,生成画像の質を人間が判断するには限界があるため,自動評価が重要である。
- 従来の報酬モデルは学習コストが高く,評価基準が不明確であるという課題があった。
- 本研究では,VLM(Vision-Language Model)を活用し,人間の嗜好を反映した評価ルールを自動的に生成・選択する。
- AutoRubric-T2Iは,既存の報酬モデルと比較して,大幅に少ない学習データで高品質な報酬信号を生成できる。
- MMRB2などの画像報酬ベンチマークにおいて,既存の強固な報酬モデルを上回る性能を示した。
- TIIFやUniGenBench++といった下流タスクにおいても,拡散モデルの生成品質が向上した。
Venom:PyTorchによる生成モデリングツールキット [cs.LG]目的:生成モデリング手法の実装と学習・サンプリングAPIの統一
- 生成モデリングは急速に進展しており,様々な応用が期待されているため。
- 多様な手法が別個に実装されており,比較や学習が困難な状況にある。
- 統一的なインターフェースを通じて,生成モデリング手法の理解と実験を容易にする。
- V ENOMは,拡散モデル,スコアベースモデル,フローマッチングなど,代表的な生成モデルを統一的に実装。
- MNISTデータセットを用いたシンプルなインターフェースを提供することで,学習とサンプリングを容易にし,教育目的にも適している。
- 分類器ガイダンスや二言語のチュートリアルなど,様々な学習・試作・ベンチマークのための機能が提供されている。
分類のためのニューラルタンジェントカーネル [cs.LG]目的:ニューラルネットワークの訓練における理論的考察
- 深層学習の理論的基盤を確立し,汎化性能を理解する上で重要である。
- 分類問題におけるニューラルタンジェントカーネルの適用は未解決であった。
- 分類損失関数下でのニューラルタンジェントカーネルの安定性を明らかにする。
- 広範なニューラルネットワークにおいて,パラメータ空間正則化が訓練中のニューラルタンジェントカーネルの安定性を保証することを示した。
- 正則化がない場合,ターゲットが非退化であるときには,lazy training regimeが回復される。
- 訓練過程は線形化モデルで近似でき,ニューラルタンジェントカーネルを用いて解を明示的に特徴づけることができる。
建設デジタルツインのためのベイズ・モンテカルロスケジュール更新:動的なプロジェクト予測のための確率的フレームワーク [cs.CE, cs.AI]目的:建設デジタルツイン環境における確率的なスケジュール更新手法
- 建設プロジェクトは,労働生産性や天候等の変動により,スケジュール遅延や予測の不確実性に直面しやすい。
- 従来のCPM等の決定論的スケジュール手法は,活動期間を固定とし,動的な不確実性を適切に表現できない。
- プロジェクトの進捗に伴う観測データを用いて,スケジュール予測の精度向上と不確実性の定量化を目指す。
- 提案手法は,活動期間の確率分布をベイズ推論によって継続的に更新し,モンテカルロシミュレーションによって不確実性を伝播させる。
- シミュレーション実験の結果,提案手法は決定論的CPMや静的な確率的スケジュール手法と比較して,予測精度と不確実性表現の点で優れていることが示された。
- BIMレポートやドローン観察等のデータ統合により,適応的なプロジェクト予測が可能となる。
適応的な生成・ランク付け・検証:高コスト検証による推論時の探索 [cs.LG]目的:推論時におけるコストを考慮した探索戦略
- 言語モデルの推論パイプラインにおいて,安価な報酬と高コストな検証を組み合わせる手法が重要である。
- 報酬と検証のバランスが難しく,効率的な探索が課題となっている。
- 未知の分布からの候補を効率的に探索し,コストを最小化することを目指す。
- 提案手法ADAPは,サンプル数とランク付け検証数を徐々に増加させることで,期待コストを最適解の一定倍以内に抑えることを理論的に保証する。
- 数学的推論と競技プログラミングの実験により,ADAPが固定ポリシーや難易度適応型ベースラインよりも優れていることが確認された。
- 報酬スコアと検証合格の単調性(報酬スコアが高いほど検証に合格しやすい)という仮定が,効率的な探索を可能にする上で重要であることが示された。
ソフトウェア障害予測のための特徴駆動型フレームワーク [cs.SE, cs.LG]目的:ソフトウェア障害予測における特徴選択とパラメータ調整の組み合わせの効果
- ソフトウェア品質向上と保守コスト削減のため,早期の障害特定が重要である。
- 機械学習モデルの性能は,特徴選択やパラメータ調整に大きく依存する。
- 最適な特徴選択とパラメータ調整の組み合わせを特定し,障害予測精度を向上させる。
- CFSとGAの組み合わせが最も高い精度(88.40%)を達成し,ベースラインモデルより18%向上した。
- 特徴選択により次元削減と重要な属性(WMC,CBO)の特定が実現した。
- パラメータ調整により,特徴セットへのモデルの適合性が最適化され,汎化性能が向上した。
VeriCache:損失のあるKVキャッシュを損失のないLLM推論へ [cs.AR, cs.LG]目的:大規模言語モデルの推論におけるKVキャッシュの効率化
- 文脈長が伸びるにつれKVキャッシュサイズがボトルネックとなり,高速な推論が困難になっている。
- 既存のKVキャッシュ圧縮手法は損失があるため,長い文章生成時に出力の乖離が大きくなる問題がある。
- 損失のある圧縮KVキャッシュを用いながら,完全なKVキャッシュと同等の出力を保証する推論フレームワークを開発する。
- VeriCacheは,圧縮KVキャッシュでトークン生成案を作成し,完全KVキャッシュで検証することで,完全KVキャッシュと同等の出力を実現する。
- 圧縮KVキャッシュのデコードと完全KVキャッシュのスワップを並列化することで,GPUメモリの制約を回避し,高速な推論を可能にする。
- 実験結果から,VeriCacheは完全KV推論と比較して最大4倍の高速化を達成し,かつ同一の出力を生成することが示された。
GraphMind:オペレーション追跡データからの自己進化型ワークフロー自動化 [cs.AI]目的:オペレーション追跡データからワークフローグラフを構築・実行・進化させるシステム
- 企業のオペレーションにおいて,人的・ツール・情報間の連携が重要であり,効率化が求められている。
- 従来の自動化は,人的入力の多さや経時的な適応能力の欠如により,完全な自動化が困難であった。
- 本研究は,人的介入なしにワークフローを自動化し,変化する状況に適応する能力を向上させることを目指す。
- GraphMindは,インシデント調査における4つのクラウドデータベースサービスで実運用されており,その有効性が確認された。
- 評価の結果,GraphMindは,Trace-RAGベースラインと比較して,対応範囲,根拠,診断処理能力で大幅な性能向上を示した。
- 適応的トラバーサル強化学習(ATR)層は,実行結果からのフィードバックに基づいてワークフローグラフを学習・改善することを示した。
重度の自閉症における教室環境での問題行動予測:ウェアラブルセンサーの利用 [cs.AI]目的:重度自閉症児の教室環境における問題行動の予測
- 自閉スペクトラム症(ASD)の理解と支援は,教育現場において重要な課題である。
- 重度自閉症児は,安全上のリスクや学習の妨げとなる問題行動を示しやすく,その予測が困難である。
- 本研究は,教室という現実的な環境で,問題行動を事前に予測することを目指している。
- ウェアラブルセンサーと機械学習を用いて,実際の特別支援学級で問題行動を予測できることが示された。
- 加速度,皮膚電気活動,皮膚温度のマルチモーダルデータを活用し,最先端の基盤モデルをファインチューニングした。
- 問題行動エピソードを最長10分前に,AUC-ROC値0.78で予測することが可能となった。
SynVA:血管生成および脳動脈瘤編集のためのモジュール型ツールキット [cs.CV, cs.AI, cs.LG]目的:血管メッシュ生成と解剖学的に整合性のある脳動脈瘤合成
- 高齢化社会の進展に伴い,脳血管疾患の罹患率と負担が増加しており,対策が急務である。
- 大規模で高品質な医療データと対応するラベルが不足しており,診断・予後予測・治療の改善が困難である。
- 脳動脈瘤に関する大規模データセット生成を可能にし,深層学習モデルの訓練を支援することを目的とする。
- SynVAは,生理学的原理と統計的事前情報に基づいて,血管と脳動脈瘤の合成を可能にするプロシージャモデルを提供する。
- 生成された血管形状と脳動脈瘤は,現実的かつ解剖学的に妥当であることが定量評価および定性評価により示された。
- 一部手法は専門家の知覚と一致する形状を生成し,他は実際の脳動脈瘤再構築との定量的な類似性で優れている。
部分的にラベル付けされたデータセットにおける不変/同変半教師あり学習によるマルチタスク学習 [cs.CV, cs.AI, cs.LG]目的:部分的にラベル付けされたデータセットにおけるマルチタスクモデルの学習
- マルチタスク学習は,複数のタスクを同時に学習することで効率化を図る重要な手法である。
- ラベル付きデータの不足は,マルチタスク学習における大きな課題となっている。
- ラベル付きデータが少ない状況下でのマルチタスク学習の性能向上を目指す。
- 不変および同変半教師あり学習は,ほとんどの状況で教師あり学習のベースラインを上回る性能を示した。
- 特に,タスクのラベル付きサンプルが少ない場合に,大きな改善が見られた。
- 同変学習アプローチは,一般的により良い結果を示唆している。
長期的科学エージェントのためのエピソード的・意味的記憶アーキテクチャ [cs.AI]目的:長期的科学エージェントにおける記憶アーキテクチャの設計
- 大規模言語モデルの科学研究への応用が期待される中で,長期的なコンテキスト管理が重要課題となっている。
- コンテキストウィンドウの制限により,反復的なデータ分析や仮説検証が困難になっている。
- 本研究では,エピソード記憶と意味的記憶を分離することで,大規模なコンテキストを効率的に管理することを目指す。
- 提案アーキテクチャは,コンテキストウィンドウの飽和問題に対処し,1万件のメッセージにおいても70~85%の精度を維持した。
- 異なるLLM間での検証により,Dual Processアーキテクチャは数値・時間的クエリに優れる一方,RAGは過去の情報の検索に強みがあることが示された。
- シミュレーション環境と現実的なワークフローの間には記憶の増加率に差があり,ドメイン固有の記憶の統合がスケーラビリティのボトルネックとなることが明らかになった。
検証器誘導によるコード変換:メタステップデコーディング [cs.LG, cs.SE]目的:コード変換における検証器誘導デコーディングの枠組み
- 大規模言語モデルの性能向上は重要であり,特に決定論的な検証器を持つタスクでその効果が期待される。
- 従来の検証器の適用は生成後に限定され,初期段階での誤りが文脈を損ない修正が困難となるという課題があった。
- 構造境界をメタステップとして扱うことで,検証器誘導デコーディングを効率化し,誤り伝播を防ぐことを目指す。
- DTVはC-to-Rust変換において,合格率を72.3%から82.0%に向上させた。
- JavaScript-to-TypeScript変換においても,合格率を33.3%から46.0%に向上させる効果が確認された。
- 検証器誘導デコーディングは,コード変換における推論時計算資源の有効活用に貢献する。
SparseSAM:セグメンテーション全能モデルにおける活性化の構造化疎性化 [cs.CV, cs.AI]目的:セグメンテーション全能モデルにおける推論遅延とメモリ消費の削減
- 画像認識技術は,自動運転や医療診断など,幅広い分野で不可欠な役割を果たしている。
- セグメンテーション全能モデルは高性能だが,ViTベースの画像エンコーダが計算コストのボトルネックとなっている。
- 推論速度とメモリ効率を損なわずに,モデルの計算負荷を軽減することを目的とする。
- SparseSAMは,ストライプソートアテンションと残差整合性MLPを導入し,アテンション層とMLP層を同時に高速化する。
- 0.4の密度でmIoUの低下は0.004にとどまり,既存のトークンマージ法と比較して精度損失を2.10倍削減した。
- 推論速度は2倍,メモリ消費量は2.8倍削減され,効率的なセグメンテーションを実現した。
WebGameBench:ブラウザネイティブゲームを通じたコーディングエージェントの要件対アプリケーション評価 [cs.AI]目的:コーディングエージェントによるアプリケーション構築能力の評価
- 近年のAI技術発展により,コーディングエージェントがソフトウェア開発において重要な役割を担うようになった。
- 既存の評価方法はソースコードやテストに偏っており,実際に動作するアプリケーションとしての品質評価が不十分である。
- ブラウザネイティブゲームを用いた要件対アプリケーション評価ベンチマークを構築し,アプリケーション品質の評価を可能にする。
- WebGameBenchは,構造化されたWebゲーム仕様をブラウザで実行可能なゲームに変換する能力を評価する。
- 111のタスク,12のエージェント,14の設定で評価した結果,最高の構成でもusable rateは76.9%,excellent rateは20.2%にとどまった。
- この結果は,最低限のプレイ可能なレベルに達したとしても,完全な要件を満たしているとは限らないことを示している。
因果的介入に基づく記憶選択:長期的LLMエージェントのための [cs.AI, cs.CL]目的:長期的なLLMエージェントにおける記憶選択のメカニズム
- LLMエージェントの長期的な対話能力向上には,セッションを跨ぐ記憶の活用が不可欠である。
- 既存の記憶システムは意味的類似性や履歴全体に依存し,記憶の有用性を均一に扱うため,誤った情報を招く場合がある。
- 因果的介入による記憶選択を通じて,関連性の低い,古い,または有害な記憶を抑制し,タスクのパフォーマンスを向上させる。
- 提案手法CMIは,候補となる記憶がモデルの回答に与える影響を因果的に評価することで,有用な記憶を選択する。
- Causal-LoCoMoという因果的注釈が付与されたベンチマークを用いて評価した結果,CMIは他の手法と比較して,回答の質と誤解を招く記憶への堅牢性のバランスに優れていた。
- 信頼性の高い長期記憶には,関連性だけでなく,因果的な有用性に基づいてコンテキストを選択することが重要であることが示唆された。
カーネル密度推定を用いた単純かつスケーラブルな表形式データ生成:TabKDE [cs.LG]目的:表形式データの分布を再現する新たな行の生成
- 表形式データは広く利用され,プライバシー保護やデータ拡張の需要が高い。
- 既存手法は計算コストが高く,大規模データセットへの適用が困難である。
- 計算効率が高く,大規模データにも対応可能なデータ生成手法を開発する。
- 本研究では,コプラ変換とカーネル密度推定を用いることで,既存手法と同等の精度を達成した。
- モデルの学習時間が極めて短く,シンプルなラップトップでも大規模データセットに対応可能である。
- モデルを元のデータのコアセットとして保存できるため,必要な保存容量を大幅に削減できる。
推論に基づく生成型推薦のためのステップ整合型方策最適化 (SAPO) [cs.AI]目的:推論に基づく生成型推薦における方策最適化
- 推薦システムは,ユーザーの嗜好に合ったアイテムを提示する上で重要な役割を担う。
- 生成型推薦では,報酬信号が最終的なアイテムの正誤に依存するため,推論過程のどこに誤りがあったか特定しにくい。
- ステップ単位での報酬割り当てにより,推論過程における誤りの特定と修正を可能にし,推薦精度向上を目指す。
- SAPOは,各推論ステップごとに独立した利得を計算し,対応する思考ブロックとSIDトークンにのみ適用することで,強化学習の訓練を安定化させる。
- 3つの実データセットにおいて,SAPOは既存の生成型推薦ベースラインに対して一貫して性能を向上させ,特に疎な正確一致フィードバック環境下で大きな効果を示す。
- 本研究の結果は,構造化生成に対する強化学習の目的関数が,デコーダ自身の出力分解を反映すべきであることを示唆している。
概念ドリフト下における反実仮想説明 [cs.MA, cs.LG]目的:概念ドリフト環境下における反実仮想説明の維持
- 機械学習モデルの解釈性は,信頼性と公平性の確保に不可欠である。
- データストリームのように概念が変化する環境では,既存の説明が陳腐化する。
- モデルの更新に合わせて反実仮想説明を効率的に修正し,有効性を維持すること。
- 既存の反実仮想説明は,概念ドリフトにより迅速に有効性を失うことが示された。
- 提案手法は,反実仮想説明を再生成するよりも低いコストで,有効性と局所的な妥当性を維持する。
- 局所サンプリングによる軽量な更新スキームが,反実仮想説明の修正に有効であることが確認された。
