arXiv雑要約

AI - 2026/03/27 公開

  • MedShift:X線画像ドメイン適応のための暗黙的条件付き輸送 [cs.CV, cs.AI]目的:合成X線画像と実X線画像間のドメイン変換
    • 医療画像診断の精度向上には,大量の学習データが不可欠である。合成データはその供給を可能にする。
    • 合成データと実データ間にはドメインギャップが存在し,汎化性能を低下させる問題がある。
    • この研究は,ドメインギャップを埋め,実環境での適用性を高めることを目指す。
    • MedShiftは,Flow MatchingとSchrodinger Bridgesに基づく生成モデルであり,高精度な画像変換を可能にする。
    • 既存手法と異なり,ドメイン固有の学習やペアデータに依存せず,ドメイン非依存な潜在空間を学習する。
    • X-DigiSkullデータセットを用いた実験により,MedShiftは優れた性能を示し,実用性と汎用性を両立している。

    Link: https://arxiv.org/abs/2508.21435

  • 6次元磁気浮上システムの端点間ニューラル制御 [eess.SY, cs.SY, math.OC, eess.SY, cs.AI, cs.RO, cs.SY]目的:産業用6次元磁気浮上システムの制御
    • 産業自動化において,柔軟な製品搬送とシームレスな操作が求められており,磁気浮上がその鍵となる。
    • 磁気浮上システムの複雑かつ不安定なダイナミクスにより,従来の手法では性能向上の限界がある。
    • ニューラル制御により,熟練したエンジニアの知識に依存せず,より高性能な制御を目指す。
    • 本研究では,6次元磁気浮上システムに対する初のニューラルコントローラを提案した。
    • 提案手法は,センサーデータと目標姿勢を直接コイル電流指令に変換し,高い汎化性能と制御精度を達成した。
    • これらの結果は,複雑な物理システムにおけるニューラル制御の実用性と,従来の制御手法に対する代替可能性を示唆する。

    Link: https://arxiv.org/abs/2509.01388

  • 言語モデルはオッカムの剃刀に従うか?帰納的およびアブダクティブ推論における倹約性の評価 [cs.AI, cs.CL]目的:帰納的・アブダクティブ推論における言語モデルの倹約性
    • 現実世界の複雑な問題解決には不可欠であり,AIの推論能力向上に繋がる。
    • 大規模言語モデルの評価では,オッカムの剃刀という重要な要素が考慮されてこなかった。
    • 言語モデルがオッカムの剃刀に従って推論できるかを検証し,その正確性を評価する。
    • 言語モデルは単純な状況下では帰納的・アブダクティブ推論を実行できることが示された。
    • 複雑な世界モデルや高質な仮説生成において,言語モデルは苦戦することが明らかになった。
    • インコンテキスト学習やRLVRといった手法を用いても,課題は解決されない。

    Link: https://arxiv.org/abs/2509.03345

  • 表形式データのための解釈可能な深層ニューラルネットワーク [cs.NI, cs.RO, cs.RO, cs.LG]目的:表形式データにおける解釈可能性の向上
    • 金融や医療など多くの応用分野で表形式データは不可欠である。
    • 深層ニューラルネットワークは予測性能が高いが,解釈が困難である。
    • 予測の根拠を説明可能なモデルの開発を目指す。
    • XNNTabは,スパースオートエンコーダを用いて意味のある特徴量を学習する。
    • 学習された特徴量には人間が理解できる意味が付与される。
    • XNNTabは,既存のモデルと同等以上の性能を持ち,完全に解釈可能である。

    Link: https://arxiv.org/abs/2509.08617

  • 因果的公平性を実現するためのスケーラブルで効果的なデータ前処理 [cs.CL, cs.LG, cs.DB]目的:因果的公平性を保証するデータ前処理フレームワーク
    • データベースにおける因果的公平性は,偏った不正確な結果を防ぐ上で不可欠である。
    • 従来の因果的公平性手法は,広範な属性関係を捉えきれず,有用性を損なう場合がある。
    • CausalPreは,基盤となる因果モデルについての強い仮定に頼らずに,効率的かつ効果的な公平性ソリューションを目指す。
    • CausalPreは,複雑な因果関係抽出タスクを分布推定問題に変換することで,公平な関係性を抽出する。
    • 低次元周辺因子分解とヒューリスティックアルゴリズムを組み合わせることで,スケーラビリティを確保している。
    • ベンチマークデータセットでの実験により,CausalPreの有効性とスケーラビリティが実証された。

    Link: https://arxiv.org/abs/2509.15199

  • GeoResponder:タイムクリティカルな災害対応のための地理空間LLM構築に向けて [cs.RO, cs.SY, eess.SY, math.OC, cs.CL, cs.HC, cs.CE, cs.CL, cs.AI]目的:タイムクリティカルな災害対応を支援する地理空間LLMの構築
    • 災害対応は人命と財産を守る上で不可欠であり,迅速かつ正確な情報が求められる。
    • 既存のLLMは地理空間情報を扱う能力に乏しく,災害現場での状況把握や意思決定を支援するには不十分である。
    • 災害対応に必要な地理空間情報の理解と推論能力をLLMに付与し,実用的な支援システムを開発すること。
    • GeoResponderは,段階的な指示チューニングにより,LLMに堅牢な空間推論能力を習得させるフレームワークである。
    • 4つの都市と多様なタスクでの評価において,GeoResponderは最先端の基盤モデルやドメイン固有のベースラインを大幅に上回る性能を示した。
    • LLMが地理空間構造を内部化し,一般化できる可能性を示唆しており,災害対応への応用が期待される。

    Link: https://arxiv.org/abs/2509.19354

  • コンセプトボトルネックモデルの除去と再学習によるデバッグ [cs.CV, cs.LG]目的:コンセプトボトルネックモデルにおける問題点の特定と改善
    • 人間が理解しやすい概念を用いることで,モデルの予測根拠を検証し,専門家が介入可能になる。
    • モデルが偏ったデータから近道学習し,専門家の思考とモデルの認識にずれが生じることがある。
    • 専門家による概念の除去と,そのフィードバックに基づいた再学習によってモデルを改善する。
    • 提案手法CBDebugは,コンセプトレベルのフィードバックをサンプルレベルの補助ラベルに変換し,バイアス軽減とターゲットを絞ったデータ拡張を行う。
    • 実際の専門家からのフィードバックと自動生成されたフィードバックを用いた評価で,既存の再学習手法よりも大幅に性能が向上した。
    • 様々なCBMアーキテクチャ(PIP-Net, Post-hoc CBM)および既知の虚偽相関を持つベンチマークで有効性が確認された。

    Link: https://arxiv.org/abs/2509.21385

  • 何からなぜへ:証拠に基づく化学反応条件推論のためのマルチエージェントシステム [cs.AI, cs.CL]目的:化学反応条件の推論
    • 化学科学の発展には,適切な反応条件の選択が不可欠である。
    • 既存手法では,推奨された反応条件の根拠が説明されず,科学的根拠が求められる場面で課題がある。
    • 化学的知識と過去の事例に基づいた,解釈可能な根拠とともに反応条件を推論すること。
    • 提案手法ChemMASは,既存の専門分野のベースラインを20-35%上回り,汎用LLMを10-15%上回るTop-1精度を達成した。
    • ChemMASは,化学的知識と過去の事例に基づいた,検証可能な人間が信頼できる根拠を提示する。
    • これにより,科学的発見における説明可能なAIの新たなパラダイムを確立する。

    Link: https://arxiv.org/abs/2509.23768

  • 拡散モデルにおける安全性:脆弱性と DiffuGuard [cs.CL, cs.AI]目的:拡散大規模言語モデルの脱獄攻撃に対する脆弱性の分析と,その防御手法の提案
    • 拡散モデルは急速に発展しており,その安全性確保は重要である。従来の言語モデルとは異なる脆弱性が存在し得る。
    • 拡散モデル特有の生成メカニズムにより,従来の言語モデルとは異なる脱獄攻撃の脆弱性が存在する。
    • 拡散モデルに内在する安全性ポテンシャルを引き出し,脱獄攻撃に対する耐性を高めることを目指す。
    • 標準的な貪欲リマスキング戦略に有害な偏りがあること,および「ノイズ除去パス依存性」という重要な現象が明らかになった。
    • DiffuGuardは,確率的アニーリングリマスキングとブロックレベルの監査・修復という二段階アプローチによって脆弱性に対処する。
    • DiffuGuardは,6種類の脱獄攻撃手法に対する攻撃成功率を47.9%から14.7%に大幅に削減し,モデルの有用性と効率性を維持する。

    Link: https://arxiv.org/abs/2509.24296

  • 多変量長時系列予測モデルのベンチマーク:周波数とノイズに基づく評価 [cs.CL, cs.LG, cs.SY, eess.SY]目的:多変量長時系列予測モデルのロバスト性の評価
    • 時系列予測は,需要予測や異常検知など,幅広い分野で不可欠な技術である。
    • 実世界のデータセットはノイズ特性が不明確であり,モデルの信頼性を評価しにくい。
    • ノイズや周波数特性を制御可能な合成データを用いて,モデルの性能を詳細に評価する。
    • S-MambaとAutoformerは,のこぎり波パターンにおいて優れた性能を発揮する。
    • R-LinearとiTransformerは,正弦波信号を好む傾向がある。
    • S-MambaとiTransformerは,それぞれ特定の傾向ノイズと季節性ノイズに脆弱性を示す。

    Link: https://arxiv.org/abs/2510.04900

  • RICHを得るか,スケールで死ぬか:堅牢性のために推論計算を収益的に取引する [cs.LG]目的:推論計算と堅牢性の関係性に関する研究
    • 大規模言語モデルの堅牢性は,実用上の重要な課題であり,攻撃への耐性を高める必要性が高まっている。
    • 従来のテスト時推論では,より強力な攻撃に対して堅牢性が低下することが課題であった。
    • 本研究は,初期堅牢性を向上させることで,テスト時推論による堅牢性向上の効果を最大化することを目指す。
    • 推論計算の防御は,モデルの初期堅牢性が十分であれば,ホワイトボックスマルチモーダル攻撃に対しても堅牢性を向上させることが示された。
    • vision encoderを堅牢化することで,テスト時計算のスケールアップの効果が著しく向上し,攻撃に強い推論VLMを初めて実現した。
    • モデルの堅牢化は,攻撃対象データの分布内性を高め,構成的汎化を促進し,敵対的データに対する仕様指示の実行を可能にする。

    Link: https://arxiv.org/abs/2510.06790

  • CQA-Eval:リソース制約下における多段落臨床QAの信頼性評価の設計 [eess.SY, cs.SY, cs.CL, cs.AI]目的:多段落臨床QAシステムの信頼性評価手法
    • 医療分野における正確な情報伝達が不可欠であり,QAシステムの信頼性評価が重要である。
    • 多段落テキストの評価には専門知識が必要であり,アノテーター間の意見の一致が難しい。
    • リソース制約下で,信頼性の高い評価を効率的に行う方法を確立すること。
    • 回答全体の正誤評価と文単位の評価を比較した結果,正誤評価では文単位評価の方がアノテーター間の合意率が高かった。
    • 関連性評価では,回答全体の評価の方が合意率が高く,リスク開示の評価は一貫性が低いことがわかった。
    • 一部の文のみを評価することで,回答全体の評価と同等の信頼性を確保でき,コストと労力を削減できる可能性が示された。

    Link: https://arxiv.org/abs/2510.10415

  • ロッケット:言語モデルのための堅牢な特徴ロック技術 [cs.CL, cs.CL, cs.CR, cs.LG]目的:言語モデルにおける,有料機能のアンロックスキームを可能にする堅牢かつスケーラブルな特徴ロック技術
    • 大規模言語モデルの利用拡大に伴い,サービス提供の収益化が重要課題となっている。
    • 従来のサブスクリプションモデルでは,柔軟性に欠け,ユーザーにとって必ずしも最適とは言えない。
    • 特定の機能に対してのみ課金する仕組みを確立し,より持続可能な収益モデルを提供すること。
    • ロッケットは,ロックされた機能に対して100%の拒否率を示し,高い効果を実証した。
    • アンロックされた機能の有効性は最大7%の低下に抑えられ,有用性を維持している。
    • ロッケットは,不正アクセスに対する堅牢性を持ち,スケーラビリティも確認された。

    Link: https://arxiv.org/abs/2510.12117

  • 時間相関のあるビデオブリッジマッチング [cs.LG]目的:時間相関データ列間の変換モデリング
    • ビデオ生成や操作において,時間的な一貫性の維持は重要課題である。
    • 拡散モデルは複雑なデータ間変換が苦手であり,時間相関データへの応用が遅れていた。
    • 時間相関ビデオデータにおけるブリッジマッチングの有効性を検証し,高品質な生成を目指す。
    • TCVBMは,フレーム補間,画像からビデオ生成,ビデオ超解像といったタスクで,既存手法を上回る性能を示した。
    • 拡散ブリッジ内で系列間の依存関係を明示的にモデル化することで,時間相関を効果的に組み込んでいる。
    • 定量評価において,生成品質と再構成の忠実度が向上していることが確認された。

    Link: https://arxiv.org/abs/2510.12453

  • テンソルガウス過程:非線形偏微分方程式の効率的なソルバー [cs.LG]目的:非線形偏微分方程式に対する効率的な数値解法
    • 偏微分方程式は自然科学,工学における基礎方程式であり,その数値解法は重要である。
    • 機械学習を用いた解法は計算コストが高く,ガウス過程は計算量の問題がある。
    • テンソル分解を用いることで,計算効率を改善し,大規模な問題に対応する。
    • 提案手法TGPSは,従来の機械学習ソルバーと比較して,より高い精度と効率を達成した。
    • テンソルガウス過程は,1次元ガウス過程の学習に問題を帰着させることで,計算量を大幅に削減する。
    • 偏微分方程式の非線形項に対して,部分固定化戦略とニュートン法を用いることで,効率的な求解を実現した。

    Link: https://arxiv.org/abs/2510.13772

  • 計画的拡散 [cs.AI]目的:並列生成における効率と品質のトレードオフ改善
    • 大規模言語モデルは自然言語処理の基盤であり,その性能向上は重要である。
    • 拡散言語モデルのサンプリングにはノイズ除去順序が必要だが,決定が困難である。
    • モデル自身がノイズ除去順序を決定することで,効率と品質を両立させる。
    • 計画的拡散は,自己回帰的生成と比較して1.27倍から1.81倍の高速化を達成した。
    • 勝率の低下は0.87%から5.4%に抑えられ,並列生成の新たなパレート最適解を確立した。
    • ファインチューニングの計算量を増やすほど,指示応答の品質が向上する。

    Link: https://arxiv.org/abs/2510.18087

  • シーケンシャル変換器生成レコメンダーのための数兆パラメータ大規模記憶 [cs.IR, cs.LG]目的:大規模なパラメータを持つレコメンダーモデルにおける記憶メカニズム
    • ユーザーの行動履歴は,レコメンダーの性能向上に不可欠であり,その重要性は増している。
    • 既存モデルは,超長期間のユーザー履歴に対応する際の遅延,QPS,GPUコストといったスケーラビリティの問題を抱えている。
    • 本研究は,大規模なユーザー履歴を効率的に処理し,産業規模での実用性を高めることを目指す。
    • 提案手法VISTAは,ユーザー履歴を要約することで,ダウンストリームの学習・推論コストを固定化し,スケーラビリティを向上させる。
    • VISTAは,オフラインおよびオンラインの評価指標において有意な改善を示し,数十億人のユーザーにサービスを提供するレコメンダープラットフォームに展開された。
    • VISTAにより,最長100万アイテムに及ぶ生涯にわたるユーザー履歴に対応することが可能となった。

    Link: https://arxiv.org/abs/2510.22049

  • ミングフラッシュオムニ:マルチモーダル知覚と生成のための疎な統一アーキテクチャ [cs.CV, cs.AI]目的:マルチモーダル知覚と生成のための疎な統一アーキテクチャ
    • 近年のAI研究では,視覚,言語,音声など複数のモダリティを統合的に処理する能力が重要視されている。
    • 既存のモデルは計算コストが高く,大規模なデータが必要であり,汎用的なマルチモーダルAIの実現を妨げている。
    • 計算効率を大幅に向上させつつ,モデルの能力を拡張し,汎用的なマルチモーダル知能の基盤を構築すること。
    • 本研究で開発されたミングフラッシュオムニは,1000億パラメータを持ちながら,1トークンあたり61億パラメータのみがアクティブであるため,高い計算効率を実現している。
    • 視覚-言語理解ベンチマークにおいて,Gemini 2.5 Proと同等の高い性能を示し,マルチターンインタラクションにおけるマルチモーダルタスクのシームレスな切り替えを可能にしている。
    • さらに,文脈と方言を考慮した音声認識,音声・音響・音楽の同時生成,セマンティックセグメンテーションの生成など,様々なタスクで優れた性能を発揮している。

    Link: https://arxiv.org/abs/2510.24821

  • 超音波における基礎的なビデオ変換のための生成深層学習 [cs.CV, cs.AI]目的:超音波におけるカラーフロー Doppler とグレースケールビデオ間の変換手法の開発
    • 医療画像診断において深層学習の活用が期待されるが,データ不均衡や欠損への対応が課題である。
    • 超音波画像は,複数のサブモダリティを含み,臨床研究ではデータバランスが崩れやすい。
    • 超音波サブモダリティのデータバランスを改善し,深層学習の性能向上に貢献することを目指す。
    • 生成モデルは,実際の超音波動画と合成動画のSSIM平均値を0.91±0.04と高い値を示した。
    • 合成動画は,深層学習による分類・セグメンテーションタスクにおいて,実際の動画と遜色ない性能を発揮した。
    • 臨床専門家による評価においても,合成動画と実際の動画を識別する精度は54±6%であり,現実的な画像生成が可能であることが示された。

    Link: https://arxiv.org/abs/2511.03255

  • バンディット環境下における行動データへの強化学習モデルの適合 [cs.CL, cs.CE, cs.LG, math.OC, q-bio.NC]目的:バンディット環境下における行動データへの強化学習モデルの適合問題
    • 人間の意思決定や動物の行動特性を解明する上で,強化学習モデルの重要性が高まっている。
    • 既存手法では,計算時間が課題であり,効率的なモデル適合が困難な場合がある。
    • 計算効率を向上させつつ,既存手法と同等以上の性能を発揮するモデル適合手法を開発する。
    • 提案手法は,凸緩和と最適化に基づき,幅広い強化学習モデルの適合問題を解決する。
    • シミュレーションおよび実世界のバンディット環境における評価により,提案手法の有効性が確認された。
    • 提案手法は,最先端手法と同等の性能を達成しつつ,計算時間を大幅に削減する。

    Link: https://arxiv.org/abs/2511.04454

  • FusionLog:汎用知識と固有知識の融合によるクロスシステムログベース異常検知 [cs.LG, cs.SE]目的:クロスシステムログベース異常検知における汎用知識と固有知識の融合
    • ウェブシステムの安定性と信頼性確保は重要であり,ログベース異常検知はその鍵となる。
    • 新規システムへの迅速な導入を阻害する,十分なラベル付きログの不足が課題である。
    • ラベル付きターゲットログなしで,汎用知識と固有知識を融合し,クロスシステム汎化を実現する。
    • FusionLogは,ラベルなしターゲットログを「汎用ログ」と「固有ログ」に動的に分割する学習不要なルーターを設計した。
    • 汎用ログには,システムに依存しない表現メタ学習に基づく小規模モデルを適用し,異常パターンを直接学習した。
    • 固有ログには,LLMと小規模モデルに基づく共同知識蒸留と融合により疑似ラベルを反復生成し,モデルをファインチューニングした。

    Link: https://arxiv.org/abs/2511.05878

  • AIによるX線診断における環境効率の分析 [eess.SY, cs.SY, cs.AI]目的:AIを用いたX線診断の環境効率に関する比較分析
    • 医療現場でのAI活用は,診断効率向上に不可欠であり,その重要性は増している。
    • 大規模言語モデルの利用拡大に伴い,その環境負荷が懸念されている。
    • 診断精度と環境負荷の両立を目指し,最適なAIモデルの選択を試みる。
    • 小規模モデルはカーボンフットプリントを削減するも,陽性診断への偏りや確信度の低さが課題となった。
    • 大規模言語モデルを確率的出力に限定すると,診断精度と環境負荷の両面で性能が低下した。
    • Covid-Netモデルが最も環境効率に優れ,95.5%の診断精度を達成した。

    Link: https://arxiv.org/abs/2511.07436

  • 二次制約付き変サイズビンパッキング問題に対するランダムキー最適化と線形化 [eess.SY, cs.SY, cs.RO, cs.NE]目的:二次制約付き変サイズビンパッキング問題の最適解探索
    • ビンパッキング問題は,資源配分やスケジューリングなど幅広い分野で現れる重要な組合せ最適化問題である。
    • 既存手法では,制約の複雑さから大規模インスタンスの最適解を見つけることが困難である。
    • 本研究では,線形化と新しい最適化アルゴリズムにより,より大規模な問題への適用と高精度な解の獲得を目指す。
    • 提案する線形化モデルは,元の二次モデルよりも大幅にタイトな下界を与えることが示された。
    • RKO-ACOアルゴリズムは,既存の最高解を一致または改善し,大規模インスタンスに対する新たな上限を確立した。
    • 本研究の結果は,今後の研究における新たな基準値となり,進化計算やランダムキーアプローチの有効性を示す。

    Link: https://arxiv.org/abs/2511.12367

  • 接触豊富なロボット強化学習のための自己教師ありマルチセンサ事前学習 [cs.RO, cs.LG]目的:接触豊かな操作のためのロボットのマルチセンサ表現学習
    • ロボットの高度な操作能力実現には,視覚,力,固有受容覚の統合が不可欠である。
    • 強化学習エージェントは,センサノイズや動的変化があるマルチセンサ環境での学習が困難である。
    • 本研究は,マルチセンサデータから効果的な表現を学習し,ロボットの操作性能向上を目指す。
    • 提案手法MSDPは,マスク化自己符号化を用いて,マルチセンサデータの再構成を通して表現を学習する。
    • MSDPは,シミュレーションおよび実機環境において,多様な摂動に対するロバスト性と高い成功率を示す。
    • わずか6,000回のオンラインインタラクションで,複雑なマルチセンサロボット制御を可能にする。

    Link: https://arxiv.org/abs/2511.14427

  • グラフメモリ:モダリティ非依存埋め込みベース推論のための構造化解釈可能フレームワーク [cs.LG, cs.CV]目的:埋め込み空間のグラフ構造化表現
    • 機械学習モデルの解釈性は重要であり,予測の根拠を理解することが求められる。
    • 従来の非パラメトリック推論手法は,メモリ消費量が大きく,解釈性に乏しい場合がある。
    • 信頼性に基づいた地域構造を明示的にモデル化し,解釈可能な推論を可能にする。
    • グラフメモリ(GM)は,kNNやLabel Spreadingと同等以上の精度を達成する。
    • GMは,より優れたキャリブレーションと滑らかな決定境界を提供する。
    • GMは,メモリ消費量を大幅に削減し,単一およびマルチモーダルデータに対応する。

    Link: https://arxiv.org/abs/2511.14961

  • 大規模言語モデルに対する連合学習を用いたクライアント内正則化多目的アラインメント [cs.RO, cs.FL, math.CO, math.RT, cs.LG]目的:大規模言語モデルのアラインメントにおける多目的最適化手法
    • 近年,大規模言語モデルの性能向上は目覚ましいが,倫理的な問題や安全性への配慮が重要視されている。
    • 連合学習では,通信コストが課題であり,特に大規模モデルではその負担が大きい。
    • クライアント内での正則化により,通信コストを削減し,効率的なアラインメントを実現する。
    • 提案手法FIRMは,クライアント間の意見の相違を軽減し,学習の安定性を向上させる。
    • FIRMは,従来の勾配の多重伝送を不要にし,通信効率を大幅に改善する。
    • 実験結果から,FIRMはより滑らかな学習ダイナミクスと,報酬のトレードオフの改善を示す。

    Link: https://arxiv.org/abs/2511.16992

  • ファウンドリ:エッジ向け3D基礎モデルの蒸留 [cs.CV, cs.AI, cs.LG, cs.NE]目的:大規模な自己教師あり学習済み基礎モデルの圧縮
    • ロボットやAR/VRヘッドセット等のエッジデバイスへのAI活用が期待されており,高性能な特徴抽出器が求められている。
    • 基礎モデルはサイズが巨大で計算コストが高いため,エッジデバイスへの搭載が困難であるという課題がある。
    • 汎用性を損なわずに基礎モデルを効率的に圧縮し,エッジデバイスでの実用化を可能にすることを目指す。
    • 本研究では,教師モデルのトークンレベル表現を再構成する「SuperToken」を学習することで,汎用性を維持したまま基礎モデルを圧縮するFMD(Foundation Model Distillation)を提案した。
    • 提案手法Foundryは,3D点群データに対し,分類,部分セグメンテーション,少量データ学習といった多様なタスクで高い転移学習能力を示し,基礎モデルの性能に匹敵する結果が得られた。
    • Foundryは,トークン数とFLOPsを大幅に削減し,リソース制約のあるハードウェアへの展開を可能にする。

    Link: https://arxiv.org/abs/2511.20721

  • エンドツーエンド音声デコーディングのためのクロス種別ニューラル基盤モデル [cs.CL, cs.AI]目的:麻痺患者のコミュニケーション回復を目的とした,脳活動からテキストへの直接変換
    • 脳とコンピュータを接続し,脳活動を解釈することで,重度の麻痺を持つ人々の意思疎通を支援する試みである。
    • 従来のシステムは段階的な処理を行うため,全体最適化が難しく,性能向上に限界がある。
    • 単一のニューラルネットワークで脳活動から直接テキストを生成することで,最適化を容易にし,精度向上を目指す。
    • クロス種別,クロスタスクで事前学習されたニューラルエンコーダが,脳波データと音声データの両方に有効であることを示した。
    • エンドツーエンドのBITフレームワークは,既存手法と比較して,単語誤り率を大幅に削減することに成功した。
    • 小規模な音声LLMを組み込むことで,エンドツーエンドのデコーディング性能が著しく向上することがわかった。

    Link: https://arxiv.org/abs/2511.21740

  • プールの清掃:深層アクティブラーニングにおける未ラベルプールの漸進的フィルタリング [cs.LG]目的:アクティブラーニング戦略のアンサンブルによる性能向上
    • データ量が膨大化する中で,効率的な学習データ選択が重要視されている。
    • 単一のアクティブラーニング戦略では,データセットやモデルによって性能が変動しやすい。
    • 複数の戦略を組み合わせ,各戦略の利点を活かすことで,安定した性能向上を目指す。
    • REFINEは,複数のアクティブラーニング戦略を組み合わせることで,個々の戦略や既存のアンサンブル手法を上回る性能を示す。
    • 漸進的フィルタリングは,どのような個別の戦略に対しても性能向上に寄与する強力な前処理ステップとして機能する。
    • REFINEのアンサンブルは,最新のアクティブラーニング戦略を容易に追加できる柔軟性を持つ。

    Link: https://arxiv.org/abs/2511.22344

  • 知識的バイアスの注入:選択的な文脈検索によるLLMの誘導 [eess.SY, cs.SY, cs.CR, cs.AI, cs.DB]目的:LLMにおける知識的バイアスの注入とその対策
    • LLMの性能向上には,外部知識源からの情報活用が不可欠である。
    • 外部知識源には悪意のあるデータが含まれる可能性があり,LLMの出力に影響を及ぼす恐れがある。
    • 事実に基づきながらも特定の視点を強調するバイアス注入攻撃に対抗する手法を開発する。
    • 本研究では,文脈検索によってLLMが特定の視点に誘導される新たな攻撃手法「知識的バイアス注入」を明らかにした。
    • 提案する知識的バイアスの幾何学的指標を用いて,攻撃を構築し,軽量な防御策BiasDefを開発した。
    • 実験結果から,攻撃はLLMの視点を大きく変化させ,BiasDefが効果的にバイアスを軽減することが示された。

    Link: https://arxiv.org/abs/2512.00804

  • 定数時間動作計画と操作行動 [cs.RO, cs.AI]目的:操作行動を含むロボットの定数時間動作計画
    • ロボットの応用範囲拡大のため,安全かつ効率的な動作計画アルゴリズムが不可欠である。
    • 従来の動作計画アルゴリズムは,安全性や信頼性の保証が難しく,実用化が遅れている。
    • 複雑な操作行動も保証可能な定数時間動作計画アルゴリズムを開発し,実用性を高める。
    • 本研究で開発したB-CTMPは,衝突回避と操作行動を統合し,ミリ秒単位の高速処理を実現した。
    • シミュレーションと実機実験の結果,半構造化環境下での操作タスクにおいて,B-CTMPは速度と成功率の両面で優れた性能を示した。
    • B-CTMPは,衝突回避と物体操作を単一の定数時間フレームワークに統合することで,操作の安全性と信頼性を高める。

    Link: https://arxiv.org/abs/2512.00939

  • Morphling:大規模における高速,融合型,柔軟なGNN学習 [cs.LG, cs.DC, cs.PL]目的:グラフニューラルネットワークの学習における高性能化
    • グラフ構造データは,様々な分野で活用が広がっており,その重要性は増している。
    • 既存のGNNフレームワークは,不規則なグラフ処理と規則的な行列演算の効率的な実行が課題である。
    • Morphlingは,アーキテクチャに特化したコード合成により,GNN学習の高速化とメモリ効率化を目指す。
    • Morphlingは,CPU,GPU,分散環境において,PyGおよびDGLと比較して,平均20倍の学習スループット向上を達成した。
    • ピーク時には最大66倍の高速化を記録し,メモリ消費量を最大15倍削減することに成功した。
    • これにより,汎用ハードウェア上での大規模GNN学習が可能となる。

    Link: https://arxiv.org/abs/2512.01678

  • スパイクニューラルネットワークにおける遅延:状態空間モデルによるアプローチ [cs.LG]目的:スパイクニューラルネットワークへの遅延導入メカニズム
    • 脳の神経回路を模倣し,省電力なニューロモーフィックコンピューティング実現への応用が期待される分野。
    • 遅延は重要だが,従来のSNNでは遅延の組み込みが複雑で,計算コストが増大しやすいという課題があった。
    • 状態空間モデルを用いて遅延を効率的に組み込み,計算コストを抑えつつ性能を向上させることを目指す。
    • 提案手法は,既存の遅延ベースSNNと同等の性能を維持しつつ,計算効率に優れていることが示された。
    • 特に,小規模なネットワークにおいて,その効果が顕著に現れることが確認された。
    • 遅延時間と学習可能なパラメータがネットワーク性能に与える影響について詳細な分析が行われた。

    Link: https://arxiv.org/abs/2512.01906

  • 熱帯低気圧の検出と追跡のためのマルチステップデータ駆動型アプローチ:ByteStorm [cs.LG, cs.AI]目的:熱帯低気圧の検出と追跡
    • 気候変動の影響を踏まえ,正確な熱帯低気圧の把握は防災・減災において重要である。
    • 従来の追跡手法は主観的な閾値に依存し,地域差や計算コストが高いという課題がある。
    • 深層学習とコンピュータビジョンを統合し,効率的かつ高精度な追跡手法を開発する。
    • ByteStormは,相対渦度と海面更正気圧のみを用いて熱帯低気圧中心を効率的に検出する。
    • BYTEアルゴリズムにより検出された中心をリンクさせ,信頼性の高い熱帯低気圧の軌跡を再現する。
    • 既存の追跡手法と比較して,検出率と誤報率のバランスが良く,季節変動や年々変動を正確に捉える。

    Link: https://arxiv.org/abs/2512.07885

  • 交換可能性の観点から見た二変量因果探索の再考 [cs.LG]目的:二変量因果探索における交換可能性の枠組みの再構築
    • 因果推論は,データから因果関係を明らかにする上で不可欠であり,科学的発見や意思決定を支援する。
    • 従来の因果探索手法は,i.i.d.データと時系列データという異なる仮定に基づき,適用範囲に限界があった。
    • 交換可能性のより広範な仮定に基づき,因果探索の不確実性をより適切に捉えるモデルを提案し,実データへの適用を目指す。
    • 提案手法では,因果メカニズムと潜在変数の分布に関する不確実性を交換可能性の仮定の下でより良く捉えられることを示した。
    • 交換可能性に基づく合成データセットが,既存のi.i.d.データセットよりもTübingenデータセットの統計的・因果的構造をより忠実に再現することを確認した。
    • 合成データセットのみで学習したSynthNNが,Tübingenデータセット上で既存手法と競合する性能を示し,提案モデルの現実性を裏付けた。

    Link: https://arxiv.org/abs/2512.10152

  • 効率的かつ品質維持のためのスライディングウィンドウ注意適応:長文脈処理 [cs.CL, cs.AI]目的:長文脈処理における効率と品質の維持
    • TransformerベースのLLMは強力だが,長文脈処理に高い計算コストがかかる。
    • 単純なスライディングウィンドウ注意(SWA)は高速だが,長文脈での性能が著しく低下する。
    • 事前学習済みのモデルをSWAに効率的に適応させ,長文脈性能の低下を抑制すること。
    • 提案手法SWAAは,FAモデルをSWAに低コストで適応させるツールキットである。
    • FAデコード,FA層とSWA層の交互配置,sinkトークンの維持,軽量なファインチューニングを組み合わせる。
    • 実験により,特定の組み合わせが長文脈性能を効果的に回復し,30%から100%の高速化を実現した。

    Link: https://arxiv.org/abs/2512.10411

  • TimeLens:マルチモーダルLLMによる動画の時間的グラウンディングの再考 [cs.CV, cs.AI, cs.CL, cs.MM]目的:動画の時間的グラウンディング能力の向上
    • 動画理解において,動画中の特定のイベントの時間的特定は重要な課題である。
    • 既存の動画時間的グラウンディングベンチマークには品質の問題が存在し,評価の信頼性が低い。
    • 高品質なデータと効率的な学習手法により,動画時間的グラウンディングの性能を向上させる。
    • 既存ベンチマークの品質問題を明らかにし,厳格な基準で再アノテーションされたTimeLens-Benchを提案した。
    • ノイズの多い学習データに対処するため,自動再アノテーションパイプラインを用いて高品質な学習データTimeLens-100Kを構築した。
    • TimeLensモデルは,オープンソースモデルの中で最先端の性能を示し,GPT-5やGemini-2.5-Flashなどのプロプライエタリモデルを上回った。

    Link: https://arxiv.org/abs/2512.14698

  • 乳幼児規模の視覚言語モデルにおける属性識別に関するベンチマーク [eess.SY, cs.SY, math.OC, cs.LG]目的:乳幼児規模の視覚言語モデルにおける属性識別の能力評価
    • 乳幼児は限られた経験から,物体カテゴリだけでなく,色,大きさ,質感などの微細な視覚的属性も学習する。
    • 既存のモデルは物体認識が中心で,クラス内の属性識別の能力が十分に評価されていない。
    • 本研究は,合成レンダリングを用いた制御されたベンチマークで,属性識別能力を定量的に評価することを目指す。
    • 乳幼児学習モデルは,大きさや質感の視覚表現は強いが,色の視覚識別は苦手である。
    • テキストと視覚の両方を用いた評価では,乳幼児学習モデルは色の意味理解が弱く,大きさの理解も限定的である。
    • 一方,大規模学習モデルはテキストからの色理解は強いが,視覚的な大きさの識別は弱い。

    Link: https://arxiv.org/abs/2512.18951

  • 分裂すれば崩壊する:ソフトゲート付き分数MoEとランダム化敵対的訓練による敵対的攻撃からの防御 [cs.LG]目的:敵対的攻撃に対する堅牢性を高めるための防御システム
    • 機械学習は多くのタスクを自動化する強力なツールである。その実用化が進む一方で,敵対的攻撃への脆弱性が課題となっている。
    • 敵対的摂動は人間の目には知覚できないが,推論時の誤分類を引き起こす可能性があり,機械学習モデルの信頼性を損なう。
    • 本研究は,MoEアーキテクチャ内に敵対的訓練モジュールを組み込むことで,白ボックス攻撃に対する堅牢性を向上させることを目指す。
    • 提案手法は,CIFAR-10およびSVHNデータセットにおいて,強力な白ボックスFGSMおよびPGD評価下で,従来のMoEベースの防御手法を上回る性能を示した。
    • 複数の専門家を用いることで訓練時間は増加するが,推論時の計算コストは専門家の数に比例して線形に増加し,訓練に比べて大幅に安価である。
    • 本研究は,敵対的攻撃に対するMoEアーキテクチャの有効性を示し,今後のより堅牢な機械学習システムの開発に貢献する。

    Link: https://arxiv.org/abs/2512.20821

  • ByteLoom:漸進的カリキュラム学習による幾何学的に整合性の高い人間と物体のインタラクションの構築 [cs.CV, cs.GR, cs.LG]目的:人間と物体のインタラクションビデオの生成
    • デジタルヒューマン,eコマース,広告,ロボットの模倣学習など,応用範囲が広い分野である。
    • 既存手法では,多視点情報の注入や,インタラクションのオクルージョンモデリングに課題がある。
    • 幾何学的に整合性の高いHOIビデオを生成し,既存手法の課題を解決することを目指す。
    • 提案手法ByteLoomは,拡散Transformer (DiT)を基盤とし,簡略化された人間条件と3D物体入力を用いて,現実的なHOIビデオを生成する。
    • Relative Coordinate Maps (RCM)キャッシュ機構により,物体の幾何学的整合性を維持し,6-DoFの物体変換を正確に制御する。
    • 漸進的なカリキュラム学習により,データ不足を補い,ハンドメッシュへの依存度を軽減することで,モデルの能力を向上させる。

    Link: https://arxiv.org/abs/2512.22854

  • 解釈可能な機械学習の検証:性能,メタ特徴量,回帰と分類の予測可能性のギャップ [cs.LG]目的:解釈可能な機械学習モデルの性能評価とメタ特徴量との関連性
    • 機械学習の応用範囲拡大に伴い,モデルの解釈可能性が重要視されている。
    • 解釈可能なモデルの体系的な評価が不足しており,性能評価も集計レベルに留まることが多い。
    • 回帰と分類タスクにおける性能の差異を分析し,モデル選択の指針を提供する。
    • 回帰タスクでは,EBMやSRが予測性能の階層を支配し,データセット特性から推測可能であることが示された。
    • 分類タスクでは,性能に安定した階層が見られず,標準的な複雑性指標は実用的な指針とならないことが明らかになった。
    • 構造的スパース性を最適化するモデルは,学習に著しく時間を要する「解釈可能性税」を伴うことが確認された。

    Link: https://arxiv.org/abs/2601.00428

  • 電力価格予測:線形モデル,ニューラルネットワーク,オンライン学習の統合 [cs.LG]目的:電力価格の日次予測モデルの構築
    • 電力市場の効率的な運用に不可欠であり,ポートフォリオ管理や発電計画に貢献する
    • 市場の不確実性から高精度な予測が難しく,線形モデルでは非線形関係の捉えが困難
    • 計算コストを抑えつつ,予測精度を向上させる新たな手法を提案する
    • 提案手法は,線形と非線形のニューラルネットワーク構造を組み合わせ,オンライン学習と予測の組み合わせを導入した
    • 風力・太陽光発電,電力需要,エネルギー市場等の情報を統合し,予測精度を向上させた
    • 既存のモデルと比較して,計算コストを削減しつつ,予測精度を大幅に改善 (RMSE 12-13%減,MAE 15-18%減) させた

    Link: https://arxiv.org/abs/2601.02856

  • IDESplat:汎用3Dガウススプラッティングのための反復深さ確率推定 [cs.CV, cs.AI]目的:汎用3Dガウススプラッティングにおける正確なガウス平均予測
    • 3Dシーン再構成は,仮想現実やロボティクスなど様々な分野で重要な役割を担う。
    • 既存手法では,単一のワープに頼るため,クロスビュー幾何学情報を十分に活用できず,深さマップの精度が低い。
    • 深さ確率推定を反復的に行うことで,ガウス平均の予測精度を向上させ,高品質な3D再構成を実現する。
    • IDESplatは,Depth Probability Boosting Unit(DPBU)を用いて,複数のワープ操作をカスケード化し,深さ確率を反復的に向上させる。
    • RealEstate10K, ACID, DL3DVでの実験により,優れた再構成品質とリアルタイム効率が確認された。
    • RE10Kにおいて,パラメータとメモリ使用量を大幅に削減しながら,DepthSplatを0.33dB上回るPSNRを達成し,汎化性能の高さを示した。

    Link: https://arxiv.org/abs/2601.03824

  • XGrammar-2:エージェント型LLMのための効率的な動的構造生成エンジン [cs.AI]目的:エージェント型LLMにおける動的構造生成の効率化
    • 近年のLLMエージェントでは,ツール呼び出し等,動的な構造生成が不可欠となっている。
    • 従来の構造生成エンジンは静的な構造を前提としており,動的な構造変化への対応が課題であった。
    • 本研究は,動的な構造変化に効率的に対応する構造生成エンジンを開発し,その問題を解決する。
    • XGrammar-2は,タгによる構造切り替えとサブ構造レベルのキャッシュ再利用を特徴とする。
    • 従来エンジンと比較して,6倍以上のコンパイル速度向上を実現した。
    • 最新のLLMサービングシステムにおいて,エンドツーエンドのオーバーヘッドをほぼゼロに抑えることに成功した。

    Link: https://arxiv.org/abs/2601.04426

  • 文脈が重要:VLMアクション解析とLLMシーケンス分類によるピア認識型学生の行動エンゲージメント測定 [cs.CV, cs.AI]目的:学生の行動エンゲージメント測定
    • 教育の質向上と学生のエンゲージメント促進には,教室における学生の行動理解が不可欠である。
    • 既存手法は多様な学生の行動をモデル化するために大量のアノテーションデータが必要だが,プライバシー保護の観点からデータ収集が制限されている。
    • 本研究は,ピアの行動という文脈情報を考慮し,プライバシー制約下でも学生のエンゲージメントを正確に測定することを目指す。
    • 提案手法は,少数の学習サンプルで学生のアクション認識を行うVLMのFew-shot適応により,データ収集の負担を軽減する。
    • 時間窓技術とLLMシーケンス分類を用いることで,連続的かつ予測不可能な学生の行動を効果的に捉え,エンゲージメントを判定する。
    • 実験結果は,提案手法が学生のエンゲージメント識別において有効であることを示している。

    Link: https://arxiv.org/abs/2601.06394

  • TAG-MoE:タスク認識ゲートによる統一的な生成混合エキスパートモデル [cs.CL, cs.CV, cs.AI]目的:画像生成と編集におけるタスク干渉の軽減
    • 画像生成・編集モデルの性能向上は,多様なニーズに応える上で不可欠である。
    • 統一モデルでは,異なるタスク間の競合が性能低下の要因となる。
    • タスクの意図を考慮したエキスパートの選択により,干渉を抑制する。
    • 提案手法は,タスク干渉を効果的に軽減し,高精度な画像生成・編集を可能にする。
    • 階層的なタスク意味注釈と予測的アラインメント正則化により,ゲートネットワークがタスク意図を認識する。
    • 各エキスパートは,明確な意味的相関性を持つ専門性を自然に獲得する。

    Link: https://arxiv.org/abs/2601.08881

  • 抑圧された人々の情報アクセス:解放的情報アクセスプラットフォームを構想するための問題提起フレームワーク [cs.CY, cs.AI, cs.HC, cs.IR]目的:解放的情報アクセスプラットフォームの構想
    • 情報アクセスは,民主主義社会における基本的権利であり,権力構造への抵抗に不可欠である。
    • 情報アクセスプラットフォームは権威主義的な支配下に置かれる可能性があり,自由な情報流通が脅かされている。
    • 技術者主導の解決策ではなく,コミュニティによるプラットフォームの共同構築と解放を目指す。
    • 本研究では,パウロ・フレイレの解放教育論をレンズとして,情報アクセスの社会技術的な課題を検討した。
    • 技術者とユーザーの二分法を批判し,プラットフォームの共同構築を促す「フレイレ的デザイン」を提唱した。
    • 問題提起アプローチを用いて,未来の解放的情報アクセスプラットフォームを構想するための方法論を開発した。

    Link: https://arxiv.org/abs/2601.09600

  • SciCoQA:科学論文とコードの整合性保証 [cs.MA, cs.DB, cs.DC, cs.IR, cs.CL, cs.AI]目的:科学論文とそれに対応するコードベースの不一致検出
    • 科学研究の再現性は重要であり,論文とコードの整合性は再現性の根幹をなす。
    • 論文の内容と実際のコード実装との間に不一致が生じることが多く,再現性の妨げとなっている。
    • 論文とコード間の不一致を検出し,科学研究の信頼性を向上させることを目指す。
    • SciCoQAデータセットは,科学論文とコードベース間の不一致検出のためのリソースを提供する。
    • データセットは,実際の不一致と合成された不一致を含み,AI分野を含む様々な科学領域をカバーする。
    • 評価の結果,最先端のLLMでも実際の不一致の約半分しか検出できず,課題が残ることが示唆された。

    Link: https://arxiv.org/abs/2601.12910

  • 勾配正則化自然勾配法 [cs.LG, cs.AI]目的:モデルの汎化性能向上
    • 機械学習モデルの汎化性能向上は,実世界への応用において重要である。
    • 二階最適化法は計算コストが高く,大規模データセットへの適用が課題である。
    • 勾配正則化を自然勾配法に統合し,効率的かつ安定な最適化を実現する。
    • 勾配正則化自然勾配法(GRNG)は,第一階および二階の最適化手法と比較して,最適化速度と汎化性能を向上させる。
    • RENGとRINGという二つの頻度主義アルゴリズム,およびカルマン正則化に基づくベイズ変種を提案した。
    • GRNGは,安定性を高め,大域的最小値への収束を可能にする理論的保証を持つ。

    Link: https://arxiv.org/abs/2601.18420

  • OWLEYE:クロスドメイングラフデータ異常検知のためのゼロショット学習器 [cs.LG]目的:クロスドメイングラフデータの異常検知における転移可能なパターン学習
    • グラフデータは複雑な関係性を表現でき,金融,サイバーセキュリティなど様々な分野で異常検知が重要である。
    • 異なるドメインのグラフデータは特徴量セマンティクスが異なり,汎用的なモデル開発の大きな障壁となっている。
    • 未学習のグラフデータに対し,再学習なしに異常を検知できる汎用モデルの構築を目指す。
    • OWLEYEは,ドメイン固有のセマンティクスを維持しつつ特徴分布を調和させるクロスドメイン特徴量アライメントモジュールを提案する。
    • OWLEYEは,アライメントされた特徴量を用いて,共有する構造的・属性ベースのパターンをエンコードする多ドメイン多パターン辞書学習を設計する。
    • OWLEYEは,ラベルなしデータで未学習のグラフ構造データをロバストに検知するTruncated Attentionに基づく再構成モジュールを開発する。

    Link: https://arxiv.org/abs/2601.19102