arXiv雑要約

AI - 2026/02/03 公開

  • データ混合かモデルマージか? モデルマージによる大規模言語モデルの有用性,誠実性,無害性のバランス [eess.SY, cs.SY, math.OC, cs.CL, cs.AI, cs.LG]目的:大規模言語モデルの3H(有用性,誠実性,無害性)最適化におけるデータ混合とモデルマージの効果の比較
    • 責任あるAIの実現には,大規模言語モデルの3H最適化が不可欠である。社会実装において安全性と信頼性が求められるため。
    • データ混合は専門知識への依存度が高く,最適化シグナルが衝突しやすいという課題がある。
    • モデルマージの可能性を探り,3H最適化におけるデータ混合とモデルマージの利点・欠点を明らかにする。
    • RESMは,データ混合手法よりも2〜5%,既存のモデルマージ手法よりも1〜3%高い精度で,バランスの取れたLLMアライメントを実現することを示した。
    • RESMは,外れ値重み付けとスパースネスを考慮したランク選択戦略により,3HアライメントLLMマージにおける課題を解決する。
    • 3H\_Merging(https://huggingface.co/Jinluan)としてモデルを公開し,さらなる調査を促進する。

    Link: https://arxiv.org/abs/2502.06876

  • 原子性状予測における事前学習データのアライメントの重要性 [cs.HC, cs.LG, cs.AI]目的:原子性状予測のための事前学習データのアライメント
    • 分子科学の発展には,物質の特性を正確に予測する能力が不可欠である。
    • 既存手法は,データセットの規模や計算資源に依存し,効率性に課題があった。
    • データのアライメントを重視することで,少ない計算資源でも高性能なモデルを構築すること。
    • タスクに適合したデータで事前学習することで,大規模な事前学習と同等またはそれ以上の性能が達成された。
    • 分子グラフ間の類似度指標CSIを用いて,事前学習データと下流タスクのアライメントを定量的に評価した。
    • アライメントの低いデータを追加すると,モデルの性能が低下することが示された。質が量よりも重要である。

    Link: https://arxiv.org/abs/2502.11085

  • 疎なオートエンコーダ特徴量による分類と転移性 [cs.LG, cs.AI, cs.CL]目的:大規模言語モデルからの解釈可能な特徴抽出
    • AIシステムの透明性と制御可能性が重要視される中で,解釈可能な表現学習が不可欠となっている。
    • 大規模言語モデルの内部表現は不透明であり,その解釈が困難であるという課題がある。
    • 疎なオートエンコーダを用いて,解釈可能な特徴量を抽出し,モデルの汎化性能を向上させる。
    • 疎なオートエンコーダから抽出された特徴量は,隠れ状態やBoWベースラインを上回り,マクロF1値0.8を超える性能を示した。
    • Gemma 2 2BモデルからGemma 2 9B-ITモデルへのモデル間転移が可能であり,汎化性能の高さが確認された。
    • これらの特徴量は,ゼロショットで多言語の有害性検出や画像分類タスクにも適用可能である。

    Link: https://arxiv.org/abs/2502.11367

  • LLMの適性に応じた指導:数学問題解決のための適応的推論 [cs.CL, cs.AI]目的:LLMの数学問題解決における適応的推論戦略
    • 大規模言語モデルの数学的推論能力は,教育や研究において重要な役割を担う。
    • 既存手法は汎化のためCoTに依存,または計算精度のためTIRを用いるが,柔軟性に課題がある。
    • LLMが自律的に能力に応じた推論戦略を選択・適用できるフレームワークの構築。
    • 提案手法TATAは,LLMの適性に基づきデータを選択的に用いることで,CoTとTIRの利点を効果的に組み合わせる。
    • 実験の結果,TATAは既存手法と同等以上の性能を示し,推論効率も向上した。
    • 適性に基づいたデータ選択が,LLMの適応的な推論決定と能力に合わせた戦略選択に不可欠であることが示唆された。

    Link: https://arxiv.org/abs/2502.12022

  • LLMは多言語間でどの程度ハルシネーションを起こすか:LLMハルシネーションの現実的な多言語推定について [cs.CL, cs.AI]目的:大規模言語モデルにおけるハルシネーションの多言語における程度評価
    • 誤情報の蔓延下,LLMの生成する誤った情報(ハルシネーション)は,その実用上の大きなリスクとなる。
    • LLMのハルシネーション検出研究は英語中心であり,機械翻訳や要約といった特定のタスクに偏っている。
    • 知識集約型長文質問応答における,多言語でのハルシネーションの程度を定量的に評価することを試みる。
    • 30言語と6つのオープンソースLLMを用いて大規模な調査を行った結果,LLMは高リソース言語でより多くのトークンをハルシネーションする傾向があることが示された。
    • ただし,ハルシネーション率は言語のデジタルフットプリントの大きさとは相関がないことが明らかになった。
    • また,小規模なLLMほどハルシネーションを起こしやすく,多言語対応のLLMはハルシネーション率が高いことが判明した。

    Link: https://arxiv.org/abs/2502.12769

  • エントロピーレンズ:LLMにおける意思決定戦略の解明 [cs.CL, cs.LG, cs.AI, cs.CV]目的:LLMにおける意思決定戦略の解明
    • LLMの性能向上は,その内部メカニズムの理解に依存する。
    • トークン空間の動的挙動は高次元で分析が困難である。
    • 残差ストリームの動的挙動を低次元信号に集約する。
    • エントロピーレンズは,各層のトークン予測ダイナミクスを捉えるスカラー指標を提供する。
    • LLMファミリー固有の展開と剪定戦略が,予測ダイナミクスを特徴づけることが示された。
    • 展開戦略は通常,ダウンストリーム性能に重要な影響を与える。

    Link: https://arxiv.org/abs/2502.16570

  • ニューラルネットワークによる正確な加算,乗算,およびアルゴリズム命令の実行学習 [cs.LG]目的:ニューラルネットワークによる離散演算の正確な実行
    • アルゴリズム実行能力は,ニューラルネットワークの汎用性を評価する上で重要である。
    • 離散演算の学習は,ニューラルネットワークにとって課題である。
    • ニューラルネットワークによる正確なアルゴリズム命令の実行方法を確立する。
    • 無限幅の二層全結合ネットワークの訓練ダイナミクスをNTKフレームワークを用いて解析した。
    • 十分な数のモデルのアンサンブルを訓練することで,正確な実行が可能となることを示した。
    • 対数個の訓練データを用いて効率的に実現可能であることが示された。

    Link: https://arxiv.org/abs/2502.16763

  • 複雑な物理システムのサンプル効率の良い拡散ベース制御 [eess.SY, cs.AI, cs.LG, cs.SY]目的:複雑な物理システムにおけるサンプル効率の良い制御手法
    • 多様な分野で物理システムの制御が重要であり,高性能な制御手法が求められている。
    • 従来のモデルベース手法や逐次学習法では,全体的な軌道の一貫性を確保することが困難である。
    • 拡散ベース制御のサンプル効率の低さを改善し,実用的な制御システムを構築することを目的とする。
    • 提案手法SEDCは,高次元の状態・制御空間,強い非線形性,データと最適制御則のギャップを克服する。
    • 状態・制御モデリングの分離とダイナミクスの分解により,制御性能を向上させている。
    • Burgers方程式,Kuramotoモデル,電力系統の安定化制御において,最先端手法を大幅に上回る精度を,10%の学習サンプルで達成した。

    Link: https://arxiv.org/abs/2502.17893

  • Mixtera:基盤モデル学習のためのデータプレーン [cs.LG, cs.AI, cs.DB]目的:基盤モデル学習におけるデータサンプルの利用割合と順序の宣言的な制御
    • 近年,大規模言語モデルやビジョンモデルの性能向上が著しい。学習データ量が指数関数的に増加している。
    • 学習データセットの規模拡大に伴い,データ管理の負担が増大し,人的ミスも発生しやすい状況にある。
    • データ混合と学習順序がモデル精度に大きく影響することに着目し,データ管理の効率化を目指す。
    • Mixteraは,既存のデータセット上に配置可能な集中型読み取り専用層であり,宣言的なクエリをサポートする。
    • 実装による学習ボトルネックは確認されず,256個のGH200スーパーチップへのスケーラビリティが示された。
    • 適応的データ最適化(ADO)アルゴリズムを実装し,データ混合戦略の有効性を検証した。

    Link: https://arxiv.org/abs/2502.19790

  • 因果的に信頼性の高いコンセプトボトルネックモデル [cs.LG, cs.AI]目的:因果関係を考慮したコンセプトボトルネックモデルの構築
    • 深層学習の解釈可能性向上は,人間との協調や意思決定の支援に不可欠である。
    • 従来のコンセプトボトルネックモデルは,データに内在する因果構造を考慮していない。
    • 実世界の因果メカニズムに基づいたコンセプト構造の学習とモデルへの組み込み。
    • 提案手法C$^2$BMは,従来のモデルと比較して,より解釈可能かつ因果的に信頼性が高いことが示された。
    • 介入に対する応答性が向上しており,因果推論タスクにおける性能向上が期待される。
    • 精度を維持しつつ,公平性制約の実装を促進する可能性が示唆された。

    Link: https://arxiv.org/abs/2503.04363

  • Helios 2.0:イベントセンサーベースのウェアラブル向け,堅牢かつ超低消費電力のジェスチャー認識システム [cs.HC, cs.CV, cs.LG]目的:ウェアラブルデバイス用ジェスチャー認識システムの開発
    • ウェアラブル技術の発展は,ハンズフリーでの操作を可能にし,ユーザーエクスペリエンスを向上させる上で重要である。
    • 既存のジェスチャー認識システムは,消費電力が高く,多様なユーザーや環境への適応が課題であった。
    • 本研究は,低消費電力で直感的かつ汎用性の高いジェスチャー認識システムを実現し,ウェアラブルデバイスでの実用化を目指す。
    • イベントカメラを用いたシステムにより,リアルタイムかつ超低消費電力でのジェスチャー認識を実現した。
    • シミュレーション技術を活用し,多様なユーザーや環境に対応可能なロバストなモデルを構築した。
    • Qualcomm Snapdragon Hexagon DSP上で6-8mWの消費電力でF1スコア80%以上を達成し,既存技術を大きく上回る性能を示した。

    Link: https://arxiv.org/abs/2503.07825

  • 次世代推薦システムへ: LLMを用いたパーソナライズド推薦アシスタントのベンチマーク [cs.IR, cs.AI]目的:LLMを用いたパーソナライズド推薦アシスタントの能力評価
    • 推薦システムは現代のデジタルプラットフォームで広く利用されており,その重要性は高い。
    • 従来の推薦システムは単純なシナリオに限定され,インタラクティブな状況への対応が困難である。
    • 複雑なユーザーのニーズに対応できるLLMベースの推薦アシスタントの評価方法が課題である。
    • RecBench+は,LLMが複雑な推薦ニーズに対応する能力を評価するための新しいベンチマークデータセットである。
    • LLMは推薦アシスタントとしての初期的な能力を示す一方で,推論や誤情報を含むクエリには課題がある。
    • RecBench+は,明示的な条件を含むクエリの方が,そうでないクエリよりも処理しやすいことを示した。

    Link: https://arxiv.org/abs/2503.09382

  • 現代NLPにおけるアクティブラーニングの採用状況の再評価:コミュニティ調査 [cs.CL, cs.LG]目的:現代NLPコミュニティにおけるアクティブラーニングの採用状況に関する知見
    • 教師あり学習には注釈付きデータが不可欠であり,その作成には時間とコストがかかる。
    • アクティブラーニングの導入には,設定の複雑さ,コスト削減の不確実性,ツール不足といった課題が根強く残る。
    • アクティブラーニングの導入障壁を特定し,その緩和策を提案すること。
    • データ注釈の重要性は依然として高く,アクティブラーニングもLLMの恩恵を受けながら引き続き関連性を維持すると考えられる。
    • 15年以上前の調査と同様に,アクティブラーニング導入の主要な課題は,セットアップの複雑さ,コスト削減の不確実性,ツール不足の3点である。
    • 調査データセットを匿名化して公開し,今後の研究に貢献する。

    Link: https://arxiv.org/abs/2503.09701

  • ナッシュ均衡制約を持つ大規模自動入札 [cs.LG, cs.AI, cs.GT]目的:オンライン広告における自動入札の最適化
    • オンライン広告の効率化は,広告主にとって収益最大化に不可欠である。
    • 既存の自動入札システムは,広告主間の戦略的相互依存性を考慮していない。
    • ナッシュ均衡制約を導入し,プラットフォーム全体の最適化を目指す。
    • 本研究では,ナッシュ均衡制約を持つ自動入札フレームワーク(NCB)を提案した。
    • NCBは,広告主レベルの安定性とプラットフォーム全体の最適性を両立させる。
    • 理論的に保証された収束性を持つペナルティベースのアルゴリズムを開発し,実用性も確認した。

    Link: https://arxiv.org/abs/2503.10304

  • 効果的かつ効率的な都市間交通知識転移:プライバシー保護の観点から [eess.SY, cs.SY, cs.RO, cs.LG, cs.CR]目的:都市間交通知識転移における,プライバシー保護と効率性の向上
    • 都市交通の円滑化には,正確な交通予測が不可欠であり,都市計算や交通管理において重要な役割を担う。
    • 既存手法では,プライバシー侵害の可能性,都市間データ分布の不一致,低品質なデータが課題となり,実用化が妨げられている。
    • プライバシーを保護しつつ,データ品質を向上させ,データ分布の不一致を解消することで,実用的な交通知識転移を実現する。
    • 提案手法FedTTは,4つの実データセットにおいて,14種類の最先端手法を凌駕する性能を示した。
    • FedTTは,欠損交通データの補完によるデータ品質向上,データ分布の均一化,安全なデータ集約により,プライバシー保護と効率性を両立している。
    • 特に,トラフィックビューの補完,ドメインアダプター,シークレット集約プロトコルが,性能向上に大きく貢献している。

    Link: https://arxiv.org/abs/2503.11963

  • 自己教師あり強化学習のための1000層ネットワーク:深さを拡大することで新たな目標達成能力が生まれる [cs.LG, cs.AI]目的:自己教師あり強化学習におけるスケーラビリティ向上
    • 言語や画像処理分野では自己教師あり学習が飛躍的に進歩しているが,強化学習分野では同様の進歩が見られない。
    • 近年の強化学習研究では,浅いネットワーク構造(2~5層程度)が主流であり,深層ネットワークの可能性が十分に探求されていない。
    • 深層ネットワークを用いることで,強化学習における目標達成能力を向上させ,自己教師あり学習の進展を促す。
    • ネットワークの深さを1024層まで拡大することで,自己教師ありコントラスト強化学習の性能が2倍から50倍向上した。
    • シミュレーションされた移動および操作タスクにおいて,既存の目標条件付きベースラインを上回る成果が得られた。
    • モデルの深さを増やすことは,成功率の向上に加え,学習される行動の質的変化をもたらす。

    Link: https://arxiv.org/abs/2503.14858

  • CAARMA:敵対的混合正則化によるクラス拡張 [cs.CL, cs.SD, cs.CL, cs.LG]目的:音声認識におけるゼロショット学習のためのクラス拡張手法
    • 音声認識は,未知の音声に対する識別能力が求められるため,汎化性能が重要となる。
    • 既存の音声データセットは,十分なクラス多様性を有していない場合が多く,汎化性能の向上を阻害する。
    • データ拡張によって訓練クラス数を増やし,汎化性能の向上を図ることを目的とする。
    • CAARMAは,埋め込み空間でのデータ混合によって合成クラスを生成するクラス拡張フレームワークである。
    • 合成クラスの信頼性を高めるため,合成クラスと実クラスのカテゴリ的区別を最小化する敵対的洗練メカニズムを採用している。
    • 複数の音声認識タスクにおいて,ベースラインモデルと比較して平均で8%の性能向上を達成した。

    Link: https://arxiv.org/abs/2503.16718

  • 大規模モデルの学習と適応における低ランク構造の概要 [cs.CL, cs.LG, eess.SP, math.OC, stat.CO, stat.ML]目的:大規模モデルの学習と適応における低ランク構造の理解
    • 深層学習の発展に伴い,計算資源の効率的な利用が重要課題となっている。
    • 大規模モデルの学習には膨大な計算コストがかかり,実用上の制約となる場合が多い。
    • 低ランク構造を利用することで,計算コストを削減し,効率的な学習を可能にすること。
    • 深層ネットワークは学習過程において,重みや表現に低ランク構造を内在的に獲得することが示されている。
    • 本稿では,勾配降下法の最適化過程と,収束時の暗黙の正則化効果という2つの視点から,低ランク性の発生機構を概説する。
    • LoRAなどの低ランク適応技術や,ドロップアウトなどのマスク学習の効果を,理論的枠組みに基づき説明する。

    Link: https://arxiv.org/abs/2503.19859

  • 大規模言語モデルと木構造に基づくグラフ構造学習の解明 [cs.LG]目的:テキスト属性グラフの効率的な学習のためのグラフ構造学習パラダイム
    • グラフ構造学習は,データ活用を向上させる上で重要な技術であり,データ中心的な視点からモデルのエンコーディング能力を高める。
    • 既存のグラフ構造学習手法はテキスト情報を持たない従来のグラフ向けに設計されており,テキスト属性グラフに対応した新しいパラダイムが求められている。
    • 大規模言語モデル時代におけるグラフ構造学習の最適化目標を再定義し,効率的なモデルアーキテクチャを構築することで,課題解決を目指す。
    • 本研究では,グラフ構造学習の最適化目標を木構造最適化フレームワークとして再構築し,言語を意識した木構造サンプラーに焦点を当てる。
    • 大規模言語モデルの統合設計原則を提案し,計算コストの高いファインチューニングではなく,効率的な推論を重視する。
    • 提案手法LLaTAは,様々なドメインのデータセットにおいて,最先端の予測性能を達成し,柔軟性とスケーラビリティに優れる。

    Link: https://arxiv.org/abs/2503.21223

  • DenseFormer:条件付き拡散モデルによる疎な深度と画像からの高密度深度マップ学習 [cs.CV, cs.AI]目的:疎な深度マップとRGB画像からの高密度深度マップ生成
    • 自動運転において,周囲環境の正確な把握は不可欠であり,深度情報はその重要な要素である。
    • 既存手法は空間伝播ネットワークに依存し,計算コストが高く,精度の向上が課題となっていた。
    • 拡散モデルを用いて初期深度分布を反復的に洗練することで,高精度な深度マップの生成を目指す。
    • 提案手法DenseFormerは,拡散モデルを深度補完タスクに統合した新規なアプローチである。
    • 特徴抽出モジュールと深度洗練モジュールにより,疎な深度マップとRGB画像から効率的に特徴を抽出し,深度マップの精度を向上させている。
    • KITTIデータセットを用いた実験により,DenseFormerが従来の深度補完手法を上回る性能を示すことが確認された。

    Link: https://arxiv.org/abs/2503.23993

  • 科学的知能に向けて:LLMベースの科学エージェントに関する調査 [cs.AI, cs.MA]目的:LLMベースの科学エージェントのアーキテクチャ,設計,ベンチマーク,応用,倫理的考察に関する包括的なレビュー
    • 科学研究の複雑化に伴い,データ管理や学際的連携を支援し,発見を加速する革新的なツールが求められている。
    • 汎用LLMでは,専門知識や検証メカニズムが不足しており,複雑な科学的課題への対応が困難である。
    • LLMベースの科学エージェントの開発と課題を明らかにし,効率的かつ倫理的な科学的発見を支援する。
    • LLMベースの科学エージェントは,仮説生成からデータ分析,シミュレーションまで,科学研究の重要なタスクを自動化する。
    • これらのエージェントは,ドメイン固有の知識,高度なツールセット,堅牢な検証メカニズムを統合することで,再現性を確保し,科学的ブレークスルーを促進する。
    • 本調査は,研究者と実践者がこれらのエージェントを活用するための包括的なロードマップを提供する。

    Link: https://arxiv.org/abs/2503.24047

  • マルコフ的公平性の学習における時間割引の重要性 [cs.CL, cs.AI, cs.GT, cs.MA]目的:長期的視野でのマルコフ的公平性学習における時間割引の役割
    • マルチエージェントシステムにおける資源配分において,公平性は重要な検討課題である。
    • 既存手法は多くが静的な問題として扱っており,時間的ダイナミクスを考慮しない。
    • 時間割引を導入し,記憶空間の爆発的増加を抑制することで,長期的視野での公平性学習を可能とする。
    • 過去の資源配分を時間割引することで,記憶空間を有限に保ち,学習アルゴリズムのスケーラビリティを向上させる。
    • 時間割引は,即時的な公平性と完全な記憶に基づく公平性の間のトレードオフを調整する。
    • 実験により,完全な記憶に基づく手法が失敗する状況において,時間割引が有効であることが示された。

    Link: https://arxiv.org/abs/2504.01154

  • shapr:RとPythonにおける条件付きシャプレイ値を用いた機械学習モデルの説明 [cs.LG, stat.CO]目的:機械学習および統計回帰モデルに対するシャプレイ値に基づく予測の説明生成
    • 機械学習モデルの信頼性と透明性を高めることが重要であり,予測根拠の解釈可能性は不可欠である。
    • 既存のモデル解釈手法では,特徴量間の依存関係を正確に捉えきれない場合が多い。
    • 特徴量依存性を考慮した条件付きシャプレイ値推定により,より正確なモデル解釈を可能にすること。
    • shapr Rパッケージおよびshaprpy Pythonライブラリが開発され,シャプレイ値に基づく予測説明を容易にした。
    • 条件付きシャプレイ値推定により,特徴量間の依存関係を正確に捉え,モデルの説明精度を向上させた。
    • 時系列予測データや因果関係に基づいたシャプレイ値計算など,多様な機能を提供することで,モデル解釈の幅を広げた。

    Link: https://arxiv.org/abs/2504.01842

  • 適応的カリキュラム学習による効率的な強化学習ファインチューニング [cs.LG, cs.CL]目的:大規模言語モデルの数学的推論能力向上
    • 大規模言語モデルの性能向上は,自然言語処理の重要な課題である。
    • 強化学習によるファインチューニングは計算コストが高く,効率が課題である。
    • 効率と精度の両面から強化学習ファインチューニングの改善を目指す。
    • 提案手法AdaRFTは,モデルの報酬信号に基づいて訓練問題の難易度を動的に調整する。
    • AdaRFTは,訓練時間を最大2倍削減し,推論精度を大幅に向上させる。
    • 標準的な強化学習アルゴリズムへの軽量な拡張で実現可能である。

    Link: https://arxiv.org/abs/2504.05520

  • LLMの連合知による自動化されたアーカイブ記述 [cs.AI, cs.DL, cs.IR, cs.LG]目的:アーカイブ資料の高品質なメタデータ記述の自動生成
    • アーカイブの維持・活用には専門知識が不可欠であり,その重要性は増している。
    • 手作業でのメタデータ作成は煩雑で,誤りが生じやすいという課題がある。
    • 標準化されたアーカイブ記述プロセスを効率的に実現するための方法を模索する。
    • 提案システムは,複数のLLMの知能を統合する連合最適化アプローチを採用している。
    • 実世界のアーカイブ資料データセットを用いた実験により,その有効性が示された。
    • 連合最適化アプローチは,単一モデルによる手法と比較して,メタデータの品質と信頼性が向上する。

    Link: https://arxiv.org/abs/2504.05711

  • 双曲空間における深層グラフクラスタリングのための拡張構造情報学習 [cs.CL, cs.LG]目的:深層グラフクラスタリングにおける構造情報学習の拡張
    • グラフクラスタリングは機械学習の重要な課題であり,ネットワーク分析など幅広い応用が期待される。
    • 従来の深層学習手法は,クラスタ数を事前に定義する必要があり,不均衡なグラフに対しては課題があった。
    • 本研究は,クラスタ数を事前に定義せずに,不均衡なグラフに対しても有効なクラスタリング手法を開発する。
    • 本研究では,微分可能な構造情報フレームワークを確立し,双曲モデルLSEnetを設計することで,Kなしでのクラスタリングと少数クラスタの識別を実現した。
    • 構造エントロピーがツリー対照損失の上界を定めることを理論的に示し,効率的な目的関数を導出した。
    • 提案手法ASILは,グラフコンダクタンスの改善を保証し,Citeseerデータセットにおいて既存手法を平均12.42%上回るNMIを達成した。

    Link: https://arxiv.org/abs/2504.09970

  • FAIRGAME:ゲーム理論を用いたAIエージェントのバイアス認識フレームワーク [cs.AI]目的:AIエージェントのバイアス認識
    • AIの社会実装において,その信頼性は重要であり,説明可能性と予測可能性の向上が求められている。
    • マルチエージェント環境下では,AIの戦略的相互作用が複雑化し,バイアスの特定が困難である。
    • ゲーム理論に基づき,バイアスの系統的な発見と戦略的意思決定研究の促進を目指す。
    • FAIRGAMEフレームワークを実装し,AIエージェント間におけるゲームのシミュレーションを可能にした。
    • LLMや言語,エージェントの特性によって,ゲーム結果にバイアスが生じることが示された。
    • シミュレーション結果とゲーム理論的予測との比較を通じて,戦略的相互作用から生まれる行動を予測できる。

    Link: https://arxiv.org/abs/2504.14325

  • TSCAN:文脈を考慮した2段階学習によるオンラインマーチャントビジネス診断のためのアップリフトモデリング [cs.LG]目的:オンラインマーチャントビジネスの診断のためのアップリフトモデリング
    • ITE(介入効果)推定は,ビジネス上の意思決定において重要な役割を果たす。効果的なマーケティング戦略の立案に不可欠である。
    • ITE推定におけるサンプル選択バイアスが課題である。既存手法では情報損失が生じ,文脈特徴の活用が不十分である。
    • 文脈を考慮し,バイアスを軽減することで,より正確なアップリフトモデリングを実現し,ビジネス診断の精度向上を目指す。
    • 提案手法TSCANは,2段階学習により,サンプル選択バイアスを軽減し,アップリフト効果の推定精度を向上させる。
    • CAN-UとCAN-Dの組み合わせにより,従来の正則化項による情報損失を回避しつつ,効果的な学習を実現している。
    • 文脈を考慮したAttention Layerの導入により,介入効果の文脈依存性を適切にモデル化し,実用的な有用性を実証した。

    Link: https://arxiv.org/abs/2504.18881

  • 気泡から熱への推論:物理法則を組み込んだ生成AIによるプール沸騰の解析 [cs.CL, cs.CL, cs.LG, physics.app-ph]目的:プール沸騰における光学情報からの熱的推論手法
    • 熱管理システムにおいて相変化プロセスは重要であり,高精度な熱伝達特性の把握が不可欠である。
    • 複雑な二相流において,温度分布の定量的な評価は,測定の困難さから課題となっている。
    • 実験データとシミュレーションデータの整合性を高め,複雑な二相流現象の解析を支援すること。
    • シミュレーションデータのみで学習した条件付き生成敵対ネットワークにより,実験データから高解像度の温度分布を推定できる。
    • 画像処理と事前学習済みCNNによる画像セグメンテーションを組み合わせた前処理パイプラインが,実験データへの適用性を高めている。
    • データ拡張戦略が,物理的制約が厳密に適用できない場合でも,推論の物理的妥当性を向上させる。

    Link: https://arxiv.org/abs/2505.00823

  • 多様体上のポアンカレ不等式を非線形特徴空間の次元削減に応用する近似手法 [math.NA, cs.LG, cs.NA]目的:非線形特徴空間における次元削減のための近似手法
    • 高次元データ解析において,次元削減は計算コスト削減や過学習抑制に不可欠である。
    • ポアンカレ不等式に基づく次元削減は有効だが,損失関数の最小化が困難である。
    • ポアンカレ不等式に対する凸な近似手法を導入し,効率的な次元削減を目指す。
    • 提案手法では,ポアンカレ不等式に基づく損失関数の新しい凸近似を導入した。
    • 濃度不等式を利用し,多項式関数を含む関数クラスに対して劣最適性の結果を示した。
    • 様々なベンチマークにおいて,特に小規模な学習データセットで,従来の反復法よりも優れた近似精度を達成した。

    Link: https://arxiv.org/abs/2505.01807

  • DiTOX:ONNXオプティマイザにおける障害検出と局所化 [cs.LG, cs.AI, cs.SE, cs.SY, eess.SY]目的:ONNXオプティマイザの正当性評価のための自動化されたフレームワーク
    • AIモデルの効率的な推論には,モデルの最適化が不可欠である。
    • 既存のONNXオプティマイザの正当性は体系的に評価されていない。
    • ONNXオプティマイザの障害を検出し,原因となる最適化パスを特定する。
    • DiTOXを用いてONNX Model Hubの130モデルを評価した結果,9.2%のモデルでオプティマイザがクラッシュまたは無効なモデルを生成した。
    • 分類モデルの30%,物体検出・セグメンテーションモデルの16.6%で出力の不一致が確認された。
    • DiTOXは,ONNXオプティマイザの47の最適化パスとインフラストラクチャに影響を与える15の問題(新規14件)を発見した。

    Link: https://arxiv.org/abs/2505.01892

  • WaterDrum:データ中心型アンラーニング評価指標 [cs.LG]目的:大規模言語モデルにおけるデータ中心型アンラーニング評価
    • LLMの普及に伴い,プライバシー保護や有害データ除去の重要性が増している。
    • 既存の評価指標では,データセットの類似性や再学習の困難性により,アンラーニングの程度を正確に評価できない場合がある。
    • WaterDrumは,堅牢なテキストウォーターマークを利用することで,データセットの特性に依存しない正確なアンラーニング評価を目指す。
    • WaterDrumは,LLMのアンラーニングを評価するための新しいデータ中心型指標である。
    • データセットの類似性を考慮したベンチマークデータセットを新たに構築し,アンラーニングアルゴリズムの厳密な評価を可能にした。
    • テキストウォーターマークを用いることで,モデルの有用性を損なわずに,データの影響を効果的に除去できることを示した。

    Link: https://arxiv.org/abs/2505.05064

  • 学習による電力系統運用:統一された最適化の視点 [eess.SY, cs.AI, cs.SY]目的:学習を拡張した電力系統運用のための包括的フレームワーク
    • 再生可能エネルギーの導入拡大により,電力系統の効率性,安定性,強靭性の維持が重要になっている。
    • 既存の機械学習は独立して開発されることが多く,確立された運用決定フレームワークとの統合が不十分である。
    • 機械学習と物理ベースのモデルを統合し,電力系統の運用における最適化を促進すること。
    • 本研究は,予測,運用,制御といった従来の電力系統タスクを統合する「LAPSO」フレームワークを提案する。
    • LAPSOは,学習モデルが既存の意思決定に与える影響を定量化するための評価指標を導入する。
    • 不確実性の特定と軽減のためのベイズ的アプローチと,閉ループでの学習パラダイムへの拡張性も実現する。

    Link: https://arxiv.org/abs/2505.05203

  • UniSymNet:Transformerによる誘導を伴う統一的な記号ネットワーク [cs.LG, cs.AI, cs.SC]目的:記号回帰における最適な記号的表現の探索
    • データから数式を自動的に発見する技術であり,科学的発見やモデル解釈に貢献する。
    • 従来の記号回帰は探索空間が広大で計算コストが高く,複雑な関数では性能が限界を迎える。
    • Transformerによる構造選択の誘導と,新しい演算子定義により,複雑さを抑えつつ高精度な回帰を実現する。
    • 提案手法UniSymNetは,二項演算子をネストされた一項演算子に統一することで,多変数演算への拡張を可能にした。
    • Transformerによる事前学習と,目的関数に応じた最適化戦略により,高い適合精度と記号解の取得率を達成した。
    • 低次元ベンチマークと高次元SRBenchの両方において,競争力のある性能を示した。

    Link: https://arxiv.org/abs/2505.06091

  • 反復推論を用いたスパース潜在因子予測器(SLFF):透明性の高い商品先物マルチホライズン予測 [cs.LG, cs.AI, cs.CE]目的:商品先物マルチホライズン予測における解釈可能な要因の特定
    • 商品先物は価格変動が激しく,安定的な予測は経済活動において重要である。
    • マルチホライズン予測において,予測要因の解釈性が課題となっている。
    • 解釈可能な要因に基づいた,より正確な商品先物マルチホライズン予測を実現する。
    • 提案手法SLFFは,既存の統計モデルやニューラルネットワークと比較して競争力のあるRMSEとMAEを達成した。
    • SLFFは,単なる持続性予測よりも方向性予測の精度を向上させた。
    • SLFFによって得られた潜在因子は,異なる初期値でも安定しており,計測可能なファンダメンタルズと関連性が見られた。

    Link: https://arxiv.org/abs/2505.06795

  • ノード埋め込みとWi-Fi軌跡のクラスタリングによるグラフベースの階層分離 [cs.NI, cs.AI, cs.CR, cs.LG, cs.RO]目的:Wi-Fi軌跡のみを用いた,建物の事前情報や階数知識を必要としない,データ駆動型の階層分離手法
    • GPS非利用環境下での屋内位置特定システムにおいて,垂直方向の位置特定,特に階層分離は重要な課題である。
    • 従来の階層分離手法は,建物の構造情報や階数の事前知識に依存しており,柔軟性に欠ける。
    • 受信信号強度データのみを用いて,建物の垂直方向の構造を捉え,柔軟な階層分離を実現すること。
    • 提案手法では,Wi-Fiフィンガープリントを軌跡グラフのノードとして表現し,Node2Vecを用いて構造的なノード埋め込みを学習する。
    • K-Meansクラスタリングと自動クラスタ数推定により階層レベルの分割を得ることで,建物内の垂直構造を捉える。
    • Huawei University Challenge 2021データセット等の評価により,提案手法の有効性が実証された。

    Link: https://arxiv.org/abs/2505.08088

  • フル導関数観測を用いたガウス過程回帰のスケーリング [cs.NI, cs.LG, stat.ML]目的:フル導関数観測を用いたガウス過程回帰のスケーリング手法
    • 機械学習において,ガウス過程回帰は不確実性推定に有効だが,計算量が課題となる。
    • 従来のガウス過程回帰は,データ数が増加すると計算コストが指数関数的に増加する。
    • より大規模なデータセットに対する,効率的な導関数計算を含むガウス過程回帰を実現すること。
    • 提案手法DSoftKIは,ソフトマキシマム補間を用いたカーネル近似を導関数に拡張し,スケーラビリティを向上させた。
    • DSoftKIは,局所的な温度ベクトルを用いることで,方向依存性を捉え,高次元データへの適用を可能にした。
    • 実験結果から,DSoftKIは従来のGP手法よりも高精度かつ大規模データセットに対応できることが示された。

    Link: https://arxiv.org/abs/2505.09134

  • 分布ロバストな平均報酬強化学習のサンプル複雑性 [cs.LG, math.OC, stat.ML]目的:分布ロバストな平均報酬強化学習におけるサンプル複雑性の評価
    • ロボティクス,オペレーションズリサーチ,ヘルスケアなど,安定した長期的な性能が求められる実用的な応用分野において重要である。
    • 不確実性に対するロバスト性が保証されていないため,環境の変化に弱いという課題がある。
    • 不確実性集合内で安定した制御された遷移カーネルを持つ,分布ロバストな平均報酬強化学習のサンプル複雑性を有限に抑える。
    • 提案するアルゴリズムは,KL divergenceや$f_k$-divergenceに基づく不確実性集合の下で,最適なサンプル複雑性$\widetilde{O}(|\mathbf{S}||\mathbf{A}| t_{\mathrm{mix}}^2\varepsilon^{-2})$を達成する。
    • 本研究は,分布ロバストな平均報酬強化学習に対する初の有限サンプル収束保証を提供する。
    • 数値実験により,提案アルゴリズムの収束速度が検証された。

    Link: https://arxiv.org/abs/2505.10007

  • DeepSeekMoE:共有エキスパートと正規化シグモイドゲーティングの統計的利点 [cs.LG, stat.ML]目的:DeepSeekMoEにおける共有エキスパート戦略と正規化シグモイドゲーティングの統計的な利点の検証
    • 大規模言語モデルの性能向上において,MoEは重要な役割を果たしている。
    • DeepSeekMoEの共有エキスパート戦略と正規化シグモイドゲーティングの理論的根拠は未解明であった。
    • DeepSeekMoEの特徴的要素がサンプル効率向上に寄与することを示す。
    • 共有エキスパート戦略と正規化シグモイドゲーティングが,エキスパート推定タスクの収束性を高めることを理論的に示した。
    • 合成データおよび実データを用いた実験により,理論的知見が実証された。
    • ルーターの飽和度,変化率,エキスパートの利用率などを詳細に分析し,ルーターの振る舞いを明らかにした。

    Link: https://arxiv.org/abs/2505.10860

  • 強化学習を用いた大規模言語モデルによる人間意思決定の説明 [cs.AI, cs.CL]目的:人間意思決定の説明生成
    • 認知モデリングは,人間の行動予測と認知メカニズムの解明を目指す重要な研究分野である。
    • 大規模データで学習したニューラルネットワークモデルは予測性能が高いが,解釈可能性に課題がある。
    • 本研究は,予測と解釈可能性を両立する認知モデルの構築を目指す。
    • 強化学習により,大規模言語モデルが人間リスク選択の根拠を自然言語で説明する能力を獲得した。
    • 生成された説明は質の高いものであり,人間の意思決定を定量的に高い精度で予測できた。

    Link: https://arxiv.org/abs/2505.11614

  • Mobile-Bench-v2:VLMベースモバイルエージェントのための,より現実的で包括的なベンチマーク [cs.CL, cs.AI]目的:VLMベースモバイルエージェントの性能評価のためのベンチマーク
    • スマートフォン利用の多様化に伴い,GUI操作や情報処理を行うモバイルエージェントの研究が重要である。
    • 既存のベンチマークは環境変化に弱く,GUIタスクの多様性を捉えきれていない点が課題である。
    • 現実的なノイズ環境下や曖昧な指示に対するエージェントの対応能力を評価するベンチマークを構築する。
    • Mobile-Bench-v2は,多様なタスクと評価方法(オフライン多経路評価,ノイズ環境,プロアクティブな対話)を備えている。
    • 同ベンチマークを用いて,AppAgent-v1やMobile-Agent-v2などの既存エージェントの性能を評価した結果,改善の余地が示された。
    • 本研究で提供するデータセットは,モバイルエージェント研究の発展に貢献すると考えられる。

    Link: https://arxiv.org/abs/2505.11891

  • 動力学系の長期的統計を保持した真のゼロショット推論 [cs.LG, cs.AI, math.DS, nlin.CD]目的:動力学系の生成モデルの推論
    • 気候や脳活動など,複雑な時間発展現象の理解に不可欠であり,その予測や制御に役立つ。
    • 既存の手法は新しいシステムごとに再学習が必要で,汎用性に欠ける点が課題であった。
    • 事前学習により,未知の動力学系に対しても追加学習なしに長期的予測を可能にすることを目指す。
    • DynaMixは,既存の時間系列モデルと比較して,パラメータ数を大幅に削減しつつ,推論速度を向上させた。
    • DynaMixは,学習データに含まれていない実世界の時系列データ(交通量,気象データ等)に対しても,長期的統計において優れた性能を示した。
    • DynaMixは,時間系列予測分野においても,動力学系の原理に基づいたモデルが潜在的な可能性を持つことを示唆している。

    Link: https://arxiv.org/abs/2505.13192

  • 文脈なし合成データによる忘却の緩和 [cs.RO, cs.LG]目的:言語モデルの忘却緩和
    • 言語モデルは多様なタスクに対応可能だが,追加学習で既存能力が低下しやすい。
    • 追加学習時に元の学習データにアクセスできない場合,忘却の抑制が課題となる。
    • 文脈なし合成データを用いて,忘却を緩和する手法を提案する。
    • 文脈なし生成により,KLダイバージェンスを近似的に推定可能となる。
    • ファインチューニングデータに文脈なし生成データを追加することで,忘却が緩和されることが確認された。
    • 事前学習モデルや思考モデルの性能維持に有効であり,文脈あり合成データより優れている。

    Link: https://arxiv.org/abs/2505.13811

  • LLMに対するレッドチーム攻撃のためのコード混合型音韻摂動 [cs.CL, cs.AI]目的:LLMの安全性評価手法
    • LLMの安全性確保は重要であり,その評価手法の確立が求められている。
    • 既存のレッドチーム攻撃は,攻撃成功率の向上に偏りがちで,モデルの根本的な脆弱性特定が不足している。
    • トークナイザーレベルの安全性脆弱性を明らかにし,現在の安全性パイプラインの改善を目指す。
    • 提案手法CMP-RTは,コード混合と音韻摂動を組み合わせることで,安全性に関するトークンを巧みに変更し,LLMの安全対策を回避する。
    • この手法は,標準的な防御策に対して堅牢であり,様々なモデルやモダリティで脆弱性が確認された。
    • Gemini-3-Proを含む最先端モデルに対する攻撃が可能であり,トークナイザーの脆弱性が重要な脅威となる可能性が示唆された。

    Link: https://arxiv.org/abs/2505.14226

  • RePPL:意味的伝播と言語生成における不確実性によるPerplexityの再調整による説明可能なQAハルシネーション検出 [cs.CL, cs.AI]目的:QAにおけるハルシネーション検出のための不確実性再調整手法
    • 大規模言語モデルの信頼性向上には,ハルシネーションの抑制が不可欠である。
    • 既存手法では,ハルシネーション発生源の特定が困難である。
    • 意味的伝播と言語生成における不確実性を考慮し,説明可能な検出を目指す。
    • RePPLは,QAデータセットにおいて,最先端モデルに対して高い検出性能(平均AUC 0.833)を達成した。
    • トークンレベルでの不確実性スコアを提供し,ハルシネーションの説明可能性を実現した。
    • 意味的伝播と言語生成の二側面から不確実性を再調整することで,より信頼性の高い検出が可能となった。

    Link: https://arxiv.org/abs/2505.15386

  • 強化学習における報酬を意識したプロト表現 [cs.CL, cs.CL, cs.LG]目的:強化学習における報酬を考慮したプロト表現の研究
    • 強化学習は,複雑な環境下での最適な意思決定を可能にする重要な技術である。
    • 従来の強化学習手法では,探索や報酬の帰属付け,汎化性能に課題が残されている。
    • 本研究は,報酬情報を組み込んだ新たな表現を用いて,これらの課題を解決することを目指す。
    • 後継表現(SR)と比較して,報酬を意識した定型表現(DR)は質的に異なる行動を示し,定量的に優れた性能を発揮する。
    • 定型表現(DR)は,報酬の形状付け,オプション発見,探索,転移学習など,SRが適用された多くの設定で利点を示す。
    • 定型表現(DR)の学習には,動的計画法や時間的差分学習を用いることができ,そのベクトル空間の基盤が明確化された。

    Link: https://arxiv.org/abs/2505.16217

  • LLMの知的財産保護のための二重レベルフィンガープリンティングフレームワークDuFFin [cs.CR, cs.AI, cs.CL]目的:大規模言語モデルの知的財産保護
    • 大規模言語モデルは高額な学習コストを要するため,知的財産として保護が重要である。
    • 既存のウォーターマークやフィンガープリンティング手法は,生成品質への影響や,モデルへのアクセス制限の問題がある。
    • 本研究は,ブラックボックス環境下でLLMの知的財産を正確に検証する手法を開発する。
    • DuFFinは,トリガーパターンと知識レベルのフィンガープリントを抽出することで,不正なモデルの出所を特定する。
    • オープンソースモデルを用いた実験により,ベースモデルとその派生モデル(ファインチューニング,量子化,安全性調整版)の著作権検証が可能であることが示された。
    • IP-ROC指標は0.95を超える高い精度を達成し,本手法の有効性が確認された。

    Link: https://arxiv.org/abs/2505.16530

  • HyBattNet:リチウムイオンバッテリーの残存寿命予測のためのハイブリッドフレームワーク [cs.LG, cs.AI]目的:リチウムイオンバッテリーの残存寿命予測手法
    • 電動化社会の発展に伴い,バッテリーの信頼性確保が重要課題となっている。
    • バッテリーの劣化状態を正確に把握し,寿命を予測することは困難である。
    • 最新の充放電データから,バッテリーの残存サイクル数を高精度に予測する。
    • 提案手法は,信号前処理パイプラインと深層学習予測モデルを組み合わせることで,高い予測精度を実現した。
    • 特に,ODE-LSTMアーキテクチャが連続的なダイナミクスを捉え,A-LSTMが局所的な時間依存性を捉えることで,予測性能が向上した。
    • 公開データセットを用いた実験により,提案手法が既存手法を上回る性能を示すことが確認された。

    Link: https://arxiv.org/abs/2505.16664

  • U2-BENCH:超音波理解に関する大規模ビジョン言語モデルのベンチマーク [cs.CV, cs.LG]目的:超音波理解における大規模ビジョン言語モデルの性能評価
    • 超音波は世界中の医療において不可欠な画像診断法であり,その普及は重要である。
    • 超音波画像の解釈は,画質やオペレーターの熟練度,解剖学的構造によって左右され,困難を伴う。
    • 大規模ビジョン言語モデルの超音波画像理解能力を評価し,その課題を明確にすること。
    • U2-BENCHは,超音波画像の分類,検出,回帰,テキスト生成タスクを評価する初の包括的なベンチマークである。
    • 評価の結果,画像レベルの分類では良好な性能が示されたが,空間的推論や臨床言語の生成には課題が残る。
    • U2-BENCHは,医療超音波画像という特有のマルチモーダル領域における大規模ビジョン言語モデルの研究を促進する。

    Link: https://arxiv.org/abs/2505.17779

  • ポーズスプラッター:動物の姿勢と外観を定量化するための3Dガウススプラッティングモデル [cs.CL, cs.CV, cs.LG]目的:動物の姿勢と外観の定量化
    • 行動研究において,動物の姿勢と外観の正確な定量化は不可欠である。
    • 既存の3D姿勢推定技術は,表現力の限界,煩雑なアノテーション,計算コストの問題を抱える。
    • 動物の形状知識やフレームごとの最適化,手動アノテーションなしで姿勢と外観をモデル化すること。
    • Pose Splatterは,マウス,ラット,シマメドリのデータセットにおいて,正確な3D動物形状を学習することを示した。
    • Pose Splatterは,微細な姿勢の変化を捉え,最先端技術と比較して優れた低次元姿勢埋め込みを提供することが示された。
    • アノテーションやフレームごとの最適化のボトルネックを解消し,遺伝子型,神経活動,行動の高解像度マッピングを可能にする。

    Link: https://arxiv.org/abs/2505.18342