arXiv雑要約

AI - 2025/12/17 公開

  • 言語モデルにおける拡張文脈知識のプライバシー漏洩推定 [cs.CL, cs.LG]目的:言語モデルにおける拡張文脈知識のプライバシー漏洩の評価
    • 言語モデルは多様なタスクで活用され,その応用範囲は広がり続けている。
    • 文脈知識に個人情報が含まれる場合,その漏洩リスク評価が課題となっていた。
    • 拡張文脈知識によるプライバシー漏洩を正確に評価する手法を提案すること。
    • 提案手法である「文脈影響度」は,微分プライバシーに基づき,文脈知識の漏洩リスクを定量的に評価する。
    • 文脈知識が言語モデルのパラメータ知識と分布が異なる場合に,プライバシー漏洩が発生することが示された。
    • モデルサイズ,文脈サイズ,生成位置などがプライバシー漏洩に影響を与えることが実験的に確認された。

    Link: https://arxiv.org/abs/2410.03026

  • 疎な変換分析に基づく教師なし表現学習 [cs.LG, cs.CV]目的:系列データからの表現学習
    • 表現学習は,機械学習の基礎であり,データから有用な特徴量を自動的に抽出する上で重要である。
    • 既存の表現学習は,複雑なデータ構造を捉えきれず,汎化性能が低い場合がある。
    • 潜在変数の変換を疎な成分に分解することで,より解釈可能で汎化性能の高い表現学習を実現する。
    • 提案手法は,潜在活性化の分布を確率フローモデルを用いて変換し,疎な変換場を学習する。
    • 学習された表現は,独立な因子だけでなく,独立な変換素因子の組み合わせによって特徴付けられる。
    • 系列変換データセットにおいて,データ尤度と近似的な等変誤差の点で最先端の結果を達成した。

    Link: https://arxiv.org/abs/2410.05564

  • COMMA:コミュニケーションを伴うマルチエージェントのベンチマーク [cs.AI]目的:マルチエージェントシステムの協調的性能評価
    • 大規模基盤モデルに基づくマルチモーダルエージェントは急速に進歩しているが,実世界への応用には課題がある。
    • 既存のベンチマークは,エージェント間コミュニケーションや情報非対称性といった重要な側面を扱っていない。
    • エージェント間の言語ベースコミュニケーション能力を評価し,協調作業における課題解決を目指す。
    • 最先端モデル(GPT-4o等)において,協調的なコミュニケーション能力に弱点が見られた。
    • R1-OnevisionやLLaVA-CoTといった思考連鎖モデルは,ランダムベースラインと遜色ない結果に留まった。
    • エージェント間コミュニケーション能力の向上が,今後の重要な研究課題であることが示唆された。

    Link: https://arxiv.org/abs/2410.07553

  • マイクロサービスシステムにおけるオンライン多種別データに基づく根本原因特定 [cs.LG, cs.AI]目的:マイクロサービスシステムの根本原因の特定
    • マイクロサービスアーキテクチャの普及に伴い,障害発生時の迅速な原因特定が重要となっている。
    • 従来の根本原因分析手法は計算コストが高く,オンラインでの適用が困難であった。
    • 多種別データを統合的に解析し,オンラインで効率的に根本原因を特定することを目指す。
    • 提案手法OCEANは, dilated CNNとGNNを組み合わせ,時系列依存性と因果関係を学習する。
    • 多要素アテンション機構により,異なる指標間の関係性を再評価し,オンライン因果グラフ学習を強化する。
    • コントラスト相互情報最大化に基づくグラフ融合モジュールにより,多様なモダリティ間の関係性を効果的にモデル化する。

    Link: https://arxiv.org/abs/2410.10021

  • 多変量時系列のための透明なネットワーク [cs.LG, cs.CY]目的:多変量時系列データに対する解釈可能性の高い予測モデル
    • 重要な意思決定を伴う分野で,予測の根拠が求められる場面が増加している。
    • 時系列データは実世界で多く存在するが,透明性の高い時系列モデルの研究は不足している。
    • 解釈可能性を保ちつつ,時系列データのパターンを効果的に捉えるモデルを構築すること。
    • 提案手法GATSMは,既存の加法モデルを大幅に上回り,ブラックボックスモデルと同等の性能を達成した。
    • GATSMは,独立した特徴ネットワークと透明な時間モジュールにより,可変長の時系列データに対応可能である。
    • 実験により,GATSMが時系列データから興味深いパターンを発見できることが示された。

    Link: https://arxiv.org/abs/2410.10535

  • チェイス匿名化:論理推論を用いたプライバシー保護ナレッジグラフ [cs.DB, cs.AI, cs.CR]目的:ナレッジグラフの共有とプライバシー保護
    • 知識グラフは,様々な分野で活用が進んでいる重要な技術である。
    • 知識グラフの共有は,プライバシー侵害のリスクを伴うという課題がある。
    • 派生的な知識からの間接的な情報漏洩を防ぐ匿名化手法を確立すること。
    • 提案手法は,ノードやエッジの追加・再ラベル付け,重みの摂動によって,プライバシーを保護したナレッジグラフを生成する。
    • 派生知識を考慮した新たなプライバシー指標と,ビジネスの意味を保持するユーティリティ指標を導入した。
    • 合成グラフと実世界のデータセットを用いた実験により,提案手法の有効性が確認された。

    Link: https://arxiv.org/abs/2410.12418

  • 拡散言語モデルによるテキスト誘導型多特性分子最適化 [cs.LG, cs.AI]目的:テキストによる指示に基づいた分子の多特性最適化手法
    • 創薬において重要な段階であり,実用的な分子を生成・最適化するニーズが高い。
    • 既存手法は外部の予測器に依存するため,化学空間の広大さから近似誤差が生じやすい。
    • テキストによる記述を利用し,誤差の伝播を抑制することで,より正確な最適化を目指す。
    • 拡散言語モデル(TransDLM)が,分子の構造保持と特性向上を両立することを示した。
    • 標準化された化学名とテキスト記述を融合することで,多様な情報を効果的に統合した。
    • ベンチマークデータセットにおいて,最先端手法を上回る性能を達成した。

    Link: https://arxiv.org/abs/2410.13597

  • リストワイズアラインメントのための包括的なユーティリティ優先度学習 [cs.IR, cs.AI, cs.CL, cs.LG]目的:言語モデルと人間の選好のアラインメント
    • 言語モデルの対話品質と安全性を向上させるためには,人間の価値観を反映することが重要である。
    • 既存の手法はペアごとの比較に焦点を当てており,複数の応答間の総合的な順位関係を捉えきれない。
    • 応答リスト全体の選好順位を最適化し,より識別的な応答を生成することを目指す。
    • DRPOは,既存手法と比較して,生成される応答の品質を向上させることを示した。
    • 本研究では,人間の選好アラインメントをLearning-to-Rankタスクとして捉えるDRPOを提案した。
    • 非微分可能なNDCGを扱うため,微分可能な近似であるdiffNDCG損失と,適応的なランクポリシーを導入した。

    Link: https://arxiv.org/abs/2410.18127

  • 腎細胞癌のサブタイプ分類:多解像度局在化からの学習 [cs.CV, cs.AI, cs.LG]目的:腎細胞癌のサブタイプ分類手法の開発
    • 腎細胞癌は発見が遅れる傾向があり,高い死亡率を伴うため,早期診断が重要である。
    • 教師あり機械学習の性能向上のためには注釈付きデータセットが必要だが,その数が限られている。
    • 注釈付きデータセットの必要量を削減しつつ,診断精度を維持することを目的とする。
    • 提案手法は,腎癌のサブタイプ分類において,既存の最先端手法と比較して同等以上の性能を示した。
    • 多解像度画像を用いた自己教師あり学習により,注釈付きデータセットが少ない状況でも,高い分類能力を実現した。
    • 本研究は,組織学的サンプルの多解像度特性に着目した新たな学習戦略の有効性を示唆している。

    Link: https://arxiv.org/abs/2411.09471

  • RepoTransBench: リポジトリレベルのコード翻訳のための現実世界型多言語ベンチマーク [cs.SE, cs.AI, cs.CL]目的:リポジトリレベルのコード翻訳の性能評価
    • ソフトウェア開発における言語移行の需要が高まっており,自動化された翻訳技術の重要性が増している。
    • 既存のベンチマークは細粒度のサンプルに偏っており,現実のプロジェクト全体を翻訳する際の課題を捉えられていない。
    • 現実世界の規模と複雑さを持つリポジトリレベルのコード翻訳を評価するためのベンチマークを提供すること。
    • 本研究では,1,897のリポジトリサンプルを含む多言語ベンチマークRepoTransBenchを提案し,リポジトリレベルの翻訳の難しさを明らかにした。
    • 最適な手法でも成功率は32.8%にとどまり,動的言語から静的言語への翻訳が特に困難であることが示された。
    • 大規模言語モデル(LLM)の課題を詳細に分析し,今後の改善に向けた指針を提示した。

    Link: https://arxiv.org/abs/2412.17744

  • 共有DIFF Transformer [cs.LG]目的:注意機構の最適化
    • Transformerは自然言語処理の基盤技術であり,高性能なモデル構築に不可欠である。
    • 従来のTransformerは,長い系列データにおいて注意機構の効率性が課題となっていた。
    • DIFF Transformerの冗長性を改善し,より効率的な注意機構を提案する。
    • 提案手法は,共有基底行列と低ランク更新を用いることで,パラメータの冗長性を大幅に削減した。
    • 長系列モデリング,キー情報検索,文脈学習などのタスクにおいて,DIFF Transformerを上回る性能を示した。
    • 差分注意機構の最適化と,ロバストなTransformerアーキテクチャの発展に貢献する。

    Link: https://arxiv.org/abs/2501.17900

  • 多様なデータソースとノイズの種類における心電図ノイズ検出の一般化可能性の調査 [cs.LG]目的:心電図ノイズ検出の一般化可能性
    • 心電図は心臓の健康状態をモニタリングする上で不可欠であり,不整脈の検出や心血管疾患の診断に用いられる。
    • ウェアラブルデバイスで記録された心電図は,動きや筋肉活動によるノイズの影響を受けやすく,正確な解析を妨げる。
    • 異なるセンサーと記録環境でのノイズ検出手法の汎用性を評価し,よりロバストな手法を確立することを目指す。
    • 提案手法は,4つのデータセットを用いたクロスデータセット実験において,90%を超える平均精度と90%を超えるAUPRCを達成した。
    • 未知のデータセットに対しても高い性能を示し,多様なデータソースへの適応性を持つことが示された。
    • ノイズアノテーション付きの心電図データセットを公開し,再現性と今後の研究を支援する。

    Link: https://arxiv.org/abs/2502.14522

  • 時系列予測のための自己教師ありラベリング:全てのデータが良いラベルとは限らない [cs.LG, cs.AI]目的:時系列予測データセットの再ラベリング手法
    • 時系列予測は多様な分野で重要であり,その精度向上は喫緊の課題である。
    • 既存手法では,高品質なデータへの依存度が高く,利用可能なデータ全てを有効活用できていない。
    • 自己教師あり学習により,データセットの構築と汎化性能の向上を目指す。
    • 自己修正型適応マスク(SCAM)は,過学習成分を排除し,再構成から生成された擬似ラベルで選択的に置換する。
    • スペクトルノルム正則化(SNR)を導入することで,損失関数の風景から過学習を抑制する。
    • 11の現実世界のデータセットを用いた実験で,SCAMが様々なバックボーンモデルの性能を安定的に向上させることが示された。

    Link: https://arxiv.org/abs/2502.14704

  • 金融テキストにおけるESG活動検出のための大規模言語モデルの最適化 [cs.AI, cs.CE, cs.CL, cs.CY, cs.IR]目的:金融テキストにおけるESG活動検出のための大規模言語モデル最適化手法
    • 持続可能な金融において,企業が環境,社会,ガバナンス(ESG)要素を考慮することは不可欠である。
    • ESG関連の規制は変化が激しく,企業の事業慣行がこれらに準拠しているかを確認することは課題である。
    • ESG活動の特定精度を高め,透明性とコンプライアンスを向上させることを目指す。
    • 既存の大規模言語モデル(LLM)では,特定の分野での性能が課題であったが,本研究ではファインチューニングによって大幅な改善を実証した。
    • EU ESGタクソノミーに基づいたベンチマークデータセット「ESG-Activities」を新たに構築し,公開した。
    • Llama 7BやGemma 7Bといったオープンモデルが,特定の構成において大規模な商用モデルを上回る性能を示した。

    Link: https://arxiv.org/abs/2502.21112

  • グループロバストな機械的アンラーニング [cs.LG, cs.AI]目的:特定の訓練データの影響除去と,それ以外のデータ知識の維持
    • プライバシー保護の重要性が増しており,データ削除要求への対応が求められている
    • 従来のアンラーニング手法は,忘却データが均一に分布していることを前提としている
    • 特定のグループに偏った忘却データによる公平性の問題を解決する
    • 提案手法は,サンプル分布の再重み付けにより,主要グループにおける性能低下を緩和する。
    • MIUは,モデル特徴量とグループ情報の間の相互情報量を最小化し,公平性を保ちながらアンラーニングを実現する。
    • 実験結果から,MIUは標準手法よりも優れており,モデルのロバスト性を損なうことなくアンラーニングを達成できることが示された。

    Link: https://arxiv.org/abs/2503.09330

  • 制約なしマルコフ整合SCM生成:因果発見のためのより良いベンチマークデータセット [cs.LG]目的:因果関係の定性的な知識抽出のためのベンチマークデータセットの改善
    • 因果発見は,データから因果関係を明らかにする重要な研究分野である。
    • 既存のSCM生成手法には,現実離れした特性(変数分散の増加など)が見られる。
    • より現実的なSCM生成方法を開発し,因果発見アルゴリズムの評価を改善する。
    • 本研究では,現実データに期待される特性を考慮した係数生成法を提案した。
    • 提案手法は,既存のSCM生成手法に見られる人工的な特性を回避し,より多様なSCMを生成する。
    • さらに,提案手法を時系列データに拡張する新しい手法を提案した。

    Link: https://arxiv.org/abs/2503.17037

  • トレースガジェット:機械学習ベースの脆弱性予測におけるコードコンテキストの最小化 [cs.IR, cs.CR, cs.AI]目的:機械学習を用いた脆弱性予測におけるコードコンテキストの最小化手法
    • Webアプリケーションの増加に伴い,脆弱性の検出は不可欠である。人的な検査は手間がかかる。
    • 静的解析ツールは誤検知が多く,機械学習はデータ依存性が高いという課題がある。
    • 脆弱性検出に必要な最小限のコードコンテキストを抽出することで,機械学習の性能向上を目指す。
    • トレースガジェットは,脆弱性へのパスを網羅する関連コードのみを抽出することで,コンテキストを最小化する。
    • 実験の結果,既存の手法と比較して,トレースガジェットを用いることで,機械学習モデルの性能が向上することが示された。
    • GitHub CodeQL等の既存の静的解析ツールを少なくとも4%上回る検出能力を示し,未知の脆弱性を発見することに貢献する。

    Link: https://arxiv.org/abs/2504.13676

  • リソース制約のある環境における教育ガイダンスのためのLLMのファインチューニングへのLoRAベースのアプローチ [cs.AI]目的:教育ガイダンスにおけるLLMのファインチューニング手法
    • LLMは教育分野に革新をもたらす可能性を秘めるが,その導入にはコストと計算資源が必要となる。
    • LLMのファインチューニングは計算コストが高く,リソースの限られた教育機関での導入が困難である。
    • 低リソース環境でもLLMを教育ガイダンスに活用するための効率的なファインチューニング手法を確立する。
    • LoRAと4ビット量子化を用いた手法により,学習損失を52.7%削減することに成功した。
    • ドメイン固有の推奨において92%の精度を達成し,Markdown形式のサポートも95%を実現した。
    • 市販のGPUで1秒あたり100サンプルを処理できる効率性を持ち,実用的な応用が可能であることが示された。

    Link: https://arxiv.org/abs/2504.15610

  • ソフトマックス注意を用いた汎用近似 [cs.LG, cs.AI, stat.ML]目的:連続的なシーケンス to シーケンス関数の汎用近似能力
    • Transformerモデルの理論的理解を深める上で重要である。
    • Transformerにおける注意機構の近似能力の厳密な証明が不足していた。
    • 注意機構のみでシーケンス to シーケンス関数を近似できることを示す。
    • 線形変換を用いることで,2層の自己注意と1層の自己注意にソフトマックス関数を組み合わせたものが,コンパクト領域における連続シーケンス to シーケンス関数の汎用近似器となることを証明した。
    • 自己注意機構はReLU関数の一般化されたバージョンを任意の精度で近似可能であり,既存の汎用近似器を包含することを発見した。
    • 多頭注意機構のみでもシーケンス to シーケンス関数の汎用近似が可能であり,従来のTransformerの汎用近似証明におけるフィードフォワードネットワークの必要性を排除した。

    Link: https://arxiv.org/abs/2504.15956

  • 安定した軌跡クラスタリング:効率的な分割・統合アルゴリズム [cs.LG, cs.CG]目的:軌跡データのクラスタリング手法
    • 人,動物,車両などの移動軌跡分析は,行動や移動パターンを理解する上で重要である。
    • 一時的な異常値によって軌跡が分割され,本来の一貫したクラスタリングが阻害される場合がある。
    • 一時的な変動を適切に無視することで,より安定したクラスタリングを実現することを目指す。
    • 本研究では,DBSCAN線分クラスタリングに基づき,分割・統合イベントを利用したクラスタリングアルゴリズムを提案した。
    • 提案アルゴリズムは,平均絶対偏差の概念を用いることで,一時的な変動を抑制し,クラスタの安定性と解釈性を向上させる。
    • 実データを用いた評価により,提案手法の有効性とパラメータへの感度が示された。

    Link: https://arxiv.org/abs/2504.21808

  • ループを閉じる:オープンループベンチマークを超えた行動予測モデル [cs.RO, cs.AI, cs.SY, eess.SY]目的:行動予測モデルと経路計画の相互作用の評価
    • 自動運転の安全性向上には,正確な行動予測が不可欠である。予測精度向上は,事故回避に直結する。
    • 既存のベンチマークは,オープンループでの精度向上に偏重しており,実際の自動運転システムへの組み込みやすさを評価していない。
    • オープンループの精度向上とクローズドループでの運転性能の関係を明らかにし,より実用的なモデルを探索する。
    • オープンループの予測精度とクローズドループでの運転性能は必ずしも相関しないことが示された。
    • 予測の時間的一貫性や経路計画との適合性も,運転性能に重要な役割を果たすことが判明した。
    • パラメータ数を最大86%削減した小型モデルが,同等または優れた運転性能を示す場合があることが明らかになった。

    Link: https://arxiv.org/abs/2505.05638

  • FreeKV:効率的なLLM推論のためのKVキャッシュ検索の高速化 [eess.SY, cs.SY, cs.LG, cs.AI, cs.CL]目的:LLM推論におけるKVキャッシュ検索効率の向上
    • 大規模言語モデルの利用拡大に伴い,長いコンテキスト長の処理が重要となっている。
    • コンテキスト長に比例して増大するKVキャッシュが,デプロイメントの大きな課題となっている。
    • KVキャッシュ検索における効率性のボトルネックを解消し,精度を維持することを目的とする。
    • FreeKVは,推測的検索と微調整された修正により,KVキャッシュ検索効率を向上させる。
    • CPUとGPUメモリ間のハイブリッドKVレイアウトとダブルバッファリングにより,データ転送を削減し効率を高める。
    • 様々なシナリオとモデルにおいて,既存のKVキャッシュ検索手法と比較して最大13倍の高速化を達成した。

    Link: https://arxiv.org/abs/2505.13109

  • 臨床試験100万件を用いた臨床研究向け大規模言語モデルの開発 [cs.AI]目的:臨床研究用大規模言語モデルの構築
    • 臨床研究の効率化と質の向上に,AI技術の応用が期待されている。
    • 既存の言語モデルは,臨床分野特有の知識や推論能力に課題がある。
    • 臨床試験データを活用し,臨床推論能力に優れた言語モデルを開発する。
    • 臨床試験記録160万件を統合したTrialPanoramaを構築した。
    • 構築したデータセットを用いて,8つの臨床研究タスクを評価した。
    • 80億パラメータの言語モデルが,700億パラメータの汎用モデルを上回る性能を示した。

    Link: https://arxiv.org/abs/2505.16097

  • CiRL:循環経済とネットゼロに向けた強化学習環境のオープンソース [cs.CY, cs.CE, cs.LG]目的:循環経済およびネットゼロにおける強化学習のための環境
    • 現代社会を支える有限な資源の需要は増加の一途を辿っており,持続可能な資源管理が不可欠である。
    • 短期的な脱炭素化が難しく,ネットゼロ目標の達成は困難であり,新たなアプローチが求められている。
    • 物質循環を最適化するためのAI駆動型行動を生成し,マテリアルフロー分析と連携することで課題解決を目指す。
    • CiRLは,固体および流体材料の両方の循環制御に焦点を当てた,強化学習環境のライブラリである。
    • 熱力学的物質ネットワークの形式主義に基づき,状態空間形式を採用することで動的システム解析との親和性を高めている。
    • Google Colaboratoryで開発され,学際的な研究者やエンジニアがアクセスしやすい環境を提供する。

    Link: https://arxiv.org/abs/2505.21536

  • 生成敵対ネットワークとアンサンブル分類による抗菌ペプチド同定の改善 [cs.LG, cs.AI]目的:抗菌ペプチドの同定精度向上
    • 感染症治療において,抗菌薬耐性菌の出現が深刻化しており,新たな抗菌物質の開発が急務である。
    • 既存の抗菌ペプチド同定方法では,精度が十分でなく,効率的なスクリーニングが困難である。
    • 機械学習を用いて抗菌ペプチドの同定精度を向上させ,新規抗菌物質開発を加速させる。
    • 提案手法は,既存の手法と比較して,抗菌ペプチドの予測精度と効率において有意な改善を示した。
    • 異なる特徴量コーディング方法を組み合わせ,不均衡データセットを調整する深層ニューラルネットワークを導入した点が奏功した。
    • 本研究の成果は,医学および製薬分野における抗菌ペプチドの予測と分類に貢献すると期待される。

    Link: https://arxiv.org/abs/2506.01983

  • VIBE:VLMは状況を読み取れるか? [cs.CV, cs.LG]目的:視覚的社会的・語用推論能力
    • 人間社会の理解は重要であり,感情や社会状況の理解は困難である。
    • 既存のVLMは非言語的情報に基づいた社会状況の推論が苦手である。
    • VLMにおける視覚的社会的・語用推論のギャップを明らかにし,克服すること。
    • 本研究では,VLMが社会状況を読み取る能力に焦点を当て,新しい評価タスクを提案した。
    • 高品質なデータセットを構築し,複数のVLMの性能を評価した結果,課題が残ることが示された。
    • VLMの社会状況理解には,視覚情報と言語情報の統合が不可欠であることが確認された。

    Link: https://arxiv.org/abs/2506.11162

  • マルチエージェント人間の軌跡予測における最近の進歩:包括的なレビュー [cs.CV, cs.LG, cs.RO]目的:マルチエージェント人間の軌跡予測に関する最近の研究動向の整理
    • 社会ロボット,自動運転,群衆モデリングなど,様々な分野で人間の行動予測の重要性が高まっている。
    • 複数のエージェント間の相互作用を正確にモデル化することが困難であり,予測精度向上の課題となっている。
    • 深層学習に基づくマルチエージェント軌跡予測の進歩を体系的に整理し,今後の研究方向性を示す。
    • 本レビューでは,2020年から2025年の間に発表された研究を,アーキテクチャ,入力表現,予測戦略に基づいて分類した。
    • ETH/UCYベンチマークを用いて評価されたモデルに焦点を当て,既存手法の現状を詳細に分析した。
    • マルチエージェント軌跡予測における重要な課題と将来の研究の方向性について言及した。

    Link: https://arxiv.org/abs/2506.14831

  • 個別化およびラベルなし心臓不整脈検出のための多様体学習 [cs.LG, eess.SP]目的:心臓不整脈の個別化されたラベルなし検出
    • 心電図は心疾患の診断に不可欠であり,その解析の自動化が求められている。
    • 心電図信号の個人差やデータのラベルのばらつきが,機械学習の精度を低下させている。
    • ラベルや事前知識なしに,心電図信号から臨床的に重要な特徴を抽出することを目指す。
    • 非線形次元削減により,心電図信号から視覚的に分離可能なクラスタを生成できた。
    • 生成された潜在空間は,個人識別において90%以上の精度を示した。
    • 単一患者のデータでは,不整脈の識別において98.96%の中央値精度と91.02%のF1スコアを達成した。

    Link: https://arxiv.org/abs/2506.16494

  • 強化学習によるファインチューニングが,MLLMで既存知識をより良く保持する理由:データに関する考察 [eess.SY, cs.SY, cs.CL, cs.AI]目的:マルチモーダル大規模言語モデルにおける既存知識の保持に関する研究
    • 近年,画像とテキストを同時に処理するMLLMが発展している。その性能向上が期待されている。
    • ファインチューニングはタスク適応に有効だが,既存知識への影響は不明であり,忘却の問題が存在する。
    • 強化学習によるファインチューニングが既存知識を保持するメカニズムを解明し,安定的な継続学習を目指す。
    • 強化学習(RFT)は,教師あり学習(SFT)に比べて学習速度は遅いが,既存知識の保持に優れていることが示された。
    • RFTは,ベースモデルの確率分布に自然に整合する正例を強化することで,既存知識への干渉を抑制すると考えられる。
    • RFTでシミュレートされたロールアウトで学習したSFTは,新しいタスクを迅速に学習しながら,既存知識をより良く保持できることが示唆された。

    Link: https://arxiv.org/abs/2506.23508

  • 言語モデルの小バッチサイズ学習:バニラSGDが有効な場合と,勾配累積が無駄になる理由 [cs.LG]目的:言語モデルの小バッチサイズ学習における最適ハイパーパラメータの決定
    • 言語モデルの性能向上には,計算資源と学習安定性の両立が重要である。
    • 小バッチサイズは学習を不安定化すると考えられ,勾配累積が用いられてきた。
    • 小バッチサイズでも安定した学習が可能となるハイパーパラメータ設定を探る。
    • 小バッチサイズ(バッチサイズ1を含む)は,安定して学習可能であることが示された。
    • 小バッチサイズは,ハイパーパラメータの選択に対してよりロバストである。
    • 小バッチサイズとAdamのハイパーパラメータ調整により,バニラSGDでも安定した学習が可能となった。

    Link: https://arxiv.org/abs/2507.07101

  • シリコンからスパイクへ:正確なイベント駆動型学習によるニューロモーフィックコンピューティングにおけるシステム全体の効率向上 [cs.NE]目的:ニューロモーフィックコンピューティングにおけるシステム全体の効率向上
    • 低消費電力な情報処理への期待から,スパイクニューラルネットワークの研究が盛んに行われている。
    • 既存の学習方法は近似勾配法や密な時系列シミュレーションに依存しており,ハードウェアの制約と矛盾する。
    • 正確な勾配計算により,スパイクタイミングとハードウェアノイズに対する耐性を向上させる。
    • 本手法は,シナプス重み,伝達遅延,閾値の学習をイベント駆動型で正確に行うことで,メモリトラフィックを最大24倍削減した。
    • 複数のイベントストリームベンチマークにおいて,従来の勾配法と比較して最大7%の精度向上を達成した。
    • イベントスパースな実行とニューロンダイナミクスの整合性が,機能性能と資源効率を同時に改善することを示唆している。

    Link: https://arxiv.org/abs/2507.10568

  • 大規模MIMOシステムにおける時間的チャネル予測に基づくDM-RS割り当て規格準拠 [eess.SY, cs.AI, cs.SY, eess.SP]目的:時間的チャネル予測に基づくDM-RS割り当て手法
    • 次世代5G以降の通信において,アンテナ数の増加に伴うCSIフィードバック量の増大が課題となっている。
    • CSI圧縮や予測の研究が進むも,DM-RS割り当てに関する検討が十分に進んでいない。
    • CSIフィードバックなしでデータスループットを向上させるDM-RS割り当て手法を提案し,規格適合性を確保する。
    • 提案手法であるCPRSは,チャネル予測とDM-RS割り当てを同時に最適化することで,CSIフィードバックを必要とせずにデータスループットを向上させる。
    • ViViT/CNNベースの規格準拠アーキテクチャにより,動的な環境下での効率的かつ適応的な伝送を実現する。
    • NVIDIA Sionnaで生成されたレイトレーシングチャネルデータを用いたシミュレーションにより,提案手法が既存手法と比較して最大36.60%のスループット改善を示すことが確認された。

    Link: https://arxiv.org/abs/2507.11064

  • テスト時計算量と精度の逆の関係 [cs.AI, cs.CL]目的:大規模推論モデルにおける推論長の拡張が性能低下を引き起こす評価タスクの構築
    • 大規模言語モデルの能力向上には,計算資源の拡張が不可欠である。
    • 推論長を単純に拡張することで,必ずしも性能が向上するとは限らない。
    • テスト時計算量の増加が引き起こす問題点と,その改善策の検討。
    • 推論長が長くなるにつれて,Claudeモデルは無関係な情報に注意を奪われやすいことが判明した。
    • OpenAIのo-seriesモデルは注意散漫に抵抗するものの,問題の形式に過剰適合する傾向がある。
    • モデルは合理的な事前知識から誤った相関関係へとシフトし,複雑な推論課題への集中が困難になる。

    Link: https://arxiv.org/abs/2507.14417

  • K-12教育者によるAI活用:大規模な定性分析におけるLLM支援 [cs.HC, cs.AI]目的:K-12教育者による生成AIツールの実際の教育現場での利用状況,および大規模な定性分析におけるLLMの支援
    • 教育現場におけるAI技術の導入は,教育の質向上や個別最適化に不可欠であり,その活用法を探求する必要がある。
    • 教育者とAI間のインタラクションは複雑であり,その定性的な分析には膨大な時間と労力がかかるという課題がある。
    • LLMを活用した定性分析パイプラインを構築し,教育者行動の分析を効率化し,AI教育ツールの設計に貢献することを目指す。
    • 教育者は,授業計画,個別指導,評価,教育的考察のためにAIを活用している具体的なパターンが明らかになった。
    • LLM支援による定性分析パイプラインの実現可能性が示され,大規模な教育者行動の分析に貢献できることが示唆された。
    • 研究者の概念的統合を維持しつつ,LLMが帰納的テーマの発見,コードブックの開発,大規模なアノテーションを支援することが確認された。

    Link: https://arxiv.org/abs/2507.17985

  • 未計測流域における河川流量予測のためのマルチモデルアンサンブルとリザバーコンピューティング [cs.LG, physics.geo-ph]目的:未計測流域における河川流量予測手法の開発
    • 正確な洪水予測は不可欠だが,河川流量の観測データが不足している地域が多い。
    • データ不足下では,高精度,解釈可能性,効率性を両立した流量予測が困難である。
    • 流域特性に基づいてモデルの重みを推定し,汎用性の高い予測フレームワークを構築する。
    • HYPERは,データ豊富な状況下でLSTMと同等の性能(NSE 0.59)を示し,計算コストはLSTMの3%で済んだ。
    • データが少ない状況下(流域の20%のみ観測)では,HYPERは堅牢な性能(NSE 0.51)を維持したのに対し,LSTMは大幅に性能が低下した(NSE -0.61)。
    • HYPERは,個別のモデルの較正を不要とし,データ不足地域におけるスケーラブルで解釈可能な流量予測を可能にする。

    Link: https://arxiv.org/abs/2507.18423

  • 組織病理画像と分子プロファイルの多岐にわたる表現学習のためのマスクオミクスモデリング [eess.SY, cs.SY, math.OC, math.RA, cs.LG, cs.AI]目的:組織病理画像と多岐にわたるオミクスデータの統合
    • がん研究において,組織病理画像と分子プロファイルの多角的解析は,より精密な診断と治療に不可欠である。
    • 組織病理画像だけでは分子生物学的な複雑さを捉えきれず,多岐にわたるオミクスデータの活用が課題となっていた。
    • 組織病理画像とオミクスデータの関係性を学習し,単独または組み合わせによる解析性能の向上を目指す。
    • MORPHEUSは,組織病理画像とオミクスデータを統合的に学習する新しい事前学習戦略であり,多様なタスクとモダリティの組み合わせにおいて,既存手法を上回る性能を示した。
    • マスクオミクスモデリングという手法を用いることで,モデルは有効なクロスモーダルな関係性を学習することが可能となった。
    • MORPHEUSは,組織病理画像を含む任意のモダリティの組み合わせから,他のオミクスプロファイルを再構成する機能も有しており,汎用的な事前学習エンコーダーとして活用できる。

    Link: https://arxiv.org/abs/2508.00969

  • CADDesigner:汎用エージェントに基づくCADモデルの概念設計 [cs.AI, cs.CL]目的:CADモデルの概念設計
    • 産業製造においてCADは不可欠だが,高度な専門知識が求められる。
    • CAD利用の敷居が高く,設計効率が課題となっている。
    • LLMを活用し,対話を通じて要件を明確化,設計を支援する。
    • 本手法は,高度なCADコード生成能力を持つエージェントを実現した。
    • 新規パラダイムECIPにより,高品質なCADモデリングコード生成が可能となった。
    • 生成された設計事例の知識ベース構築により,継続的な性能向上が期待できる。

    Link: https://arxiv.org/abs/2508.01031

  • TIBSTC-CoT:言語モデルにおける思考連鎖のための多領域指示データセット [cs.CL, cs.AI]目的:チベット語における思考連鎖推論のための多領域指示データセット
    • 少数言語の言語処理は,文化的多様性の維持と情報格差の解消に不可欠である。
    • チベット語のような少数言語では,大規模言語モデルの学習に必要なデータが極端に不足している。
    • 大規模言語モデルを活用し,チベット語の思考連鎖推論能力を向上させるためのデータセット構築を試みる。
    • チベット語の多領域データセットTIBSTC-CoTを,大規模言語モデルを用いた思考連鎖プロンプティングにより自動構築した。
    • TIBSTC-CoTを用いて学習したSunshine-thinkingモデル群は,高度な推論・生成性能を示し,最先端の多言語モデルに匹敵する性能を実現した。
    • 本研究は,リソースの創出とモデルの革新を通じて,質の高いチベット語処理を可能にし,包括的なAIの実現に貢献する。

    Link: https://arxiv.org/abs/2508.01977

  • 深部病変セグメンテーションのためのText Embedded Swin-UMamba [cs.CY, cs.CV, cs.AI]目的:CT画像における病変のセグメンテーション
    • 慢性疾患(リンパ腫など)の臨床評価において,病変の自動計測は不可欠である。
    • 画像特徴と放射線レポートの病変記述を組み合わせる方法が課題となっていた。
    • 画像とテキスト情報を統合し,病変セグメンテーションの精度向上を目指す。
    • 提案手法は,テストデータセットにおいて高いDice係数(82.64)と低いHausdorff距離(6.34ピクセル)を達成した。
    • LLM駆動型モデルLanGuideMedSegと比較して37.79%の性能向上(p < 0.001)を示した。
    • 画像ベースのXLSTM-UNetやnnUNetと比較しても,それぞれ2.58%,1.01%高い性能を示した。

    Link: https://arxiv.org/abs/2508.06453

  • 原子力発電所信号における同時リプレイ攻撃の局所化のための教師なし深層説明可能AIフレームワーク [cs.LG]目的:原子力発電所信号における同時リプレイ攻撃の局所化
    • 次世代原子炉はデジタル制御に依存するため,データの完全性確保が安全な運転に不可欠である。
    • 既存手法は,リプレイ攻撃の根本原因の特定や実データを用いた説明可能性に課題がある。
    • 動的な原子炉プロセスにおけるリアルタイムリプレイ攻撃の検出,発生源特定,時間,種類を明らかにすること。
    • 提案するXAIフレームワークは,実データセットを用いてリプレイ攻撃の検出と発生源の特定に高い精度を示した。
    • 複数の信号が同時にリプレイされる場合でも,攻撃の持続時間と信号数を95%以上の精度で特定できた。
    • オートエンコーダとwindowSHAPアルゴリズムの組み合わせにより,リプレイ攻撃の特性を包括的に捉えることが可能となった。

    Link: https://arxiv.org/abs/2508.09162

  • 文脈内ニューラル誤り集による検索拡張フィードバック [cs.LG, cs.AI, cs.CL]目的:大規模言語モデルにおけるマルチモーダル推論の強化
    • 大規模言語モデルの発展は,再学習なしに適応する文脈内学習を可能にした。
    • 誤りからの学習は重要だが,特にマルチモーダルモデルではエラー分析・改善の構造的枠組みがない。
    • 構造化されたフィードバックにより,マルチモーダル推論の効率性と精度を向上させる。
    • REFINEは,エラーを体系化し,的確なフィードバックを提供する教師・生徒フレームワークである。
    • Feed-Target,Feed-Check,Feed-Pathの3つのクエリを用いて,関連する視覚情報を優先し,失敗点を特定,修正措置を立てる。
    • REFINEは検索の最適化により,推論効率,トークン使用量,スケーラビリティを改善し,優れた汎化性能を示す。

    Link: https://arxiv.org/abs/2508.16313

  • 潜在的な自己整合性:短文・長文推論における信頼性の高い多数派選択 [cs.CL, cs.AI]目的:短文・長文推論における信頼性の高い回答選択手法
    • 大規模言語モデルの性能向上が求められる中で,回答の一貫性が重要な課題となっている。
    • 既存手法は,短文と長文で最適な性能を発揮できず,精度と効率性の両立が課題である。
    • 回答の潜在的な意味的一貫性を考慮することで,様々な形式の回答に対して有効な手法を開発する。
    • 潜在的な自己整合性(LSC)は,学習可能なトークン埋め込みを用いて意味的に一貫性の高い回答を選択する。
    • LSCは,短文・長文両方の推論ベンチマークで既存手法を上回り,計算コストの増加はわずかである。
    • LSCは,正確な性能向上に加え,信頼性の高い信頼度推定も可能にする。

    Link: https://arxiv.org/abs/2508.18395

  • データを用いない学習のための言語自己対戦 [cs.AI, cs.CL, cs.GT]目的:データを用いない学習による言語モデルの性能向上
    • 大規模言語モデルの進化には大量のデータが不可欠であり,その限界が課題となっている。
    • データ収集のコストやプライバシーの問題から,更なるデータ増加が困難になりつつある。
    • 自己対戦を通じてモデルが自らを改善し,データ依存性を克服することを目指す。
    • 言語自己対戦(LSP)により,追加データなしで事前学習済みモデルの性能向上が確認された。
    • Llama-3.2-3B-Instructを用いた実験で,指示応答,数学,コーディングのベンチマークで改善が示された。
    • 自己対戦というゲーム理論的枠組みが,データ依存性の克服に有効であることが示唆された。

    Link: https://arxiv.org/abs/2509.07414

  • LTA-thinker:大規模言語モデルにおける複雑な推論のための潜在的思考拡張学習フレームワーク [cs.AI]目的:大規模言語モデルにおける複雑な推論能力の向上
    • 大規模言語モデルの発展は,人間レベルの知能を実現する上で不可欠である。複雑な推論はその重要な要素。
    • 既存手法では,生成される潜在的思考の質が十分ではなく,推論性能のボトルネックとなっている。
    • 高品質な潜在的思考の効率的な生成と活用により,推論性能の向上を目指す。
    • LTA-thinkerは,学習可能な事前分布に基づいた潜在的思考生成アーキテクチャを構築し,分布の分散を増加させることで性能向上を実現した。
    • 分布に基づく方向性最適化パラダイムを導入し,分布の局所性とスケールを同時に制約することで,情報効率と計算コストを改善した。
    • 様々なベースラインと比較して,最先端(SOTA)の性能を達成し,より高い性能上限とスケーリング効果を示した。

    Link: https://arxiv.org/abs/2509.12875

  • ネットワーク化マルチエージェント強化学習におけるベイジアンエゴグラフ推論 [cs.MA, cs.LG]目的:ネットワーク化マルチエージェント強化学習における疎な文脈依存型相互作用構造の学習
    • 分散型エージェント間の協調行動は,現実世界の複雑な問題解決に不可欠である。
    • 従来のネットワーク化MARL手法は,静的な近傍構造を仮定しており,動的な環境への適応が難しい。
    • エージェントは局所的な情報のみを用いて,効率的な協調戦略を学習する必要がある。
    • 提案手法BayesGは,ベイジアン変分推論を用いて疎な文脈依存型相互作用構造を学習する。
    • 各エージェントは自身の近傍グラフ上で潜在的な通信マスクをサンプリングし,メッセージパッシングとポリシー計算を誘導する。
    • 大規模な交通制御タスクにおいて,BayesGは既存のMARLベースラインを上回り,高い拡張性,効率性,性能を示す。

    Link: https://arxiv.org/abs/2509.16606

  • MCTS-EP:オンラインでの嗜好最適化による具現化された計画の強化 [cs.AI]目的:具現化されたエージェントの訓練のための,大規模言語モデルとモンテカルロ木探索の組み合わせによるオンライン学習フレームワーク
    • ロボットや仮想エージェントの自律的な行動計画は,多様なタスク遂行において不可欠である。
    • 従来の強化学習では,報酬関数の設計や探索の効率性が課題となる場合が多い。
    • 人間の嗜好を取り入れ,効率的な探索と学習を実現することで,より自然な行動計画を可能にする。
    • MCTS-EPは,強凸な損失関数下で従来のオンポリシーアルゴリズムよりも優れた性能限界を理論的に証明した。
    • ALFWorldにおいて,テキストタスクとビジュアルタスクでそれぞれ92%と87%の成功率を達成した。
    • WebShopでは平均報酬0.81を達成し,視覚的ALFWorldでは平均相互作用ステップ数を18.7/19.5から10.2/9.9に削減した。

    Link: https://arxiv.org/abs/2509.17116

  • ファシリティレイアウト問題におけるアルゴリズム選択のための知識グラフベースの検索拡張生成フレームワーク [cs.CL, cs.IR, cs.AI, cs.LG]目的:ファシリティレイアウト問題におけるアルゴリズム選択のための推奨手法
    • ファシリティレイアウト問題は複雑であり,効率的なアルゴリズム選択が重要である。
    • 問題の特性によって最適なアルゴリズムが異なり,専門知識が必要とされる。
    • 知識グラフとLLMを活用し,データ駆動型でアルゴリズム選択を支援する。
    • 提案手法であるKG-RAGは,Gemini 1.5 Flashと比較して高い推論スコア(4.7/5)を達成した。
    • 知識グラフから関連情報を,グラフ検索,ベクトル検索,クラスタベース検索の3つの手法で抽出する。
    • 抽出された情報はLLMにより解析され,データに基づいたアルゴリズム推奨を生成する。

    Link: https://arxiv.org/abs/2509.18054

  • 大規模ヘルスシステムデータからの神経画像モデル学習 [cs.CV, cs.AI]目的:神経画像モデルの学習
    • 神経画像は神経疾患の評価に不可欠であり,需要が世界的に増加している。
    • ヘルスシステムへの負担増大,検査待ち時間,医師の疲弊が課題となっている。
    • ヘルスシステム規模のデータを用いて,AIによる診断支援を目指す。
    • Primaは22万件以上のMRI画像で学習されたビジョン言語モデルである。
    • 52種類の神経疾患診断において,AUCは92.0%と高い診断精度を示した。
    • Primaは,診断の根拠説明,優先順位付け,紹介推奨機能を提供し,医療格差の是正に貢献する。

    Link: https://arxiv.org/abs/2509.18638

  • 精密医療における説明可能な強化学習誘導サブグラフ推論のためのグラフ拡張言語モデルGALAX [eess.SY, cs.SY, cs.AI]目的:精密医療における疾患関連シグナル伝達経路および標的の特定
    • 精密医療では,多層オミクスデータ,トポロジー構造,そしてテキスト情報が不可欠である。
    • 既存の手法では,数値オミクスデータとトポロジー構造の統合や,LLMの定量的な根拠に基づいた推論が課題である。
    • 数値データ,トポロジー構造,言語情報を統合し,説明可能なサブグラフ推論を実現する。
    • 本研究では,GNNとLLMを強化学習で統合したGALAXを提案し,グラフ構造の段階的な構築と評価を可能にした。
    • 疾患関連サブグラフを生成するGPRMは,明示的なラベルなしでプロセスレベルの指導を行うことができる。
    • CRISPR標的,オミクスプロファイル,バイオメディカルグラフ知識を組み合わせたTarget-QAベンチマークを導入した。

    Link: https://arxiv.org/abs/2509.20935

  • 状態空間モデルにおける状態追跡を可能にする構造化された疎な遷移行列 [cs.AI, cs.LG]目的:状態空間モデルにおける状態追跡のための,最適化された状態サイズと深さを持つ構造化疎な遷移行列のパラメータ化
    • 状態空間モデルは,系列データ処理において重要な役割を果たしており,効率的な計算が求められる。
    • 従来のモデルでは,表現力と計算コストのトレードオフが存在し,大規模な状態サイズでは計算量が問題となる。
    • この研究は,計算コストを抑えつつ,表現力を向上させ,効率的な状態追跡を実現することを目的とする。
    • 提案手法PD-SSMは,遷移行列を疎な構造でパラメータ化することで,計算コストを削減しつつ,FSA状態追跡において優れた性能を発揮する。
    • 理論的に,提案モデルはBIBO安定性を満たし,既存の構造化SSMの保証を大幅に上回るFSAエミュレーション能力を持つことが示された。
    • 実験結果は,PD-SSMが様々なFSA状態追跡タスクで既存のSSMと比較して大幅に優れた性能を示すことを明らかにした。

    Link: https://arxiv.org/abs/2509.22284