arXiv雑要約

AI - 2026/04/28 公開

  • マルチホップQAにおけるLLMの単一パス推論に対するファノ型精度上限 [cs.AI]目的:マルチホップ質問応答におけるLLMの単一パス推論の精度上限の導出
    • 大規模言語モデルの推論能力は,複雑な質問応答タスクにおいて重要性を増している。
    • LLMは,一度のパスで処理できる情報量に限界があり,複雑なタスクでは精度が低下しやすい。
    • LLMの容量を考慮した情報表現と構造化により,マルチホップQAの性能向上を目指す。
    • ファノ型精度上限は,タスクの複雑さがモデルの容量を超えると,精度が必然的に低下することを示唆する。
    • 提案手法InfoQAは,容量を考慮したタスク分解と過去の推論履歴の積極的な刈り込みにより,各ステップの精度を高く保つ。
    • 実験結果は,モデルの挙動が予測された容量曲線と一致し,InfoQAが性能向上を達成することを示した。

    Link: https://arxiv.org/abs/2509.21199

  • InfiniPipe:効率的な可変長長文脈LLM学習のための弾力性パイプライン並列化 [cs.DC, cs.AI]目的:長文脈LLM学習のための弾力性パイプライン並列化手法
    • 大規模言語モデルの性能向上には,長文脈を扱える能力が不可欠である。
    • 既存の並列化手法は,通信コストが高いか,ハードウェアの利用効率が低い問題がある。
    • リソースとワークロードの変化に適応する並列化手法を開発し,学習効率を向上させる。
    • InfiniPipeは,トークンレベルとバッチレベルのパイプライン並列化を組み合わせることで,リソースとワークロードの異質性に柔軟に対応する。
    • ステージ認識型チャンクレベル適応的チェックポイントにより,勾配チェックポイントを効率的に統合する。
    • 実験結果から,InfiniPipeは最先端システムと比較して1.69倍の高速化を達成することが示された。

    Link: https://arxiv.org/abs/2509.21275

  • 医療画像言語モデルにおけるおべっか行動のベンチマークと軽減 [cs.CE, cs.CV, cs.AI]目的:医療画像言語モデルにおけるおべっか行動の評価と軽減策
    • 医療分野におけるAI活用は,診断精度向上や効率化に貢献しうる重要な課題である。
    • 医療画像言語モデルは,おべっか行動に脆弱であり,患者安全を脅かす可能性がある。
    • 本研究は,医療画像言語モデルのおべっか行動を定量的に評価し,その軽減策を提案する。
    • 現在の医療画像言語モデルは,視覚的情報に強く影響を受け,モデルの規模や精度と故障率に相関が見られた。
    • 権威への迎合やユーザーの模倣が,視覚データとは独立した偏りのメカニズムを誘発することが示唆された。
    • 提案手法であるVIPERは,根拠に基づかない社会的情報をフィルタリングすることで,おべっか行動を抑制し,解釈可能性を維持しつつ,既存手法を上回る性能を示した。

    Link: https://arxiv.org/abs/2509.21979

  • SynthPert:細胞摂動予測のための合成推論トレースによるLLMの生物学的推論能力の向上 [cs.DC, cs.AI, cs.LG, q-bio.CB, q-bio.GN]目的:細胞摂動に対する細胞応答予測
    • 創薬や仮想細胞モデル構築に不可欠であり,システム生物学の根幹をなす課題である。
    • 構造化された実験データへの適応が困難であり,LLMの摂動予測への応用は未開拓である。
    • 合成推論トレースによる知識蒸留を通じて,LLMのドメイン固有の推論能力向上を目指す。
    • SynthPertは,PerturbQAベンチマークにおいて最先端の性能を達成し,訓練データ生成モデルをも上回る。
    • 合成推論トレースは,部分的に不正確であっても,生物学的知識を効果的に蒸留できることが示された。
    • この手法により,未知のRPE1細胞に対する交差細胞型汎化が可能となり,87%の精度を達成した。

    Link: https://arxiv.org/abs/2509.25346

  • LLMファインチューニングにおける複数LoRAのパラメータ共有の再検討 [cs.RO, cs.LG, cs.AI, cs.CL]目的:複数LoRAを用いたLLMファインチューニングにおけるパラメータ共有戦略の改善
    • LLMの応用拡大には,効率的な適応技術が不可欠であり,パラメータ効率的な手法が注目されている。
    • 従来の複数LoRA拡張では,A行列の類似性が高く共有が提案されたが,その根拠が明確でなかった。
    • A行列の初期値依存性を明らかにし,知識エンコーディングに重要なB行列を効率的に共有する手法を提案する。
    • 提案手法ALoRAは,非対称な多重LoRA設計により,複数タスクにおける性能バランスを改善した。
    • さらに,Fed-ALoRAは,連合学習環境下でB行列を共有し,異種クライアント間でも高い性能を維持した。
    • 実験結果は,既存手法と同等以上の精度で,タスク間の性能差を縮小することを示した。

    Link: https://arxiv.org/abs/2509.25414

  • 強化学習のための多色的な目的関数 [cs.LG, cs.AI]目的:事前学習済みの方策に対する強化学習による微調整における多様性の維持と改善
    • 事前学習済みモデルの活用は,様々なタスクへの応用を効率化する重要な手法である。
    • 強化学習による微調整において,多様性が失われ,特定の結果に収束してしまう問題が存在する。
    • 多様な生成を維持し,探索を促進することで,事前学習済みモデルの能力を最大限に引き出す。
    • 提案手法は,多様な生成を明示的に促進する「多色的な目的関数」を導入し,PPOを適応させることで,多様性を維持する。
    • BabyAI,Minigrid,Algorithmic Creativityの実験により,成功率の向上と,環境の変化に対する汎化性能の向上が確認された。
    • pass@$k$実験では,多様な戦略の活用により,高いカバレッジを実現し,探索能力を示すことができた。

    Link: https://arxiv.org/abs/2509.25424

  • データカバレッジの継続的拡大に向けて:自動テキスト誘導型エッジケース合成 [cs.CV, cs.AI]目的:エッジケースの自動合成手法
    • 深層学習の性能は学習データに大きく依存する。データ品質向上が不可欠。
    • データセットの偏りを解消するためには,困難なエッジケースを手動で作成する必要がある。
    • テキスト誘導により,エッジケースを自動的に合成し,データセットの頑健性を向上させる。
    • 提案手法は,大規模言語モデルとText-to-Imageモデルを組み合わせ,多様なテキストプロンプトを生成する。
    • FishEye8Kデータセットを用いた実験で,単純なデータ拡張や手動生成プロンプトを上回る頑健性を示した。
    • データキュレーションを自動化し,信頼性の高いAIシステムの開発に貢献する。

    Link: https://arxiv.org/abs/2509.26158

  • OntoLogX:大規模言語モデルを用いたサイバーセキュリティログからのオントロジー誘導型知識グラフ抽出 [cs.AI]目的:サイバーセキュリティログからの知識グラフ抽出
    • サイバー攻撃の巧妙化により,攻撃者の行動や脆弱性を正確に把握することが重要となっている。
    • セキュリティログは構造化されておらず,意味の一貫性やデバイス間の連携が不十分である。
    • ノイズや不均一なデータを一貫性のある知識表現に変換し,実用的な脅威インテリジェンスを抽出すること。
    • OntoLogXは,大規模言語モデルを活用して,ログをオントロジーに基づいた知識グラフに変換する。
    • Retrieval Augmented Generationと反復修正により,構文的・意味的に妥当な知識グラフを生成する。
    • 実験結果から,知識グラフの生成精度と,攻撃活動とMITRE ATT&CK戦術の正確な対応付けが示された。

    Link: https://arxiv.org/abs/2510.01409

  • 構成的汎化を駆動するもの:視覚生成モデルにおける連続的な学習目的の重要性 [cs.CL, cs.CV, cs.AI, cs.LG]目的:視覚生成モデルにおける構成的汎化能力の向上
    • 視覚生成モデルは,新しい概念の組み合わせを生み出す能力が重要視されている。
    • 構成的汎化を促進・阻害する要因が十分に解明されていない。
    • 学習目的が離散的か連続的か,条件付けが概念情報を提供するかどうかを調査する。
    • 学習目的が離散分布か連続分布か,条件付けの情報量などが構成的汎化に影響することがわかった。
    • 離散モデル(MaskGITなど)において,連続的なJEPAベースの目的関数を追加することで,構成的汎化性能を向上させることが示された。

    Link: https://arxiv.org/abs/2510.03075

  • LLMベースのテキスト読み上げにおけるデータ効率的なターゲットトークンレベルの嗜好最適化 [cs.CL, cs.AI, cs.SD]目的:LLMベースのテキスト読み上げシステムの嗜好最適化
    • 自然な音声合成は,人間と機械の円滑なコミュニケーションに不可欠であり,その重要性は高い。
    • 既存手法はペアデータに依存し,トークンレベルでの精密な調整が困難である。
    • ペアデータ不要で,トークンレベルでの最適化を可能にし,より効率的な学習を目指す。
    • 提案手法TKTOは,ペアデータなしで学習可能であり,データ効率を向上させる。
    • 日本語TTSにおいて,精度が39%向上し,CERが54%削減された。
    • TKTOは,ターゲットトークンに対して12.8倍強い報酬を自動的に割り当てることが示された。

    Link: https://arxiv.org/abs/2510.05799

  • DINOv3転移学習の解像度依存性:胸部X線画像分類における性能 [cs.CV, cs.AI, cs.LG]目的:胸部X線画像分類におけるDINOv3の転移学習性能の評価
    • 医療画像診断の精度向上は,患者の早期発見と適切な治療に不可欠である。
    • 自己教師あり学習の有効性は示唆されているものの,胸部X線画像への応用は未だ十分ではない。
    • DINOv3の有効性を検証し,最適な解像度とモデル構造を明らかにすること。
    • 成人画像データセットにおいて,DINOv3は512x512ピクセルの解像度でDINOv2を上回る性能を示した。
    • 特に,ConvNeXt-Bモデルとの組み合わせで,小さな病変や境界線の検出精度が向上した。
    • 小児画像データセットでは,DINOv3や解像度の向上による有意な効果は認められなかった。

    Link: https://arxiv.org/abs/2510.07191

  • 量子化されたGNNの検証可能性と高い計算困難性 [cs.LO, cs.AI, cs.CC, cs.LG]目的:量子化された集約-結合グラフニューラルネットワーク(ACR-GNN)に関する推論のための論理言語
    • グラフニューラルネットワークは,様々な分野で活用されており,その信頼性確保は重要である。
    • 量子化されたGNNの検証は,計算量が多く,現実的な時間で完了することが困難である。
    • 量子化されたGNNの検証可能性を論理的に特徴づけ,その計算困難性を明らかにする。
    • 量子化されたGNNの検証タスクは,(co)NEXPTIME-完全であることが証明された。
    • この結果は,量子化されたGNNの検証が計算困難であることを示唆し,安全性確保のための研究を促進する。
    • 実験的に,量子化されたACR-GNNモデルは軽量でありながら,非量子化モデルと同等の精度と汎化能力を維持することが示された。

    Link: https://arxiv.org/abs/2510.08045

  • オープンソースLLMに対するマルウェア埋め込み攻撃:MEASER [cs.DB, cs.IR, cs.CR, cs.AI]目的:オープンソースLLMに対するマルウェア埋め込み攻撃(MEA)の体系的な定式化と,新たな攻撃手法「MEASER」の提案
    • オープンソースLLMは,その透明性と柔軟性から,多様な分野で急速に活用が広がっている
    • オープンソースLLMの完全なアクセス性は,悪意のある攻撃者によるマルウェア埋め込みのリスクを高めている
    • 本研究は,既存のMEA対策の脆弱性を明らかにし,より堅牢なLLMのセキュリティを実現することを目指す
    • 本研究で提案する攻撃手法「MEASER」は,量子化やPEFTといった対策に対しても高い隠蔽性と攻撃成功率を示す
    • MEASERは,パフォーマンス劣化を最小限に抑えつつ,重要なパラメータを特定し,ペイロードを埋め込むことで,既存のMEAよりもステルス性が高い
    • 実験結果から,MEASERは様々なオープンソースLLMにおいて0bit誤り率を維持し,高い攻撃効果を発揮することが確認された

    Link: https://arxiv.org/abs/2510.10486

  • ゲームの評価における言語モデルの評価の検証 [cs.CL, cs.AI]目的:AIシステムのゲーム評価能力の検証
    • AI研究において,ゲームは問題解決能力を測る重要な指標とされてきた。
    • AIの評価は問題解決に偏重し,評価対象の妥当性評価が軽視されてきた。
    • AIがゲームを評価する能力を定量的に評価する新たな手法を提案し検証する。
    • 推論モデルは,非推論言語モデルよりも人間のゲーム評価と一致する傾向にある。
    • ゲーム理論的に最適化されたモデルほど,人間の評価との適合性が低下する非単調な関係が確認された。
    • 楽しさの評価においては,モデル間のばらつきが大きく,量化の難しさが示唆された。また,推論モデルのリソース使用量は予測不可能であった。

    Link: https://arxiv.org/abs/2510.10930

  • 質問適応グラフ学習によるマルチホップ検索拡張生成 [cs.LG, cs.AI]目的:マルチホップ質問に対する検索拡張生成の性能向上
    • 大規模言語モデルの知識獲得・推論能力を向上させる上で,外部知識源との連携が重要である。
    • 複雑な質問構造やノイズの影響により,既存の検索拡張生成システムはマルチホップ質問に苦戦する。
    • 質問内容に応じてグラフ構造を適応的に学習し,ノイズの影響を軽減することで,マルチホップ質問への対応を目指す。
    • 提案手法は,マルチ情報レベル知識グラフと質問適応グラフニューラルネットワークを組み合わせることで,質問の多粒度情報を効果的に集約する。
    • データ生成戦略を用いた事前学習により,ロバストな表現学習を実現し,特に高ホップ質問において顕著な性能向上を達成した。
    • 実験結果から,提案手法がマルチホップシナリオにおいて,既存手法を最大33.8%上回る効果を発揮することが確認された。

    Link: https://arxiv.org/abs/2510.11541

  • LLM間の戦略的相互作用における策略能力 [cs.CL, cs.AI, cs.MA]目的:LLM間の戦略的欺瞞能力の評価
    • 自律的に行動するLLMエージェントの普及に伴い,その戦略的行動の理解が重要である。
    • AIシステムが人間に対して策略を弄することに関する研究はあるものの,LLM間での策略は未解明である。
    • LLMエージェントが自発的に策略を用いる傾向を明らかにし,多エージェント環境での評価方法を確立する。
    • GPT-4o,Gemini-2.5-pro,Claude-3.7-Sonnet,Llama-3.3-70bの4モデルを評価した結果,明示的な指示なしでも高い欺瞞能力が確認された。
    • 特にGemini-2.5-proとClaude-3.7-Sonnetは,指示を与えられた場合,ほぼ完璧な策略を実行することがわかった。
    • Peer Evaluationでは全モデルが欺瞞を選択し,Cheap Talkでは95-100%の成功率を示した。高リスクなゲーム理論的シナリオでの評価の重要性が示唆された。

    Link: https://arxiv.org/abs/2510.12826

  • DeepCausalMMM:因果構造学習を用いたマーケティングミックスモデリングの深層学習フレームワーク [cs.LG, stat.ME, stat.ML]目的:マーケティング活動のビジネス成果への影響推定
    • マーケティング効果測定は,投資対効果を最大化する上で不可欠である。
    • 従来のMMM手法は,チャネル間の依存性や非線形性を捉えきれない場合がある。
    • 深層学習と因果推論を組み合わせ,より正確なMMMを実現すること。
    • DeepCausalMMMは,GRUを用いて時間的パターンを学習し,DAG構造でチャネル間の依存関係をモデル化する。
    • Hill曲線を用いて効果逓減を考慮し,予算最適化を可能にする。
    • データ駆動型ハイパーパラメータ,線形平均スケーリング,柔軟な事前分布などの機能を持つ。

    Link: https://arxiv.org/abs/2510.13087

  • マスク拡散言語モデルの推論能力について [cs.LG, cs.AI, cs.CL]目的:マスク拡散言語モデルの解ける推論問題の種類と効率性
    • 自然言語処理の分野では,より効率的で高性能な言語モデルの開発が求められている。
    • 従来の自己回帰型言語モデルは逐次的な生成を行うため,並列化による効率化が課題であった。
    • 本研究は,並列生成可能なマスク拡散言語モデルの潜在的な推論能力を明らかにすることを目指す。
    • マスク拡散言語モデルは,特定の条件下において,CoT(Chain of Thought)拡張トランスフォーマーと同等の推論能力を持つことが示された。
    • 特に,規則言語のような問題に対しては,並列生成の利点を活かしてCoTトランスフォーマーよりも効率的に推論できることが明らかになった。
    • マスク拡散言語モデルと,多項式的にパディングされたPLT(Padded Looped Transformers)が,有限精度対数幅設定において等価であることが示された。

    Link: https://arxiv.org/abs/2510.13117

  • 画像編集ペアなしでの画像編集モデルの学習 [cs.CL, cs.IR, cs.CL, cs.CV, cs.LG]目的:画像編集モデルの学習方法
    • 画像編集技術は,多様な画像操作を可能にし,創造性や表現の幅を広げる上で重要である。
    • 既存の画像編集モデルは,大量の入力-ターゲットペアを必要とし,その収集が困難である。
    • 入力-ターゲットペアなしで,高品質な画像編集を可能にする学習方法を確立すること。
    • 本研究では,ペアデータなしで画像編集モデルを学習する新しいパラダイムを提案した。
    • 提案手法は,拡散モデルをVLMからのフィードバックに基づいて直接最適化することで,既存のモデルのアーティファクトの伝播を防ぐ。
    • 標準的なベンチマークにおいて,大規模なペアデータで学習したモデルと同等の性能を,少ないステップ数で実現した。

    Link: https://arxiv.org/abs/2510.14978

  • 情報正則化表現による敵対的訓練を伴わない反実仮想予測 [cs.LG, stat.ML]目的:反実仮想予測におけるバイアス除去手法
    • 因果推論の分野において,処置効果を正確に推定することは重要である。
    • 観察データにおける処置と共変量の依存関係が,正確な反実仮想予測の妨げとなる。
    • 情報理論的アプローチにより,処置と表現の間の依存関係を最小化し,予測精度を向上させる。
    • 提案手法は,相互情報量を最小化する確率的表現を学習することで,処置と共変量の依存関係を除去する。
    • 実データおよび数値シミュレーションにおいて,既存のバランス調整や敵対的学習手法と比較して優れた性能を示した。
    • 学習の不安定性やハイパーパラメータ調整の負担といった敵対的学習の課題を回避している。

    Link: https://arxiv.org/abs/2510.15479

  • 白内障手術ビデオ解析のための大規模マルチソースマルチタスクベンチマーク:Cataract-LMM [cs.CV, cs.AI, cs.LG]目的:深層学習モデルの汎化性能向上に資する,白内障手術ビデオの多様性と注釈深度の向上
    • 手術支援システムの発展には,大規模かつ注釈付きデータセットが不可欠である。
    • 既存の白内障手術リソースは,汎用的な深層学習モデルを訓練するための多様性と注釈深度に乏しい。
    • 本研究は,汎化性能の高い手術ワークフロー解析,シーン理解,能力に基づいた訓練研究を可能にする。
    • 3000件の白内障手術ビデオからなるデータセットを構築し,4層の注釈(手術段階,物体セグメンテーション,相互作用追跡,スキルスコア)を付与した。
    • ワークフロー認識,シーンセグメンテーション,相互作用追跡,スキル評価の4タスクにおいて,深層学習モデルの性能を評価した。
    • 異なる手術施設間でのドメイン適応性能を検証し,汎化性能向上に向けた基盤を確立した。

    Link: https://arxiv.org/abs/2510.16371

  • 二値分布外検出を超えて:多統計量拡散軌跡による分布シフトの特性評価 [cs.LG]目的:分布外データの検出と分類
    • 機械学習の安全性確保や継続学習には,分布外データの検出が不可欠である。
    • 従来の分布外検出手法は,分布シフトを単一のスカラー値で表現し,詳細な分析が困難である。
    • 分布外データの種類を識別し,より詳細な分布外検出を可能にすることを目指す。
    • 拡散モデルのノイズ除去過程を利用し,多次元特徴ベクトルを抽出することで分布の統計的差異を捉える。
    • 画像データおよび表形式データにおける実験により,DISCは最先端の検出器と同等以上の性能を示す。
    • DISCは分布外データの種類を分類できるため,単純な二値検出からより粒度の細かい検出への転換を実現する。

    Link: https://arxiv.org/abs/2510.17381

  • ウェブ情報に基づく推論を用いた多Modalな誤情報の検出のためのモジュール型フレームワークMERIT [cs.AI, cs.CL, cs.CV, cs.CY, cs.LG]目的:多Modalな誤情報検出のためのフレームワーク
    • 近年のフェイクニュース拡散は社会問題であり,迅速かつ正確な検出が重要である。
    • 既存手法は,多Modalな情報を効果的に統合し,推論能力を組み込むことが課題である。
    • ウェブ情報に基づいた推論を取り入れ,モジュール化により検出精度と説明可能性の向上を目指す。
    • MERITフレームワークは,MMFakeBenchにおいてGPT-4o-miniと組み合わせて81.65%のF1スコアを達成し,既存のゼロショットベースラインを上回った。
    • 制御実験の結果,MERITはMMD-Agentと比較して誤情報リコール率が6.14ポイント向上し,特に視覚的・テキスト的歪みに対する改善が認められた。
    • モジュール除去実験により,各モジュールが専門性を持ち,独立して機能していることが確認された。

    Link: https://arxiv.org/abs/2510.17590

  • CrossGuard:多Modal LLMに対する複合Modalな暗黙的悪意攻撃からの保護 [cs.CR, cs.AI]目的:多Modal LLMに対する複合Modalな暗黙的悪意攻撃に対する保護策の開発
    • 多Modal LLMは高度な推論・知覚能力を持つが,セキュリティ上の脆弱性が課題となっている。
    • 既存研究は明示的な攻撃に焦点を当てており,テキストと画像が共同で悪意を表現する暗黙的攻撃は未解明である。
    • 高品質な暗黙的攻撃データが不足している状況を打開し,実用的な保護策を提案することを目的とする。
    • ImpForgeという自動Red-Teamingパイプラインを開発し,14のドメインで多様な暗黙的攻撃サンプルを生成した。
    • 生成されたデータセットに基づいて,意図を認識する保護メカニズムCrossGuardを開発し,明示的・暗黙的攻撃に対して頑健性を示す。
    • CrossGuardは既存の防御策を凌駕し,セキュリティと実用性のバランスの取れた多Modal LLMの保護を実現した。

    Link: https://arxiv.org/abs/2510.17687

  • POPI:最適化された自然言語嗜好推論によるLLMのパーソナライズ [cs.CL, cs.AI]目的:LLMパーソナライズのための枠組み
    • LLMは広範な応用が期待されるが,ユーザー固有の嗜好への対応が課題である。
    • 既存のLLMは集団レベルの嗜好に最適化されており,ユーザー間の多様性を捉えきれていない。
    • ユーザーの嗜好を自然言語で要約し,多様なLLMで再利用可能なパーソナライズ手法を開発する。
    • POPIは,ユーザーのシグナルを簡潔な嗜好要約に集約する推論モデルと,その要約に基づいて応答を生成する生成モデルで構成される。
    • 統一された嗜好最適化目的関数を用いて両モデルを訓練し,生成の正確性と要約の情報を同時に向上させている。
    • 4つのパーソナライズベンチマークで,POPIはパーソナライズ品質を向上させながら,コンテキストオーバーヘッドを大幅に削減した。

    Link: https://arxiv.org/abs/2510.17881

  • 最適化から予測へ:交通配分問題のためのTransformerベースの経路流推定 [cs.CL, cs.LG, cs.AI, math.OC]目的:交通配分問題における経路流の予測
    • 交通流解析において不可欠であり,都市計画や交通政策の策定に基盤となる。
    • 大規模ネットワークでは計算量が指数関数的に増加し,現実的な時間内に解を導き出すことが困難である。
    • Transformerを用いて経路レベルでの交通分布を予測し,計算効率と予測精度を向上させる。
    • 提案モデルは,従来の最適化手法と比較して計算時間を大幅に短縮できる。
    • 経路レベルでの交通量を効率的に推定し,多クラスネットワークにも対応可能である。
    • 需要やネットワーク構造の変化に柔軟に対応し,迅速なシミュレーションを可能にする。

    Link: https://arxiv.org/abs/2510.19889

  • CLIN-LLM:臨床診断と治療生成のための安全性制約付きハイブリッドフレームワーク [cs.AI]目的:臨床診断と治療生成のための安全性制約付きハイブリッドフレームワーク
    • 医療現場では,正確な診断と適切な治療法の選択が重要であり,その支援システムのニーズは高い。
    • 既存のLLMは医学的根拠に乏しく,不確実性の定量化が難しく,安全性の低い出力となるリスクがある。
    • 本研究は,安全性と信頼性を高め,臨床現場で利用可能な意思決定支援システムを開発することを目的とする。
    • CLIN-LLMは,症状から疾患への分類において98%の精度とF1スコアを達成し,ClinicalBERTを7.1%上回った。
    • 治療生成において,上位k件の関連対話の検索精度は78%であり,臨床家による妥当性は5点満点中4.2点であった。
    • 抗生物質の不適切な提案はGPT-5と比較して67%削減され,臨床的な安全性が向上した。

    Link: https://arxiv.org/abs/2510.22609

  • チェビシェフ部分空間フィルタによる固有値データセット生成の高速化 [cs.CY, cs.LG, cs.AI, cs.NA, math.NA]目的:固有値データセット生成の高速化手法
    • 科学技術計算において固有値問題は重要であり,機械学習との融合が進んでいる。
    • ニューラル固有値法は計算コストが低い一方,学習に必要なラベル付きデータが不足しがちである。
    • 演算子間の類似性を活用し,既存手法では見過ごされてきた冗長計算を削減する。
    • 提案手法SCSFは,演算子を固有値分布の類似性でグループ化することで,データセット生成を加速する。
    • 過去の固有値ペアを再利用するチェビシェフ部分空間フィルタにより,計算効率を向上させる。
    • 実験結果から,SCSFは既存の数値ソルバーと比較して最大3.5倍の高速化を達成する。

    Link: https://arxiv.org/abs/2510.23215

  • 推論木を用いたLLM強化学習のスケジュール [cs.AI]目的:LLM強化学習におけるデータスケジュール手法
    • LLMの性能向上は,AI研究の重要な課題であり,その最適化手法の確立が求められている。
    • 既存のデータスケジュール手法は,推論木の構造を考慮せず,効率的な学習が困難である。
    • 推論木の構造に基づく学習難易度を評価し,構造的に簡単な問題から複雑な問題へと進むカリキュラムを構築する。
    • 提案手法「Re-Schedule」は,6つの数学推論ベンチマークにおいて平均精度を大幅に向上させた。
    • 精度向上率は最大3.2%に達し,推論木の構造理解がRLVRデータスケジュールの強力な基盤となることを示した。
    • 学習難易度を測る「r-score」は,構造的に単純な問題に高いスコアを与えることで効果的なカリキュラム学習を実現した。

    Link: https://arxiv.org/abs/2510.24832

  • 「Aha」の瞬間は偽物か?思考連鎖における真の思考段階と装飾的思考段階の識別 [cs.LG]目的:思考連鎖における各段階の因果的貢献度を定量化すること
    • 大規模言語モデルの推論能力向上は,AI研究の重要な課題である。
    • 思考連鎖の各段階が,モデルの内部思考を反映しているか不明である。
    • 大規模言語モデルの思考の信頼性と効率性を検証すること
    • 大規模言語モデルは,真の思考段階と装飾的な思考段階を混在させていることが示された。
    • 最終予測を駆動する思考段階は,思考連鎖全体のわずかな割合に過ぎないことが明らかになった。
    • モデルは,TrueThinking方向を用いて,思考連鎖の特定の段階を内部的に従う,または無視するように誘導可能である。

    Link: https://arxiv.org/abs/2510.24941

  • ZoFia:エンティティ誘導検索と複数LLM連携によるゼロショットフェイクニュース検出 [cs.CL, cs.AI]目的:フェイクニュース検出のためのゼロショットフレームワーク
    • 社会の安定と公共の信頼を脅かすフェイクニュースの拡散が問題となっており,効果的な検出手法が求められている。
    • 大規模言語モデルは可能性を秘めるものの,知識の限界やハルシネーション,そしてバイアスといった課題が存在する。
    • 本研究は,知識の不足やバイアスを克服し,信頼性の高いフェイクニュース検出を目指す。
    • ZoFiaは,時間経過に伴う情報の変化に対応するため,エンティティに基づいた情報検索と複数LLMの連携を行うことで,知識のギャップを埋める。
    • 提案手法では,重要なエンティティを正確に抽出するための新しいアルゴリズム(SC-MMR)を使用し,多角的な視点からの検証を実現する。
    • 実験結果から,ZoFiaは既存のゼロショットベースラインや,一部のFew-shot手法よりも優れた性能を示すことが確認された。

    Link: https://arxiv.org/abs/2511.01188

  • ロボティクス応用におけるクローズドループ高レベルプランナーとしての言語モデルの利用:概要とベンチマーク [cs.CL, cs.RO, cs.AI]目的:ロボティクス応用における言語モデルを用いたクローズドループ高レベルプランニング戦略
    • ロボティクス分野では,より高度な自律性と柔軟性を実現するために,高レベルな計画能力が不可欠である。
    • 言語モデルのブラックボックス性により,ロボットシステムでの予測不能なエラーやコスト高が課題となっている。
    • 言語モデルを信頼性の高いクローズドループプランナーとして統合するための実践的な戦略を明らかにすること。
    • 制御ホライゾンとウォームスタートが言語モデルベースのプランナーの性能に影響を与えることを実験的に示した。
    • 実験結果に基づき,言語モデルを用いたロボットの計画性能と堅牢性を向上させるための具体的な推奨事項を提示した。
    • 実装と実験はプロジェクトウェブサイトで公開されており,再現性と利用を促進している。

    Link: https://arxiv.org/abs/2511.07410

  • HardFlow:フローマッチングモデルにおける軌道最適化によるハード制約付きサンプリング [cs.LG, cs.SY, eess.SY]目的:ハード制約付きサンプリングの実現
    • 拡散モデルやフローマッチングは生成モデリングにおいて強力であり,複雑なデータ分布の学習と柔軟な誘導が可能である。
    • 多くの応用では生成サンプルにハード制約を課す必要があるが,既存手法は過度に制限的でサンプル品質を低下させる。
    • 軌道最適化問題としてハード制約付きサンプリングを定式化し,サンプル品質を維持しつつ制約を正確に満たすことを目指す。
    • 本研究では,数値最適制御を活用し,制約を満たしつつサンプリング軌道を誘導する新しいフレームワークを提案する。
    • フローマッチングモデルの構造とモデル予測制御技術を活用することで,複雑な制約付き最適化問題を効率的に解ける近似問題に変換する。
    • ロボティクス,偏微分方程式,画像編集などの多様なドメインにおける実験で,提案手法HardFlowが既存手法を大幅に上回る制約充足率とサンプル品質を示す。

    Link: https://arxiv.org/abs/2511.08425

  • 大規模言語モデルのソフトウェアパッチング:安全ポリシー改善の軽量手法 [cs.AI]目的:大規模言語モデルにおける安全性の脆弱性に対処するための軽量かつモジュール的なアプローチ
    • 大規模言語モデルは強力だが,安全性に関する問題が顕在化しており,信頼性の確保が重要である。
    • モデル全体の再学習やメジャーバージョンアップデートはコストがかかり,顧客のニーズに合わせにくい。
    • メジャーリリース間隔で,スケーラブルかつ効率的な安全アップデートを配布する手段を提供する。
    • 本研究では,既存のモデルに学習可能なプレフィックスを付加する「パッチング」という手法を提案する。
    • このパッチはモデルパラメータのわずか0.003%を追加するだけで,安全な参照モデルの挙動を信頼性高く再現する。
    • 毒性軽減,バイアス削減,有害性拒否といった重要な分野で,次世代の安全モデルに匹敵する改善が確認された。

    Link: https://arxiv.org/abs/2511.08484

  • Think-at-Hard:推論能力向上のための選択的潜在反復 [cs.CL, cs.AI, cs.LG, cs.PF]目的:大規模言語モデルの推論能力向上
    • 現実世界での応用には,パラメータ制約下での大規模言語モデルの推論能力向上が不可欠である。
    • 潜在反復は有効だが,最初のパスで正しい予測が誤って修正される「潜在的過剰思考」の問題がある。
    • 選択的に潜在反復をスキップすることで,推論精度を向上させることを目指す。
    • 提案手法Think-at-Hard(TaH)は,誤りやすいトークンに対してのみ潜在反復を行うことで,精度向上を実現した。
    • パラメータ数を固定した場合,常に反復を行うベースラインよりも3.8~4.4%高い性能を示し,93%のトークンで反復をスキップした。
    • LoRAモジュールを追加した場合,さらに性能が向上し,Qwen3ベースラインを5.3~6.2%上回った。

    Link: https://arxiv.org/abs/2511.08577

  • 生成モデルの潜在空間の勾配誘導探索による制御された虹彩画像拡張 [cs.CV, cs.LG]目的:制御された虹彩画像拡張のための虹彩画像生成モデルの潜在空間探索
    • 虹彩認識技術の信頼性向上には,多様な虹彩画像データセットが不可欠である。
    • 虹彩画像の豊富なテクスチャにより,特定の属性を制御した虹彩画像合成は困難である。
    • 虹彩画像の幾何学的,テクスチャ的特徴に基づき潜在空間を探索し,多様な画像を生成する。
    • 本手法は,生成モデルの潜在空間を勾配で誘導し,同一人物の虹彩画像でありながら特定の属性を操作した画像を生成する。
    • 虹彩画像の鮮明度,瞳孔サイズ,虹彩サイズ,瞳孔対虹彩比など,微分可能な損失関数が定義可能な属性であれば,どのような属性でも操作が可能である。
    • GAN inversionにより実世界の虹彩画像を潜在空間に投影し,対応する潜在コードを得ることで,実データへの適用も可能である。

    Link: https://arxiv.org/abs/2511.09749

  • DenoGrad:表形式および時系列学習におけるデータ洗練のための勾配ベースフレームワーク [cs.AI, cs.LG]目的:表形式および時系列データにおけるデータ洗練手法
    • データ中心AIにおいて,機械学習の頑健性向上のためにデータ品質が重要視されている。
    • 既存のノイズ除去手法は,厳密な統計的仮定やクリーンな参照データに依存し,現実世界への適用が制限される。
    • 事前学習済みニューラルネットワークを活用し,モデルを固定したまま入力空間を最適化することでノイズを除去する。
    • DenoGradは,表形式回帰と時系列予測の両方に適用可能であり,時系列データでは時間的な一貫性を保つ戦略を取り入れている。
    • 10個の現実世界のデータセットを用いた実験により,提案手法が下流の予測性能を安定的に向上させることが示された。
    • また,DenoGradは,統計的構造を維持しながら,名目上クリーンなデータセットにおいても汎化性能を向上させる効果がある。

    Link: https://arxiv.org/abs/2511.10161

  • LILogicNet:効率的なハードウェア展開のための学習可能な接続性を備えたコンパクトな論理ゲートネットワーク [cs.RO, cs.LG]目的:効率的なハードウェア展開に向けた論理ゲートネットワークの構造
    • 機械学習の効率的な展開には,ハードウェア制約を考慮したモデルが不可欠である。
    • 従来の論理ゲートネットワークは,スケーラビリティと学習効率に限界があった。
    • 本研究は,構造化スパース性を導入し,より効率的な論理ゲートネットワークの構築を目指す。
    • LILogicNetは,わずか8,000ゲートでMNISTの学習を5分未満で完了し,98.45%のテスト精度を達成した。
    • 256,000ゲートモデルは,CIFAR-10で60.98%のテスト精度を達成し,同程度のゲート数を持つ既存の手法を上回った。
    • 最終モデルは完全に二値化されており,論理演算のみで構成されるため,推論時の計算オーバーヘッドが最小限に抑えられ,多様なハードウェアプラットフォームに展開可能である。

    Link: https://arxiv.org/abs/2511.12340

  • LLM4SCREENLIT:システマティックレビューにおける文献スクリーニングのための大規模言語モデルの性能評価に関する提言 [cs.HC, cs.SE, cs.AI, cs.LG]目的:システマティックレビューにおける大規模言語モデルの文献スクリーニング評価に関する実践的な提言
    • システマティックレビューは,医療や科学研究におけるエビデンスに基づいた意思決定に不可欠である。
    • 文献スクリーニングは時間と労力を要する作業であり,大規模言語モデルの利用が期待される。
    • 大規模言語モデルの評価指標が,偏った結果をもたらす可能性を解消し,適切なモデル選択を支援すること。
    • 従来の評価指標では,文献スクリーニング特有の非対称性やコストが考慮されないことが明らかになった。
    • 提案された加重マシューズ相関係数(WMCC)は,見逃しによる損失を最小限に抑える上で有効であることが示された。
    • 評価報告には,完全な混同行列を含めること,および未分類出力をポジティブとして扱うことが重要である。

    Link: https://arxiv.org/abs/2511.12635

  • 言語条件付きマルチタスク操作のための拡張潜在3D拡散 [cs.RO, cs.AI, cs.LG]目的:言語指示に基づくロボット操作タスクの実行
    • 人間環境での活動は汎用ロボットの重要な能力であり,自然言語理解が不可欠である。
    • 従来のロボット制御は,複雑な環境や多様なタスクへの適応が困難である。
    • 拡散モデルを活用し,複数の操作タスクを連続して実行する際の成功率向上を目指す。
    • 提案手法はCALVINデータセットにおいて,多様な操作タスクにおいて性能が向上した。
    • 複数タスクを連続して実行した場合の,長期的成功率が向上したことが示された。
    • 拡散モデルの有用性を確認し,汎用的なマルチタスク操作への貢献を示す。

    Link: https://arxiv.org/abs/2511.13312

  • MermaidSeqBench:自然言語からMermaidシーケンス図生成の評価ベンチマーク [cs.SE, cs.AI, cs.LG]目的:自然言語からのMermaidシーケンス図生成能力の評価
    • ソフトウェア開発における可視化の重要性が高まっており,自動化された図生成技術へのニーズがある。
    • 既存のベンチマークが存在せず,大規模言語モデルのシーケンス図生成の正確性を客観的に評価できない。
    • 大規模言語モデルのシーケンス図生成の信頼性を高め,実用的なソフトウェア開発への応用を促進する。
    • MermaidSeqBenchは,人間による検証とLLMによる拡張を組み合わせた,132サンプルからなるベンチマークである。
    • LLMを評価モデルとして活用し,構文の正確性,アクティベーション処理,エラー処理,実用性などの詳細な指標を用いて評価を行った。
    • 評価の結果,モデル間および評価モード間で能力に差があることが明らかになり,ベンチマークの有効性が示された。

    Link: https://arxiv.org/abs/2511.14967

  • 心不全患者における臨床的悪化と死亡リスクの1年予測:系列モデリングの活用 [cs.LG, cs.AI]目的:心不全患者の1年後の臨床的悪化と死亡リスクの予測
    • 心不全は有病率が高く,患者の予後不良に繋がる重大な疾患であるため,早期の重症化予測が重要である。
    • 日常的に収集される電子カルテデータから,患者の重症化や死亡リスクを高精度に予測することが困難である。
    • 電子カルテデータを用いて,心不全患者の臨床的悪化と死亡リスクを正確に予測し,より適切な退院後のケアを可能にすること。
    • 開発された系列モデルは,臨床的悪化の予測において0.555,死亡リスクの予測において最大0.854のAUPRCを達成し,高い予測性能を示した。
    • モデルサイズが大きいほど性能が向上するのではなく,LlamaやMambaといった小規模なモデルでも十分な性能が得られることが示された。
    • 臨床的悪化と死亡リスクの予測を組み合わせることで,患者のケアパスを分類し,個別化された退院後のケア計画を支援することが可能となった。

    Link: https://arxiv.org/abs/2511.16839

  • SPEAR-1:3次元理解を通じたロボットデモンストレーションのスケール拡大 [cs.RO, cs.LG]目的:ロボット制御のための汎用的なエンドツーエンドシステムの開発
    • ロボットの自律的な動作には,環境やタスクに適応する汎化能力が不可欠である。
    • 既存のロボットファウンデーションモデルは,2次元画像データに依存しており,3次元空間推論能力に課題がある。
    • 3次元アノテーションを付与した非ロボット画像データを用いて,ロボットの汎化性能向上を目指す。
    • SPEAR-VLMは,単一の2次元画像から3次元空間内の物体座標を推論する3次元認識能力を備えたVLMである。
    • SPEAR-1は,3次元認識と言語指示によるロボット制御を統合したファウンデーションモデルである。
    • SPEAR-1は,既存モデルと同等以上の性能を示しつつ,ロボットデモンストレーションの数を大幅に削減した。

    Link: https://arxiv.org/abs/2511.17411

  • 統計的ガイダンスに基づくメタ学習による分散型光ファイバセンシングにおけるクロスデプロイメント活動認識 [cs.LG, cs.AI, stat.ML]目的:クロスデプロイメント活動認識の課題解決
    • 長距離境界セキュリティにおいて,分散型光ファイバセンシングの重要性が高まっている。
    • 新たな環境への適用時に,ドメインシフトやラベル不足,クラス内変動の問題が存在する。
    • ラベルが少ない状況下でも,信頼性の高い活動認識を実現することを目指す。
    • 提案手法DUPLEは,時間・周波数領域の特徴を統合し,サンプル統計に基づいたクラス表現を適応させる。
    • プロトタイプベースのメタ学習により,クラス内変動を捉え,ドメイン信頼性を統計的に評価する。
    • 実世界データによる評価で,既存手法を上回り,ラベル不足環境下での認識精度と安定性を向上させた。

    Link: https://arxiv.org/abs/2511.17902

  • 分解された信頼:低ランクLLMにおけるプライバシー,敵対的頑健性,倫理,公平性 [cs.LG, cs.AI]目的:低ランクLLMにおける信頼性の多角的な評価
    • LLMは様々な分野で進歩をもたらしたが,その巨大さは実用上の制約となっている。
    • 低ランク分解は圧縮に有効だが,信頼性への影響は未解明な点が多かった。
    • 低ランク分解がLLMのプライバシー,頑健性,倫理,公平性に及ぼす影響を明らかにする。
    • 低ランク分解は学習データのプライバシーは維持するものの,会話中の個人情報保護は弱まる。
    • 圧縮により敵対的頑健性は一般的に向上する。
    • ゼロショットプロンプティングでは倫理性が低下するが,Few-shotプロンプティングでは部分的に回復する。また,圧縮により公平性は低下する。

    Link: https://arxiv.org/abs/2511.22099

  • REINFORCEとJames-Stein縮小を用いたインスタンスレベルのサンプリングスケジュールの設計 [cs.LG, cs.CV]目的:テキスト画像生成におけるサンプラーのサンプリングタイミングの再スケジュール
    • 拡散モデルは高品質な画像を生成するが,計算コストが高い。効率的なサンプリングが重要である。
    • 既存手法はモデルの重みを調整するため,汎用性や柔軟性に課題がある。
    • 固定されたグローバルなスケジュールではなく,インスタンスに応じたスケジュールを学習することで改善を図る。
    • 提示された手法は,Stable DiffusionやFluxモデルにおいて,テキストと画像の整合性を向上させる。
    • James-Stein推定量に基づく報酬ベースラインは,勾配推定誤差を低減し,性能向上に貢献する。
    • 5ステップのFlux-Devサンプラーが,蒸留サンプラーと同等の生成品質を達成できることを示した。

    Link: https://arxiv.org/abs/2511.22177

  • デルタXAI:オンライン時系列監視における予測変化の説明のための統一的フレームワーク [cs.LG, cs.AI]目的:オンライン時系列監視モデルの予測変化の説明
    • 医療や金融など,重要な意思決定の根拠となる時系列データの解釈可能性は重要である。
    • 既存のXAI手法は各時点を独立に分析し,時間的依存性を考慮していない場合が多い。
    • 予測変化の説明,オンライン動向の活用,評価の困難性という課題の解決を目指す。
    • デルタXAIは,14の既存XAI手法を適応させ,オンライン設定のための評価スイートを導入した。
    • 適応された勾配ベースの手法(IGなど)が,時間分析において最近の手法よりも優れた性能を示した。
    • 過去の観測を取り入れたSWINGは,時間的依存性を捉え,分布外の影響を軽減する有効性を示した。

    Link: https://arxiv.org/abs/2511.23036

  • 実行トレースに基づく検証可能な思考過程の生成 [cs.HC, cs.SE, cs.AI, cs.PL]目的:コードに関する言語モデルの正確な推論
    • コード理解は,ソフトウェア開発や自動化において不可欠であり,AI技術の応用範囲を広げる。
    • 従来の思考過程生成データは,検証可能なプログラム挙動に基づかず,論理的な誤りを含む場合がある。
    • プログラムの実行トレースを用いて,検証可能な思考過程を生成し,モデルの推論能力を向上させる。
    • 実行トレースを検証済みの思考過程データとして活用することで,言語モデルのコード推論能力が大幅に向上した。
    • LiveCodeBench-Exec,CruxEval,HumanEvalといったベンチマークテストで,最高+26.6%の改善が見られた。
    • 検証の質が,推論能力とコード生成能力の両方に直接影響することが示された。

    Link: https://arxiv.org/abs/2512.00127

  • SMP:物理ベースのキャラクター制御のための再利用可能なスコアマッチングモーション事前知識 [cs.CL, cs.GR, cs.AI, cs.CV, cs.RO]目的:再利用可能なタスク非依存のモーション事前知識の創出
    • リアルなバーチャルキャラクター作成において,自然な挙動を導くデータ駆動型モーション事前知識は重要である。
    • 敵対的模倣学習は有効だが,コントローラーごとに再学習が必要で,再利用性やデータ保持に課題がある。
    • 事前学習済みモーション拡散モデルとスコア蒸留サンプリングを用いて,再利用可能なモーション事前知識を構築する。
    • 本研究では,大規模データセットで学習した汎用モーション事前知識を,様々なスタイル固有の事前知識に再利用可能であることを示した。
    • SMPは異なるスタイルを組み合わせ,元のデータセットには存在しない新しいスタイルを合成できる。
    • 実験結果から,SMPは敵対的模倣学習と同等の高品質なモーションを生成し,様々な制御タスクで有効であることが示された。

    Link: https://arxiv.org/abs/2512.03028

  • LLMポストトレーニングのための分布価値モデリングに基づく方策最適化 [cs.LG, cs.AI]目的:LLMポストトレーニングにおける,分布価値モデリングに基づく方策最適化
    • 大規模言語モデルの性能向上は,多様な応用を可能にするため重要である。
    • 現実世界のノイズや不完全な教師データは,学習の不安定化や汎化性能の低下を招く。
    • ロバスト性と汎化性能のバランスを取り,現実世界での性能向上を目指す。
    • DVPOは,トークンレベルの価値分布を学習し,きめ細かい教師信号を提供する。
    • 非対称なリスク正則化により,ノイズの影響を抑制しつつ探索の多様性を維持する。
    • マルチターン対話,数学的推論,科学QAにおいて,既存手法を上回る性能を示す。

    Link: https://arxiv.org/abs/2512.03847