arXiv雑要約

AI - 2026/03/24 公開

  • 大規模言語モデルの語彙的指示追従性評価:LexInstructEval [cs.CL, cs.AI]目的:大規模言語モデルの語彙的指示追従性の評価
    • 大規模言語モデルの利用価値と制御可能性は,複雑な指示への正確な追従性に大きく依存する。
    • 既存の評価手法は,主観的な人手評価や,バイアスを含むLLMによる自動評価に頼ることが多い。
    • 複雑かつ詳細な指示に対する追従性を客観的に評価できるフレームワークの構築を目的とする。
    • LexInstructEvalは,複雑な指示を<手順,関係,値>の形式に分解する文法に基づいた新しい評価ベンチマークである。
    • 本フレームワークは,人間が介入するパイプラインを通じて多様なデータセットを体系的に生成し,透明性の高いプログラムエンジンによる客観的な検証を可能にする。
    • データセットと評価ツールを公開することで,大規模言語モデルの制御性と信頼性の研究を促進する。

    Link: https://arxiv.org/abs/2511.17561

  • 時宜を得た一手:自己教師ありPlackett-Luceランキングによる手続き型ワークフロー学習 [cs.CV, cs.AI]目的:手続き型活動におけるワークフローの学習
    • 人間の様々な活動は,時間的な順序を持つ一連の行動であり,その理解はロボット工学等に不可欠である。
    • 既存の自己教師あり学習は静止画像や短いクリップに重点を置いており,手続き型活動の順序構造を捉えきれていない。
    • ビデオフレームの順序情報を活用し,手続き型活動のワークフローをより正確に学習することを目指す。
    • 提案手法PL-Stitchは,フレームの時系列順序を学習させるPlackett-Luceモデルに基づく新しい自己教師あり学習フレームワークである。
    • PL-Stitchは,手術および調理の5つのベンチマークにおいて,既存手法を上回る性能を示した。
    • 特に,手術フェーズ認識と調理アクションセグメンテーションにおいて,大幅な精度向上を実現している。

    Link: https://arxiv.org/abs/2511.17805

  • 粒成長シミュレーションのスケーリング:畳み込みニューラルネットワークとグラフニューラルネットワークの組み合わせ [cs.LG, cond-mat.mtrl-sci]目的:粒成長シミュレーションにおける計算コストとメモリ使用量の削減
    • 材料の性能は微細構造に大きく依存するため,そのシミュレーションは重要である。
    • グラフニューラルネットワークは微細構造シミュレーションに有効だが,大規模なシミュレーションには計算資源が限られる。
    • 畳み込みニューラルネットワークとグラフニューラルネットワークを組み合わせることで,スケーラビリティと精度を向上させる。
    • 提案手法は,グラフニューラルネットワーク単独と比較して,計算コストを大幅に削減できることが示された。
    • 特に,大規模なメッシュ(160^3)において,メモリ使用量と実行時間をそれぞれ117倍,115倍削減することに成功した。
    • また,長期間のテストにおいて,グラフニューラルネットワーク単独よりも高い精度と時空間能力が確認された。

    Link: https://arxiv.org/abs/2511.17848

  • オープンウェイトゲノム言語モデルの安全対策:敵対的ファインチューニングによる堅牢性の評価 [cs.LG, cs.AI]目的:ゲノム言語モデルの安全性を評価する研究
    • 遺伝子配列を含む生物学的データへの深層学習の応用が進み,その能力の高さから悪用の懸念が生じている。
    • 事前学習データのフィルタリングが主な対策だが,オープンソースモデルへの悪用目的のファインチューニングに対する有効性は不明である。
    • ファインチューニングによる,データ除外の回避可能性と悪用能力の回復度合いを評価する。
    • ファインチューニングされたモデルは,事前学習済みモデルやバクテリオファージでファインチューニングされたモデルと比較して,未知のウイルス配列に対するパープレキシティが低下した。
    • ヒト感染ウイルスでファインチューニングされたモデルは,SARS-CoV-2配列に触れていないにもかかわらず,SARS-CoV-2の免疫逸変異種を識別できた (AUROC 0.6)。
    • データ除外はファインチューニングによって回避可能であり,ゲノム言語モデルの安全対策フレームワークの必要性が示唆された。

    Link: https://arxiv.org/abs/2511.19299

  • 都市環境における歩行者横断意図予測のためのマルチコンテキスト融合Transformer [cs.CV, cs.AI]目的:歩行者の横断意図予測の精度向上
    • 自動運転技術の安全性向上に不可欠であり,交通事故削減に貢献する。
    • 都市環境では,歩行者の行動に影響する要素が多岐にわたり,正確な予測が困難である。
    • 多様なコンテキスト情報を融合し,より精度の高い歩行者意図予測を実現する。
    • 提案手法MFTは,JAADbeh,JAADall,PIEの各データセットで,それぞれ73%,93%,90%の精度を達成した。
    • MFTは,歩行者,環境,位置,車両の動きという4つのコンテキストを段階的に融合することで,効果的な特徴抽出を実現した。
    • アブレーションスタディにより,ネットワーク構造と各入力コンテキストの有効性が確認された。

    Link: https://arxiv.org/abs/2511.20011

  • グループ相対方策最適化によるリアルタイム長期間大気質予測 [cs.CV, cs.AI]目的:リアルタイム長期間の大気質予測のためのフレームワーク
    • 大気汚染は人々の健康に深刻な影響を与え,その予測は公衆衛生対策において不可欠である。
    • 複雑な地形や大気力学を持つ地域では,正確な予測が困難であり,地域特有の動態を捉えることが課題である。
    • 非対称な運用コストを考慮し,誤報を減らしつつ重大な事象の見逃しを防ぐことで,予測の信頼性を向上させる。
    • 本研究では,東アジアにおける地域誤差を59.5%削減し,リアルタイムでの48-120時間予測を可能にする高解像度データセットを構築・公開した。
    • グループ相対方策最適化(GRPO)を導入し,誤報率を47.3%削減し,F1スコアも維持することで,予測の信頼性を大幅に向上させた。
    • 本フレームワークは,実用的な長期間の大気質予測システムにおいて効果的であることが示された。

    Link: https://arxiv.org/abs/2511.22169

  • 進歩の代償:AIの価格性能と将来 [eess.SY, cs.SY, cs.LG, cs.AI, cs.CY]目的:AIの価格性能の推移と将来展望
    • AI技術の発展は,経済成長や社会課題の解決に大きく貢献する可能性を秘めている。
    • ベンチマーク上の性能向上は,費用対効果を伴わない場合があり,実用的な能力の進歩を歪めてしまう。
    • ベンチマーク実行コストと性能の関係を分析し,AIの真の進歩を評価するための指標を提示する。
    • 最先端モデルにおいて,ベンチマーク性能あたりの価格は年率約5倍から10倍の速さで低下していることが判明した。
    • このコスト低下は,経済的な要因,ハードウェア効率の向上,アルゴリズム効率の向上によるものである。
    • 一方で,最先端モデルの実行コストは,モデルの規模拡大と推論需要の増加により,年率3倍から18倍で上昇している。

    Link: https://arxiv.org/abs/2511.23455

  • 衛星から現地へ:災害影響度推定器 [cs.CV, cs.AI]目的:災害影響度推定
    • 災害発生時の迅速な復旧活動には,正確な被害状況の把握が不可欠である。
    • 従来の被害状況把握は人手による衛星画像解釈に依存し,時間と労力を要する。
    • 大規模災害時の迅速かつ客観的な被害状況把握を可能にすること。
    • 本研究で開発されたフレームワークは,既存のセグメンテーションネットワークと比較して,より高い精度で被災地域の分類を実現する。
    • 生成された被害マップは,専門家の判断を補完する形で,災害影響の分析を迅速化し,客観性を高める。
    • 本システムは,軽微な影響から完全な破壊まで,被害の程度を識別し,より詳細な状況把握に貢献する。

    Link: https://arxiv.org/abs/2512.00065

  • ギンツブルク・ランダウ力学のための適応スペクトル物理活性化ネットワーク (ASPEN) [cs.RO, cs.LG, physics.app-ph]目的:偏微分方程式求解のための新しいネットワークアーキテクチャの開発
    • 物理現象のシミュレーションは,科学技術の進歩に不可欠であり,高精度な数値解法が求められている。
    • 従来のニューラルネットワークは,高周波成分の表現に乏しく,高解像度のシミュレーションが困難である。
    • 本研究では,適応スペクトル基底を組み込むことで,高周波成分を効率的に学習し,複雑な物理現象を正確にシミュレーションする。
    • ASPENは,標準的なPINNが失敗する複雑なギンツブルク・ランダウ方程式を,高い精度で解くことに成功した。
    • 予測解は,高解像度の正解と視覚的に区別がつかず,物理残差の中央値は5.10 x 10^-3と低い値を示した。
    • ASPENは,点ごとの精度に加え,自由エネルギーの急速な緩和やドメインウォールフロントの長期安定性など,物理的に整合した結果を得た。

    Link: https://arxiv.org/abs/2512.03290

  • AdaptVision:適応的な視覚獲得による効率的な視覚言語モデル [cs.CV, cs.AI, cs.CL, cs.LG]目的:視覚言語モデルの効率化
    • 視覚言語モデルは画像とテキストの理解において目覚ましい進歩を遂げている。
    • 従来の効率化手法は固定的な圧縮率に依存し,タスクに応じた柔軟性に欠ける。
    • 各サンプルに必要な最小限の視覚トークン数をモデルが自律的に決定することを目指す。
    • AdaptVisionは粗い解像度から徐々に詳細な情報を獲得する手法により,効率的な処理を実現した。
    • 強化学習フレームワークとDecoupled Turn Policy Optimization(DTPO)により,精度と効率のバランスを最適化した。
    • 複数のVQAベンチマークで,既存手法を上回る性能と視覚トークン数の削減を達成した。

    Link: https://arxiv.org/abs/2512.03794

  • BERnaT:自然言語の多様性を表現するためのバスク語エンコーダ [cs.CL, cs.AI]目的:自然言語の多様性の表現
    • 言語モデルの性能は学習データに大きく依存するため,多様な言語変種を含むことが重要である。
    • 従来の言語モデルは標準化されたテキストに偏りがちで,多様な言語変種への対応が課題である。
    • 言語モデルにおける言語多様性の重要性を示し,包摂的かつ汎用的なモデル構築を目指す。
    • 標準データと多様なデータで学習させたモデルは,標準データのみで学習させたモデルを常に上回る性能を示した。
    • 多様な言語変種を含むことで,あらゆるタスクタイプにおいて性能が向上し,標準的なベンチマークの精度も損なわれないことが確認された。
    • 言語多様性は,包括的で汎用性のある言語モデルを構築する上で不可欠であることが示唆された。

    Link: https://arxiv.org/abs/2512.03903

  • 線形代替モデルを超えて:ブラックボックスモデルの高忠実度局所的説明 [cs.LG, cs.AI]目的:ブラックボックスモデルの予測に対する高忠実度な説明の生成
    • 機械学習モデルの複雑化と重要分野への応用が進む中,予測の根拠を説明することが不可欠である。
    • 既存の局所的説明手法は,十分な忠実度を持つ説明を生成する能力に課題がある。
    • 提案手法は,より忠実度の高い局所的説明を生成し,ブラックボックスモデルの挙動を正確に捉えることを目指す。
    • 提案手法は,マルチバリアート適応回帰スプライン(MARS)とN-ボールサンプリングを用いることで,局所的な忠実度を高めている。
    • 実験結果から,提案手法は既存手法と比較して,平均して二乗平均平方根誤差(RMSE)を32%削減し,より正確な局所近似を実現していることが示された。
    • 統計的分析により,提案手法の結果が全てのベンチマークデータセットで統計的に有意に優れていることが確認された。

    Link: https://arxiv.org/abs/2512.05556

  • M4-RAG:大規模多言語多文化マルチモーダルRAG [cs.CL, cs.AI, cs.CV]目的:大規模多言語多文化マルチモーダルRAGの評価基盤
    • 視覚と言語を組み合わせたモデルはVQAで高い性能を示す。しかし,学習データに限界がある。
    • RAGは最新情報を取り込めるが,多言語・多文化に対応したRAGは未発達である。
    • 多言語・多文化環境におけるRAGの性能評価と課題の明確化を目指す。
    • M4-RAGは42言語,56方言,189カ国に対応する8万件以上の画像質問ペアから構成される。
    • RAGは小規模モデルには有効だが,大規模モデルでは性能が向上せず,むしろ低下する場合がある。
    • 非英語でのプロンプトや検索結果は,性能低下を引き起こすことが示された。

    Link: https://arxiv.org/abs/2512.05959

  • 対立を意識した融合:構造化された認知事前知識による大規模言語モデルの論理慣性の緩和 [cs.AI, cs.CL, cs.LG, cs.LO]目的:大規模言語モデルにおける論理慣性緩和
    • 自然言語処理の高度化に伴い,大規模言語モデルの信頼性確保が重要課題となっている。
    • 既存の大規模言語モデルは,規則ベースのシステムに対する構造化された摂動に対して脆弱である。
    • 矛盾する情報に対するロバスト性を高め,信頼性の高い推論を可能にすることを目指す。
    • 本研究では,対立を意識した融合(Fusion-Conflict)というフレームワークを提案し,論理慣性を効果的に緩和できることを示した。
    • 提案手法は,前提の検証と論理的推論を分離する二重プロセスアーキテクチャを採用することで,矛盾下でも高い精度を達成した。
    • 構造的な検証規律が,学習データの規模と並んで,信頼性の高い多段階推論に不可欠であることを示した。

    Link: https://arxiv.org/abs/2512.06393

  • 常に約束を守れ:ニューラルネットワークのためのモデル非依存な帰属アルゴリズム [cs.CL, cs.LG]目的:ニューラルネットワークの帰属アルゴリズムのモデル非依存性
    • 深層学習モデルの説明可能性は,モデルの信頼性向上やデバッグに不可欠である。
    • 既存の帰属手法は,特定のアーキテクチャに依存し,モデル変更が必要となる場合がある。
    • 様々なアーキテクチャに対応可能な,汎用的な帰属フレームワークの構築を試みる。
    • DynamicLRPは,テンソル演算レベルで動作するモデル非依存なLRPフレームワークである。
    • 提案手法は,VGG,ViT,RoBERTa-large,Flan-T5-largeにおいて,既存手法と同等以上の性能を示す。
    • 多様なアーキテクチャ(Mamba,Whisper,DePlot等)に対して,モデル固有のコードなしで99.92%のノードカバレッジを達成した。

    Link: https://arxiv.org/abs/2512.07010

  • バスク語学習における自動エッセイ評価とフィードバック生成 [cs.CL, cs.AI]目的:バスク語の自動エッセイ評価およびフィードバック生成のためのデータセット
    • 言語学習において,客観的で効率的な評価は重要であり,学習者の進捗を把握し,改善を促す上で不可欠である。
    • 低リソース言語であるバスク語においては,自動評価システムの構築に必要な学習データが不足していた。
    • バスク語学習者のエッセイを評価し,詳細なフィードバックを提供するシステムを構築し,教育的効果を検証すること。
    • 本研究で公開されたデータセットを用いて,RoBERTa-EusCrawlやLatxaなどのオープンソースモデルをファインチューニングした。
    • ファインチューニングされたLatxaモデルは,GPT-5やClaude Sonnet 4.5といった商用モデルを上回り,評価の一貫性とフィードバックの質で優れた性能を示した。
    • 新しいフィードバック生成評価手法を提案し,Latxaモデルが基準に合致し,教育的に意味のあるフィードバックを生成することを示した。

    Link: https://arxiv.org/abs/2512.08713

  • Attentionにおけるトークンサンプル複雑性 [cs.LG]目的:大規模言語モデルにおけるAttentionの収束率の評価
    • 言語モデルの文脈窓拡大に伴い,Attention機構の長系列における振る舞いの理解が重要である。
    • Attention機構は,系列長が長くなるほど計算コストが増大し,収束性が課題となる。
    • トークン数に対するAttentionの無限系列への収束速度を定量的に評価する。
    • Attentionマップの収束率は,半径Rの球上でC(R)/√nの割合で低下する。
    • 分布のサポートサイズに依存するC'(R)/nβの割合で,変換されたトークン分布のモーメントが収束する。
    • Attentionパラメータが無限大に近づく場合,収束率は対数的に低下する。

    Link: https://arxiv.org/abs/2512.10656

  • 離散拡散モデルのための誘導転移学習 [cs.LG]目的:離散拡散モデルにおける転移学習手法の開発
    • 拡散モデルは,言語など離散的なデータに対して高い性能を示す有望な手法である。
    • 拡散モデルは大規模なデータセットを必要とし,小規模データでの性能向上が課題である。
    • 本研究は,小規模データでも有効な転移学習手法を離散拡散モデルに適用し,性能改善を目指す。
    • 提案手法であるGTLは,事前学習済みのノイズ除去器を修正せずに,ターゲット分布からのサンプリングを可能にする。
    • ターゲットデータ量が大きい場合はファインチューニングが,小さい場合はGTLがより効果的であることが示された。
    • ソース分布とターゲット分布の重なりが少ない場合,GTLの誘導に使用する分類器の信頼性が低下し,性能が制限されることが確認された。

    Link: https://arxiv.org/abs/2512.10877

  • Flowception:ビデオ生成のための時間的に拡張されたフローマッチング [cs.CL, cs.CL, cs.CY, cs.CV, cs.AI]目的:ビデオ生成のための新たなフレームワーク
    • ビデオ生成技術は,エンターテイメントやコンテンツ制作など多岐にわたる分野で重要性が増している。
    • 既存のビデオ生成手法は,長時間の動画生成においてエラーの蓄積やドリフトが発生しやすいという課題がある。
    • Flowceptionは,エラー蓄積を軽減し,効率的な長期コンテキスト処理を実現することを目的とする。
    • Flowceptionは,離散的なフレーム挿入と連続的なフレームノイズ除去を組み合わせることで,高品質なビデオ生成を可能にする。
    • 従来の自己回帰モデルと比較して,計算コストを大幅に削減し,ローカルアテンションとの相性も良い。
    • FVDやVBenchといった定量的な評価指標において,既存手法を上回る性能を示しており,視覚的な結果からもその有効性が確認された。

    Link: https://arxiv.org/abs/2512.11438

  • VoroLight:球体交差によるボロノイ表面メッシュの学習 [cs.CG, cs.CV, cs.GR, cs.LG, math.OC]目的:3D形状再構成のためのボロノイ表面メッシュの学習
    • 3D形状の表現方法として,凸性,水密性,トポロジーの一貫性が重要視される。
    • 従来の微分可能なボロノイ法では,生成点の配置が安定化しやすく,表面形状が不均一になりやすい。
    • 滑らかな表面再構成を可能にする制御されたボロノイ退化を促進し,形状の不均一性を解消する。
    • VoroLightは,各ボロノイ表面頂点に学習可能な球体を関連付け,球体交差損失を導入することで,表面の規則性を向上させる。
    • この手法は,水密性や凸性といったボロノイ本来の特性を維持しながら,多様な入力形式(暗黙的フィールド,点群,メッシュ,マルチビュー画像)からの形状監視を可能にする。
    • 内側生成点を追加することで,一貫した表面-内部トポロジーを持つ体積ボロノイメッシュにも自然に拡張でき,高い再構成精度と滑らかな表面を実現する。

    Link: https://arxiv.org/abs/2512.12984

  • 複数視点画像からの物理ベースマテリアル再構成のための本質画像融合 [cs.CV, cs.AI]目的:複数視点画像からの高品質な物理ベースマテリアルの再構成
    • 現実世界の再現には,正確なマテリアル表現が不可欠であるため,その再構成技術は重要性が高い。
    • マテリアル再構成は制約が少なく,ノイズを含むレンダリングによる試行錯誤に頼る傾向がある。
    • 単一視点からの事前知識を活用し,一貫性のない推定を統合することで,再構成の精度向上を目指す。
    • 提案手法は,拡散ベースのマテリアル推定器の予測に対し,低次元のパラメータ関数を適用することで不整合を軽減する。
    • 視点ごとの予測選択と信頼度に基づくインライアセットを利用したロバストな最適化フレームワークを提案し,一貫性のあるマテリアル空間を構築する。
    • 合成および実写データセットにおいて,最先端手法を凌駕するマテリアル分離性能と高品質な再構成を実現した。

    Link: https://arxiv.org/abs/2512.13157

  • 表形式データのための疎な自己符号化器を用いた解釈可能なニューラルネットワーク XNNTab [cs.LG]目的:表形式データに対する解釈可能性
    • データに基づいた応用において,解釈性は重要な要件である。
    • ニューラルネットワークは予測性能が高いが,ブラックボックスであるため利用が進まない。
    • ニューラルネットワークの表現力と解釈可能性を両立させる。
    • XNNTabは,非線形な特徴表現を学習し,疎な自己符号化器を用いて単義的な特徴に分解する。
    • これらの特徴に人間が理解可能な概念を割り当てることで,モデルの予測を解釈可能にする。
    • XNNTabは,解釈可能な予測モデルよりも優れた性能を示し,解釈不可能なモデルと同等の性能を達成する。

    Link: https://arxiv.org/abs/2512.13442

  • 動的な重み生成に基づく大規模言語モデルの大規模編集 [cs.AI]目的:大規模言語モデルにおける知識編集の性能向上
    • 大規模言語モデルの性能は知識に依存する。知識の迅速な更新は重要である。
    • 既存手法では,大規模編集時の信頼性,一般性,局所性の維持が課題である。
    • 動的な重み生成により,大規模な知識編集を効率的に実現することを試みる。
    • 提案手法MeGは,動的重みニューロンを特定の層に付加し,拡散モデルで重みを生成する。
    • MeGは,既存手法と比較して,信頼性,一般性,局所性の指標において大幅な改善を示す。
    • 特に局所性の指標において絶対値の増加率が高く,提案手法の優位性を示す。

    Link: https://arxiv.org/abs/2512.14395

  • TTP:Vision-Languageモデルにおける敵対的検出とロバスト適応のためのテスト時パディング [cs.CV, cs.AI]目的:Vision-Languageモデルに対する敵対的摂動の検出と,それに伴うロバスト適応
    • Vision-Languageモデルはゼロショット認識性能が高いが,安全性に関わる場面での脆弱性が課題。
    • 既存の防御策は再学習が必要,もしくは敵対的入力と正常入力の識別が困難である。
    • テスト時に敵対的入力を検出し,注意機構を回復することでロバスト性と精度を向上させる。
    • 提案手法TTPは,空間パディングによる特徴埋め込みのコサイン類似度変化を利用して敵対的入力を高精度に検出する。
    • 検出された敵対的入力に対しては,学習可能なパディングと類似度を考慮したアンサンブル戦略を適用し,ロバスト性を高める。
    • 様々なCLIPモデルやベンチマークにおいて,既存のテスト時防御法を上回り,精度を維持しつつ敵対的ロバスト性を向上させる。

    Link: https://arxiv.org/abs/2512.16523

  • 情報理論圧縮による適応的離散動画トークナイザー:InfoTok [cs.CV, cs.AI]目的:長編動画処理のための,正確かつ効率的な離散動画トークナイズ処理
    • 動画は複雑で情報密度が変動するため,効率的な処理が重要である。
    • 既存のトークナイザーは固定レートで圧縮するため,冗長性や情報損失が生じやすい。
    • 情報量に応じてトークンを割り当てることで,より効率的な動画表現を目指す。
    • 本研究で提案するInfoTokは,情報理論に基づき,動画のトークナイズを適応的に行うフレームワークである。
    • 実験結果から,InfoTokは既存手法と比較して,トークン数を20%削減しつつ,性能を維持していることが示された。
    • また,2.3倍の圧縮率を達成し,ヒューリスティックな適応的アプローチよりも優れていることが確認された。

    Link: https://arxiv.org/abs/2512.16975

  • 他者の報酬価値の明示的な推論なしにおける社会的比較:確率的生成モデルを用いた構成的アプローチ [cs.AI]目的:社会的比較における報酬価値評価のメカニズム解明
    • 社会的比較は,嫉妬などの社会的情緒の基盤であり,高等霊長類の社会認知に不可欠である。
    • 他者の報酬情報が自身の報酬評価にどのように影響するかは未だ不明であり,課題であった。
    • 客観的な報酬の差と主観的な報酬価値の推論のどちらが社会的比較の基盤となるかを検証する。
    • ECM(External Comparison Model)が最も高い分類結果(Rand index 0.88)を示した。
    • この結果は,社会的比較が主観的な報酬価値の推論よりも,客観的な報酬の差に依存することを示唆する。
    • 本研究では,人工システムを構築することで,サルが社会的文脈でどのように行動するかをシミュレートした。

    Link: https://arxiv.org/abs/2512.18687

  • 症例ベースのプロンプティングによる大規模言語モデルを用いた集中治療室(ICU)死亡率予測の公平性向上 [cs.LG]目的:大規模言語モデルを用いたICU死亡率予測における公平性と性能の最適化
    • 集中治療室における患者の死亡リスク予測は,臨床判断の重要な基盤となる。
    • 大規模言語モデルは予測性能が高い一方,性別,年齢,人種などの属性に基づく偏りが存在する。
    • 既存のバイアス軽減手法は予測精度を低下させるため,公平性と精度の両立が課題である。
    • 症例ベースのプロンプティング(CAP)により,AUROCが0.806から0.873へ,AUPRCが0.497から0.694へと向上した。
    • CAPの導入により,性別や人種間の予測格差が90%以上大幅に軽減された。
    • グループ間の注意パターンの一貫性が確認され,類似度が0.98以上となった。

    Link: https://arxiv.org/abs/2512.19735

  • 法的歴史における時間的感情と意味の進化に関する分析:AETAS [cs.DL, cs.CY, cs.LG]目的:法的歴史における感情と意味の経時的変化の定量化
    • 歴史研究において,言語の変化を追跡することで社会の変化や思想の変遷を理解することが重要である。
    • 既存の研究では,質の高い読解と定量的な分析のバランスが難しく,解釈の透明性に課題があった。
    • 本研究は,言語の変化を再現性と解釈可能性をもって定量的に分析する手法を確立し,歴史研究に貢献することを目指す。
    • Old Bailey Corpus (1674-1913)を用いて,単語の意味変化と不安定性を分析するパイプラインを開発した。
    • 感情と意味の変化を可視化し,司法,犯罪,貧困,精神疾患といった概念が,刑罰改革や社会情勢とどのように関連しているかを明らかにした。
    • 本パイプラインは,他の歴史的なコーパスにも適用可能であり,再現性と検証可能性を確保している。

    Link: https://arxiv.org/abs/2512.22196

  • ハイブリッド・コード v2:神経記号的検証と自動知識ベース拡張による幻覚ゼロの臨床ICD-10コーディング [cs.SE, cs.AI]目的:臨床ICD-10コーディングにおける幻覚の排除と,高い網羅率・精度
    • 医療分野における正確な診断と効率的な医療管理のために,ICD-10コーディングの自動化が不可欠である。
    • ニューラルネットワークによるコーディングは高性能だが,誤ったコードを生成する「幻覚」の問題を抱えている。
    • 本研究は,神経記号的アプローチにより幻覚を排除し,知識ベースの拡張を自動化することで,実用的なコーディングシステムを実現する。
    • Hybrid-Code v2は,多層検証を通じて幻覚を完全に排除し,高い精度(92%)を達成した。
    • MIMIC-IIIデータセットにおいて,従来のルールベースシステムよりも網羅率(85%)を40%向上させた。
    • ニューラルベースライン(6-18%)で観測された幻覚を解消し,安全性の高い医療AIシステム構築の可能性を示した。

    Link: https://arxiv.org/abs/2512.23743

  • リャプノフ証明書を用いた指数的安定化制御のための多段階アクタークリティック学習 [cs.RO, cs.LG, cs.AI, cs.RO, cs.SY, eess.SY]目的:指数的安定化制御のための多段階アクタークリティック学習手法
    • 複雑な環境下での制御は重要であり,特に限られたデータでの効率的な学習が課題である。
    • 既存の強化学習は,報酬設計の複雑さや単段階の制約に依存し,汎化性能に課題がある。
    • リャプノフ証明書を導入し,探索的な学習を促進することで,効率的かつ安定な制御を実現する。
    • MSACLは,標準的な強化学習手法や最新のリャプノフベースの強化学習アルゴリズムと比較して,一貫した性能向上を示した。
    • MSACLは,環境の不確実性に対するロバスト性を示し,未知の参照信号への汎化が可能であることが示された。
    • 指数的安定性をオフポリシー最大エントロピー強化学習に統合することで,迅速な収束と堅牢な状態収束を促進する。

    Link: https://arxiv.org/abs/2512.24955

  • 複雑リーマン多様体上の反応拡散ダイナミクスに対する内在的計量物理情報ニューラルネットワーク (IM-PINN) [cs.RO, cs.SY, eess.SY, cs.LG, cs.AI]目的:複雑リーマン多様体上の非線形反応拡散ダイナミクスのシミュレーション手法
    • 形態形成の計算においては,複雑な形状を正確に表現することが重要であり,多様体上での物理現象のシミュレーションが不可欠である。
    • 高精度なメッシュ生成コストや,離散時間ステップスキームにおけるシンプレクティックドリフトが,シミュレーションの課題となっている。
    • メッシュフリーな幾何深層学習フレームワークにより,幾何学的離散化に依存せず,物理現象を直接連続空間で解くことを目指す。
    • IM-PINNは,リーマン計量テンソルを自動微分グラフに組み込み,ラプラス・ベルトランミ演算子を解析的に再構築することで,解の複雑さと幾何学的離散化を分離する。
    • 極端なガウス曲率変動を持つ「確率的布」多様体において,従来の適応細分化がアニソトロピックチューリング不安定性を解決できない状況で,IM-PINNがGray-Scottモデルの「分裂スポット」と「迷路状」のパターンを再現した。
    • 表面有限要素法(SFEM)とのベンチマークでは,IM-PINNが質量保存誤差 $\mathcal{E}_{mass} \approx 0.157$ (SFEM: $0.258$) を達成し,熱力学的に整合性の高いグローバルソルバーとして機能する。

    Link: https://arxiv.org/abs/2601.00834

  • 収縮拡散ポリシー:微分方程式を用いた収縮スコアベースサンプリングによるロバストな行動拡散 [cs.LG, cs.RO]目的:オフラインポリシー学習のためのロバストな行動拡散
    • 継続的な制御問題において,生成モデルの性能が重要であり,拡散ポリシーはその有力な選択肢となる。
    • 拡散ポリシーは,柔軟性が高い反面,ソルバー誤差やスコアマッチング誤差の影響を受けやすく,行動生成の一貫性に課題がある。
    • ソルバー誤差やスコアマッチング誤差に対するロバスト性を向上させ,行動のばらつきを抑制することで,より安定した制御を実現する。
    • 収縮拡散ポリシー(CDP)は,拡散サンプリングダイナミクスに収縮性を誘導し,ソルバー誤差やスコアマッチング誤差に対するロバスト性を高める。
    • CDPは,データ不足時において特に優れた性能を発揮し,既存のベースラインポリシーを上回る結果が得られた。
    • 理論的分析と実装方法を提示し,既存の拡散ポリシーアーキテクチャへの導入を容易にした。

    Link: https://arxiv.org/abs/2601.01003

  • 視覚言語モデルにおける物理的ダイナミクスと意図推論の性能 [cs.CV, cs.AI, cs.LG]目的:物理的ダイナミクスと意図推論に関する視覚言語モデルの性能評価
    • 身体性を伴う認知において空間知性は重要であり,AIシステムの進歩が求められている。
    • 既存の視覚言語モデルは,現実世界の複雑な物理的相互作用の理解に課題を抱えている。
    • 意図を考慮した空間変化の推論能力(Teleo-Spatial Intelligence)を評価し,そのギャップを特定する。
    • 最先端の視覚言語モデルの精度は57.26%にとどまり,人間の初回応答精度(84.81%-95.14%)を大きく下回る。
    • 実世界のデータによるファインチューニングはギャップを縮小するものの,完全に埋めるには至らない。
    • EscherVerseは,目的を意識した空間推論を診断するためのテストベッドとして機能し,AIの理解度と人間の理解度の差を浮き彫りにする。

    Link: https://arxiv.org/abs/2601.01547

  • SIGMA:LLMモデル崩壊に対するスケーラブルなスペクトル洞察 [cs.HC, cs.LG, math.PR]目的:LLMモデル崩壊の定量化と予測手法
    • LLMの性能向上には大量の学習データが不可欠であり,合成データ活用が重要視されている。
    • 合成データによる再帰的学習は,表現力の低下や分布の偏りを招く「モデル崩壊」を引き起こす可能性がある。
    • モデル崩壊の兆候を早期に検出し,学習プロセスを安定化させるための指標が求められている。
    • SIGMAは,埋め込みグラム行列のスペクトル解析を通じてモデル崩壊を評価する新しいフレームワークである。
    • スペクトルの上下限を数学的に導出し,表現空間の収縮を定量的に追跡することを可能にする。
    • 大規模モデルへの適用を可能にするスケーラブルな推定手法を導入し,理論的洞察と実践的ツールを提供する。

    Link: https://arxiv.org/abs/2601.03385

  • 不確実性下におけるAI専門性の錯覚:確率的パラダイムによる曖昧な正解への対処 [cs.AI]目的:AIシステムの能力評価における不確実性の影響の理論的解明
    • AI技術の発展は目覚ましいが,その性能評価には専門家の主観や不確実性が介在する。
    • 既存の評価方法は,正解データの不確実性を考慮せず,誤った結論を導く可能性がある。
    • 正解データの不確実性が評価に与える影響を定量化し,より信頼性の高い評価手法を提案する。
    • 正解データの確実性が低い場合,専門家とランダムなラベル付け者の成績に差が見られないことが示された。
    • 期待される精度とF1スコアという概念を導入し,正解データの変動性を考慮した評価が可能になった。
    • システムの能力評価において,正解データの確率に基づいて層別化された評価が推奨される。

    Link: https://arxiv.org/abs/2601.05500

  • 目標力:物理条件に基づいた目標を達成するようにビデオモデルを教育する [cs.DL, cs.CV, cs.AI, cs.RO]目的:物理条件に基づいた目標達成のためのビデオモデルの教育
    • ロボット工学や計画において,将来の予測を可能にする「ワールドモデル」の重要性が増している。
    • テキスト指示は抽象的すぎ,目標画像は動的なタスクに対して実現不可能な場合が多い。
    • 力ベクトルと中間的なダイナミクスを通じて目標を定義し,物理的なタスクの概念化を可能にする。
    • モデルは,単純な物理データで訓練されているにも関わらず,現実世界の複雑なシナリオへのゼロショット汎化を示す。
    • ビデオ生成を基本的な物理的相互作用に固定することで,モデルは暗黙的なニューラル物理シミュレーターとして機能する。
    • これにより,外部エンジンに依存せずに,精密かつ物理に配慮した計画が可能になる。

    Link: https://arxiv.org/abs/2601.05848

  • 反復的な時間推論の測定:時間パズルによる評価 [cs.CL, cs.CL, cs.CL, cs.AI]目的:反復的な時間推論能力の評価
    • 言語モデルの性能向上には,実用的な時間推論能力が不可欠である。
    • 既存の評価基準は,ツール利用を伴わない静的な設定に偏っている。
    • ツール利用下での反復的な時間推論における課題解決を目指す。
    • 既存のLLMは,ツールなしでは時間パズルにおいて55.3%の精度しか得られていない。
    • ウェブ検索によるツール利用は性能を向上させるものの,改善には限界が見られる。
    • 制約を具体的な日付で書き換えることで,事実検索の必要性をなくし,性能が大幅に向上する。

    Link: https://arxiv.org/abs/2601.07148

  • ソフトウェアエンジニアリングにおけるAI生産性指標APEX-SWE [cs.SE, cs.AI, cs.CL]目的:ソフトウェアエンジニアリングにおける最先端AIモデルの経済的価値評価
    • ソフトウェア開発の効率化は,経済成長と技術革新の鍵となる。
    • 既存の評価は限定的なタスクに偏り,現実世界の複雑な課題に対応できない。
    • 現実的なソフトウェアエンジニアリングタスクの実行能力を総合的に評価する。
    • APEX-SWEは,統合タスクとオブザーバビリティタスクという2つの新しいタスクタイプを用いて評価を行う。
    • Claude Opus 4.6がPass@1で40.5%とAPEX-SWEリーダーボードで首位となり,Claude Opus 4.5が38.7%で続いた。
    • 高い性能は,仮定と検証済みの事実を区別する「認識的厳密性」に起因し,行動前の体系的な検証と組み合わされることが示された。

    Link: https://arxiv.org/abs/2601.08806

  • あなたの推論モデルは推論しているのか,それとも推測しているのか?階層的推論モデルのメカニズム分析 [cs.RO, cs.AI, cs.LG]目的:階層的推論モデルの推論パターンに関するメカニズム研究
    • 推論は高度な認知機能であり,AIの知能化に不可欠な要素である。
    • 既存の推論モデルは,複雑な問題に対して頑健な推論能力を持つことが課題である。
    • 階層的推論モデルが持つ推論のメカニズムを解明し,その性能限界を克服すること。
    • 階層的推論モデルは,極めて単純な問題においても失敗することが示された。これは固定点特性の違反に起因する。
    • 推論ステップにおいて,「グロキング」と呼ばれる現象が確認された。これは,特定のステップで突然正解に至る現象である。
    • モデルが複数の固定点を持つことが明らかになった。モデルは最初の固定点に「推測」によって到達し,誤った解に陥ることがある。データ拡張,入力摂動,モデルブートストラップにより,精度が大幅に向上した。

    Link: https://arxiv.org/abs/2601.10679

  • 長期記憶を活用した探索:具現化された探索のためのベンチマークとマルチモーダルLLMベースの強化学習フレームワーク [cs.AI, cs.CV]目的:具現化された探索における長期記憶の活用
    • 汎用環境での継続的な運用には,長期的かつ複雑なタスクに対応できる生涯学習能力が不可欠である。
    • 既存の具現化タスクはタスク完了結果に偏っており,探索プロセスと記憶の利用が軽視されている。
    • 具現化された探索のプロセスと結果を包括的に評価するためのベンチマークと手法を提案する。
    • 提案手法MemoryExplorerは,強化学習によるマルチモーダル大規模言語モデルのファインチューニングにより,積極的な記憶検索を促進する。
    • マルチタスク報酬関数(行動予測,フロンティア選択,質疑応答)を用いることで,積極的な探索を実現している。
    • 最先端の具現化された探索モデルに対する広範な実験により,提案手法が長期的タスクにおいて有意な利点を持つことが示された。

    Link: https://arxiv.org/abs/2601.10744

  • 低リソースアラビア語AudioLLMのためのデータスケジューリングによるマルチタスク命令チューニング [cs.SD, cs.AI, cs.CL, eess.AS]目的:低リソースアラビア語環境におけるAudioLLMのマルチタスク命令チューニング手法
    • 音声言語モデルは音声理解と生成を統合するが,アラビア語のような言語的複雑さを持つ環境への適応は困難である。
    • アラビア語の音声要約データセットの不足が,アラビア語に特化したAudioLLMの開発を阻害している。
    • 低リソース環境で効率的かつロバストなマルチタスク学習を実現し,アラビア語AudioLLMの性能向上を目指す。
    • 多様なサンプリング(ADS)は,初期収束を加速し,副言語的性能を向上させるが,他のタスクの性能を低下させる。
    • 2段階のTPC→ADS戦略は,タスク間のバランスが最も良く,低リソースで多様な環境への適応に有効である。
    • アラビア語音声要約データセットAraMega-SSumと実験資源を公開し,研究コミュニティに貢献する。

    Link: https://arxiv.org/abs/2601.12494

  • ラベルのみオラクルを用いたスペクトル感度による勾配構造推定 [cs.LG, cs.CR]目的:ラベル情報のみから勾配構造を推定する手法
    • モデルの振る舞いを理解する上で,限られたフィードバックモデルの研究は重要である。
    • トップ1予測ラベルのみが利用可能な環境下では,勾配情報の回復が困難である。
    • 限られたフィードバック下における勾配符号の回復を,理論的に保証する手法を開発する。
    • 既存のハードラベル攻撃が,真の損失勾配の符号を近似していると解釈できることを示した。
    • 周波数領域初期化とパターン駆動型最適化を組み合わせた新しい攻撃フレームワークを提案した。
    • 提案手法は,CIFAR-10,ImageNet,ObjectNet等で最先端のハードラベル攻撃を上回る性能を示した。

    Link: https://arxiv.org/abs/2601.14300

  • 脚本感受性:Unicode,ローマ字表記,混合脚本シンハラ語における言語モデルのベンチマーク [cs.CY, cs.CL, cs.AI]目的:シンハラ語の様々な脚本における言語モデルの性能評価
    • 言語資源が限られた言語のデジタルコミュニケーションにおける脚本の多様性は重要である。
    • シンハラ語ではUnicodeとローマ字表記が混在し,モデルの脚本依存性が課題である。
    • 異なる脚本での言語モデルの性能差を明らかにし,実用的なモデル選択の指針を示す。
    • Unicodeからローマ字表記への性能低下は中央値で300倍を超える脚本感受性を示す。
    • モデルサイズは脚本処理能力と相関がなく,小型モデルが大型モデルを上回る場合もある。
    • Unicodeでの性能は混合脚本での堅牢性を予測するが,ローマ字表記への対応力は予測できない。

    Link: https://arxiv.org/abs/2601.14958

  • Memory-V2V:一貫性のある複数ターン編集のためのメモリ拡張型ビデオ対ビデオ拡散 [cs.CV, cs.AI, cs.LG]目的:複数ターンにおけるビデオ編集の一貫性向上
    • ビデオ編集技術は,コンテンツ制作や多様な応用において不可欠である。
    • 既存のビデオ対ビデオ拡散モデルでは,複数ターンの編集において一貫性を保つことが困難である。
    • 過去の編集結果を考慮し,編集のドリフトや上書きを防ぐことで,一貫性を実現する。
    • Memory-V2Vは,過去の編集結果をメモリに保持し,関連する編集を検索・統合する。
    • これにより,計算量の増加を抑えつつ,スケーラブルな条件付けが可能となる。
    • 実験結果から,Memory-V2Vは既存モデルと比較して,一貫性を大幅に向上させることが示された。

    Link: https://arxiv.org/abs/2601.16296

  • ランサムウェアによる暗号化能力に対抗するための堅牢なリスクベースアクセス制御システムの構築 [cs.CR, cs.LG]目的:ランサムウェアによる不正な暗号化を検出しブロックするためのリスクベースアクセス制御アーキテクチャ
    • ランサムウェア攻撃は増加の一途を辿っており,機密データの保護が重要となっている。
    • 従来のアクセス制御は,正常な暗号化処理と悪意のある暗号化処理を区別することが困難である。
    • リアルタイムで暗号化活動を監視・制御し,ランサムウェアによる被害を最小限に抑えることが課題である。
    • 本研究では,機械学習と必須アクセス制御を組み合わせた新しいアーキテクチャを提案し,Linuxシステム上の暗号化をリアルタイムで制御する。
    • Linuxカーネルのftraceフレームワークを活用し,高分解能なカーネル関数実行トレースとリソースカウンタを収集し,モデルの学習とルール抽出に利用する。
    • 提案手法は,サンドボックスやハイパーバイザー内省と比較して,より詳細な振る舞い分析が可能であり,オーバーヘッドも少ないことが示された。

    Link: https://arxiv.org/abs/2601.16795

  • 単一画像からの反射分離:層融合・分離による手法 [cs.CV, cs.LG]目的:単一画像からの透過層と反射層の分離
    • 画像編集やコンピュータビジョンの分野において,反射成分の分離は重要な課題である。
    • 非線形な混合下において,既存手法は透過層と反射層の混同が生じやすいという課題がある。
    • 層融合・分離のメカニズムを用いて,透過層と反射層の分離精度向上を目指す。
    • 提案手法ReflexSplitは,CrGFとLFSBの導入により,勾配の流れを安定化し,特徴の一貫性を維持する。
    • LFSBは,共有構造の抽出と層固有の分離を交互に行うことで,効果的な分離を実現する。
    • 実写および合成データを用いた実験により,最先端の性能と優れた知覚品質が確認された。

    Link: https://arxiv.org/abs/2601.17468

  • LinguaMap:LLMのどの層があなたの言語を理解し,どのように調整すべきか? [cs.CL, cs.CY, cs.NI, cs.CL, cs.AI, cs.LG]目的:大規模言語モデルにおける多言語対応の課題とその改善策
    • グローバル化が進み,多様な言語への対応が求められる場面が増加しているため。
    • 大規模言語モデルは多言語で事前学習されるものの,非英語言語での性能が十分でない場合がある。
    • 言語制御の精度向上と,効率的な多言語適応を実現すること。
    • LLM内部構造は,入力の共通意味空間への配置層,タスク推論層,言語特化生成層の三段階に分かれていることが判明。
    • 最終層のみを選択的にファインチューニングすることで,言語一貫性を98%以上達成。パラメータ調整量はわずか3-5%で済む。
    • この手法は,フルスコープのファインチューニングと同等の性能を発揮しつつ,計算資源を大幅に削減する。

    Link: https://arxiv.org/abs/2601.20009

  • 自己疑念と回復を伴うメタ認知強化学習 [cs.LG, cs.AI]目的:強化学習エージェントの学習行動の信頼性評価,調整,回復
    • 強化学習は,複雑な問題を解決する強力な手法であり,様々な応用分野で重要である。
    • 従来の強化学習は,ノイズや不確実性に対する脆弱性が課題であり,学習の安定性が低い。
    • エージェントが自身の学習過程の信頼性を評価し,適切な行動を取ることで,よりロバストな学習を目指す。
    • 提案手法は,価値予測誤差の安定性に基づいたメタトラスト変数を導入し,学習ダイナミクスを調整する。
    • 報酬の破損がある環境下での実験により,本手法が既存のロバスト性手法と比較して高い平均報酬を達成することを示した。
    • 特に,学習終盤の失敗を大幅に削減し,より安定した学習を実現することが確認された。

    Link: https://arxiv.org/abs/2601.20193

  • 認知症とグルコース代謝パターンの関係性の説明可能なフレームワーク [cs.LG, q-bio.NC]目的:認知症の進行度合いと関連する脳画像データの潜在変数の整合
    • 脳神経画像データは神経変性疾患の評価に不可欠だが,高次元データであるため解析が困難。
    • 脳画像データの複雑な非線形性により,疾患関連特徴の抽出が難しいという課題がある。
    • 本研究は,認知症のバイオマーカーと脳画像データの関連性を明確にすることを目的とする。
    • 変分オートエンコーダーを用いて潜在空間を構築し,認知機能スコアとの整合性を誘導した。
    • 認知機能低下のレベルに応じた平均再構成画像を作成し,代謝低下領域を特定した。
    • 海馬や主要な安静時ネットワーク(デフォルトモードネットワーク,中枢実行ネットワーク)において,代謝低下が見られた。

    Link: https://arxiv.org/abs/2601.20480

  • OpenVTON-Bench:制御可能なバーチャル試着評価のための大規模高解像度ベンチマーク [cs.CV, cs.AI]目的:制御可能なバーチャル試着システムの評価基準
    • バーチャル試着技術は,オンラインショッピング体験を向上させる上で重要な役割を担う。
    • 既存の評価指標は,微細なテクスチャや意味の一貫性を定量化することが困難である。
    • 大規模かつ多様なデータセットと,より信頼性の高い評価プロトコルを確立すること。
    • OpenVTON-Benchは,約10万組の高解像度画像ペア(最大1536×1536)を含む大規模ベンチマークである。
    • 提案されたマルチモーダルプロトコルは,背景の一貫性,IDの忠実度,テクスチャの忠実度など,5つの評価軸でVTONの品質を測定する。
    • 実験結果は人間の判断と強く一致し(Kendall's τ = 0.833),VTON評価の堅牢なベンチマークとして機能することが示された。

    Link: https://arxiv.org/abs/2601.22725