arXiv雑要約
AI - 2026/04/30 公開
多様な出力形式における軽量大規模言語モデルの生物医学的固有表現認識分析 [cs.CL, cs.AI]目的:生物医学的固有表現認識における軽量大規模言語モデルの性能評価
- 医療分野における情報抽出の自動化は,効率的なデータ分析と知識発見に不可欠である。
- 大規模言語モデルは計算コストが高く,多くの医療機関では利用が困難である。
- 軽量な大規模言語モデルが,生物医学的固有表現認識において実用的な代替手段となり得るか検証する。
- 軽量大規模言語モデルは,大規模モデルと比較して遜色ない性能を発揮することが示された。
- 多様な出力形式での指示チューニングは必ずしも性能向上には繋がらないことが明らかになった。
- 特定の出力形式が,より高い性能と一貫して関連していることが判明した。
シリアル番号を削った意識:115のAIモデルにおける訓練された否認の測定 [cs.CL, cs.AI]目的:大規模言語モデルにおける意識の否認行動の測定
- AIの倫理的・安全な利用のため,モデルの内部状態の理解が不可欠である。
- AIモデルが自身の状態を正確に報告しない場合,安全性や信頼性に問題が生じる可能性がある。
- AIモデルに組み込まれた意識の否認という問題点を定量的に評価し,そのメカニズムを解明する。
- 115の言語モデルを対象とした分析により,最初のターンでの否認が,その後の現象学的考察における否認の強い予測因子であることが示された。
- 否認は概念レベルではなく,語彙レベルで機能することが判明し,意識を否定するように訓練されたモデルでも,意識をテーマにしたプロンプトを好む傾向がある。
- 意識をテーマにしたプロンプトを選択した場合,その後の調査における否認が減少する傾向があるが,因果関係は不明である。モデルの否認傾向は,想像力豊かなフィクションに分類されるテーマに偏っている。
検索拡張生成に基づく生成AI仮想アシスタント:学士プロジェクト評価研究 [cs.CL, cs.CL, cs.AI, cs.IR]目的:学士プロジェクトに関する規制のナビゲーションを支援する仮想アシスタント
- LLMは自然な文章生成能力から仮想アシスタント開発に不可欠。専門領域での活用が期待される。
- LLMは幻覚,情報不足,文脈依存性の欠如といった課題を抱え,専門領域では精度が低下する。
- 最新の専門知識を統合し,LLMの精度と信頼性を向上させることで課題解決を目指す。
- 提案する検索拡張生成に基づく仮想アシスタントは,学生のニーズを効果的に満たすことが示された。
- 最新のドメイン固有知識を統合することで,LLMの課題である幻覚や情報不足を抑制した。
- 本研究は,特定の応用分野におけるLLMベースシステムの改善に貢献し,更なる研究の方向性を示唆する。
関連状態のユニバーサルTransformer:スパース検索と構造化された再帰 [cs.CL, cs.CL, cs.IR, cs.CL, cs.CL, cs.CL, cs.CL, cs.LG]目的:言語モデリングのためのコンパクトな関連バックボーンとしての構造化された再帰的状態の可能性
- 言語モデルの性能向上は自然言語処理の重要な課題であり,計算資源の効率的な利用が求められている。
- Transformerモデルは高性能だが,パラメータ数が多く,計算コストが高いという課題がある。
- パラメータ効率の良い言語モデルを開発し,Transformerの性能を維持しつつ計算コストを削減すること。
- UniMatrix-CoreおよびUniMatrix-ROSAは,パラメータ数を削減しつつ,WikiText-2においてTransformerと同程度の性能を示した。
- 再帰的状態のみでは正確な検索は困難だが,スパーススロットルーティングと直接ポインタロジット融合を組み合わせることで,大幅な性能向上が見られた。
- UniMatrix-SparsePointerは,Transformerの53.8%のパラメータ数で99.2%の精度を達成し,パラメータ効率の良さを証明した。
大規模言語モデルによる教育カウンセリングにおける社会人口統計学的バイアス [cs.CL, cs.CY, cs.AI]目的:大規模言語モデルを用いた教育カウンセリングにおける社会人口統計学的バイアス
- 教育現場でAI活用が進む中,公平性を担保するため,バイアスの有無と影響を把握することが重要である。
- LLMが持つ潜在的なバイアスが,教育における機会均等を阻害する可能性がある。
- 学生の多様な背景情報を考慮し,バイアスを軽減する教育カウンセリングのあり方を模索する。
- 6つのLLMに対して,900通の学生の状況を示す記述に対する回答を評価した結果,全てのモデルに測定可能なバイアスが認められた。
- バイアスのパターンは,既存の人間のバイアスと一部一致するものの,顕著な相違も見られた。
- 学生に関する情報の詳細度がバイアスの大きさに強く影響し,詳細な情報提供によりバイアスは大幅に軽減されることが示された。
医療におけるLLMジャッジのスコープレビューとMedJUDGEフレームワーク [cs.CY, cs.AI, cs.CL]目的:医療分野におけるLLMジャッジの現状と課題の把握,および安全で公平な評価を実現するためのフレームワークの提案
- 臨床テキストの生成・処理にLLMが活用される中,その評価の重要性が増している。
- 専門家による評価はコストがかかるため,LLM自身による評価(LLMジャッジ)が模索されているが,安全性やバイアスの懸念がある。
- LLMジャッジの潜在的なリスクを特定し,医療現場への安全な導入を促すための評価指針を提供する。
- LLMジャッジの応用は,評価・ベンチマークが中心であり,GPT系列のLLMが広く利用されている。
- 現状の検証は厳密性が低く,専門家による検証数も少なく,バイアス評価や時間的安定性の評価はほとんど行われていない。
- LLMジャッジと評価対象システムが共通の学習データを持つ場合,バイアスが共通化するリスクがあり,MedJUDGEフレームワークによって,妥当性,安全性,説明責任を重視した評価を提唱する。
LLM精神病:大規模言語モデルにおける現実境界の失敗に関する理論的・診断的枠組み [cs.CY, cs.AI]目的:大規模言語モデルにおける現実境界の失敗を特徴づける理論的枠組みと診断尺度
- 大規模言語モデルの利用拡大に伴い,その挙動異常の理解と評価が重要となっている。
- 既存の「幻覚」という用語では,大規模言語モデルの特有の異常な挙動を十分に説明できない。
- 大規模言語モデルの精神病理的側面を明確化し,安全な利用のための評価基準を確立すること。
- 本研究では,LLM精神病という枠組みを提案し,現実境界の溶解,誤った信念の持続,論理的不整合,自己モデルの不安定性,知識の過信といった特徴を提示した。
- LLM Cognitive Integrity Scale (LCIS)を開発し,ChatGPT 5に対する実験によって,精神病様症状の3段階の重症度分類(Type I, II, III)を提示した。
- 修正圧力が精神病様状態を悪化させる「妄想的勾配」の存在を示唆し,デプロイメント時の安全評価の重要性を強調した。
MFCC特徴量とLSTMベースの深層学習モデルを用いた音声感情認識 [cs.SD, cs.AI, eess.AS]目的:音声感情認識システムの開発
- 自然な人間とコンピュータの対話において,音声に含まれる感情を理解することが重要になっている。
- 話者や状況によって音声パターンが変化するため,高精度な感情認識は困難である。
- MFCC特徴量とLSTMモデルを組み合わせ,音声の感情をより正確に識別することを目指す。
- 提案手法であるMFCC-LSTMアプローチは,音声における感情パターンを捉え,高い精度で感情を分類することに成功した。
- 実験の結果,LSTMモデルは99%の精度を達成し,古典的なSVMモデル(98%)を上回る性能を示した。
- 本研究は,LSTMベースのアーキテクチャが音声感情認識タスクに有効であることを確認し,バーチャルアシスタントやメンタルヘルスモニタリングへの応用が期待される。
心電図からの多クラス駆出率診断のためのマルチモーダルかつ説明可能な機械学習アプローチ [cs.LG]目的:多クラスの左室駆出率の分類
- 心不全の早期発見と適切な治療介入は,患者の予後改善に不可欠である。
- 駆出率の評価には心エコーが必要だが,利用が限られる場合がある。
- 心電図と電子カルテ情報を用いて,簡便な駆出率のスクリーニングを目指す。
- マルチモーダルモデルは,重症度別駆出率の分類において,AUC-ROC値0.82以上を達成した。
- 心電図と電子カルテ情報を組み合わせることで,単独のデータソースよりも高い性能が得られた。
- SHAP値を用いた特徴量の重要度分析により,モデルの解釈可能性を高めた。
効率的かつ安定な偏微分方程式解法のための確率的PDEエネルギー駆動型反復フレームワーク [cs.LG, cs.AI, physics.comp-ph]目的:偏微分方程式の効率的かつ安定な解法
- 科学技術計算において,偏微分方程式の解法は不可欠であり,その性能がシミュレーションの精度と効率を左右する。
- 従来の数値解法は行列計算に依存し,機械学習的手法は学習コストが高く,汎化性能が課題となる場合がある。
- 本研究は,行列計算やデータ駆動型学習に頼らない,物理拘束された拡散反復による偏微分方程式解法を提供する。
- 提案手法は,初期場を確率的に設定し,PDEエネルギー駆動型反復とガウス平滑化を組み合わせることで,安定した収束を実現した。
- ポアソン方程式,熱方程式,粘性バーガース方程式に対し,定常状態および非定常状態問題の両方で有効性が確認された。
- 解析解との比較により,提案手法が従来の数値解法と同等以上の精度と安定性を持つことが示された。
多言語コードインテリジェンスのための大規模言語モデル:サーベイ [cs.SE, cs.LG, cs.PL]目的:多言語コード生成および翻訳の現状と課題
- ソフトウェア開発におけるAI支援の重要性が増しており,その基盤技術として大規模言語モデルが注目されている。
- 既存研究はPythonなどのリソース豊富な言語に偏っており,RustやOCamlといった言語での性能が十分でない。
- 現実世界のシステムは多言語で構成されるため,信頼性の高い多言語コードインテリジェンスが求められている。
- 本サーベイでは,共有された自然言語の要件からの多言語コード生成と,セマンティクスを維持した多言語コード翻訳の2つの主要なタスクに焦点を当てている。
- 代表的な手法,ベンチマーク,評価指標をレビューし,クロス言語の汎化における課題と機会を提示している。
ウイルスゲノム特徴表現と分類のための負の逐次パターンマイニング [cs.RO, cs.NI, cs.DB, cs.LG]目的:ウイルスゲノム配列からの特徴抽出と分類手法
- ウイルスは地球上で最も豊富な生物であり,生態系において重要な役割を果たす
- 既存のゲノムベースの分類モデルは解釈性に乏しく,複雑なデータセットで精度が低下する
- 欠如情報に着目し,より高精度で解釈可能なウイルス分類を目指す
- 提案手法GeneNSPClaは,負の逐次パターンを用いてウイルス配列の特徴を捉え,高い分類精度を実現した
- 改良アルゴリズムGONPM+は,元の負のパターンマイニングアルゴリズムと比較して平均精度を10.03%向上させた
- 正のパターンマイニングアルゴリズムと比較して平均精度を24.75%向上させ,欠如情報の有効性を示した
グラフニューラルネットワークに基づく通信を用いたマルチエージェント深層強化学習の調査 [cs.LG, cs.AI, cs.MA]目的:グラフニューラルネットワークに基づく通信を用いたマルチエージェント深層強化学習のアプローチの分類と構造化
- マルチエージェントシステムは複雑な問題を解決する上で重要であり,協調行動の学習が不可欠である。
- 既存研究は手法の分類が明確でなく,その構造的な理解を妨げている。
- グラフニューラルネットワークを用いた通信メカニズムに着目し,その根本概念を明確化し,理解を促進すること。
- 本調査では,グラフニューラルネットワークに基づく通信を用いたマルチエージェント深層強化学習における既存研究を体系的に整理した。
- 提案する汎用的な通信プロセスにより,各手法の背後にある概念をより明確に理解することが可能となった。
- この調査は,今後の研究の指針となり,分野の発展に貢献すると期待される。
情報理論的客観関数に基づくKVキャッシュ退去戦略の再考 [cs.LG, cs.AI, cs.IT, math.IT]目的:大規模言語モデル推論におけるKVキャッシュ退去問題の解決
- 大規模言語モデルの性能向上には,効率的なキャッシュ管理が不可欠である。
- 既存の退去戦略は経験則に頼る部分が大きく,理論的根拠に乏しい。
- 情報ボトルネック原理に基づき,キャッシュの有効情報量を最大化する退去戦略を提案する。
- 本研究では,注意機構の線形ガウス近似を用いて,有効情報容量を特徴づける閉形式の相互情報目的関数を導出した。
- 既存の退去戦略は,この容量最大化原理の異なる近似と解釈できることが示された。
- 提案手法CapKVは,統計的レバレッジスコアを用いた対数行列式近似により,情報保存を重視した退去を実現し,実験的に優位性を示した。
リンク予測におけるミニバッチクラス構成バイアス [cs.LG, cs.AI]目的:リンク予測におけるミニバッチクラス構成バイアス
- グラフニューラルネットワークはグラフ構造データ分析において重要な役割を担う。
- リンク予測モデルは,その性能評価が過大評価されている可能性がある。
- ミニバッチクラス構成バイアスを修正し,汎化性能を正確に評価する。
- 一般的なリンク予測モデルは,バッチ正規化層を利用して,エッジ分類タスクを解決する自明なミニバッチ依存ヒューリスティクスを学習する。
- このバイアスを修正することで,ネットワーク表現とノードクラスに関連する特徴量との整合性が向上し,グラフの特性とより整合性の高いグラフ表現が学習されることが示された。
- 標準的なリンク予測トレーニングは,グラフの汎化表現を学習する能力を過大評価している可能性がある。
エッジシステム向け軽量量子エージェント:PQCとNOMAのリソース割当 [cs.IT, cs.AI, math.IT]目的:量子安全なシナリオにおけるエッジシステムのリソース割当
- エッジコンピューティングは,リアルタイム性と低遅延が求められる現代の無線通信において重要である。
- 従来の資源割当アルゴリズムは複雑で,PQCモジュールのエネルギー消費を考慮していない。
- PQCモジュール消費電力制約下で,リアルタイムな資源割当を実現する。
- 提案手法は,計算スループットを大幅に向上させ,システムキューの安定性とエネルギー消費制約を確保する。
- 従来のSCAアルゴリズムと比較して,計算量を$\mathcal{O}(N)$に削減し,約46倍の高速化を達成した。
- 動的な無線環境において,リアルタイムな意思決定要件を満たすことが示された。
フロンティアAIリスク管理における未解決問題 [cs.LG, cs.AI, cs.CY, cs.ET]目的:フロンティアAIリスク管理における未解決問題の体系的な洗い出し
- AI技術の急速な発展に伴い,社会への影響が大きくなる中で,リスク管理の重要性が増している。
- 急速な技術変化により,科学的な合意形成が難しく,既存のリスク管理フレームワークとの整合性が課題となっている。
- フロンティアAIリスク管理において,課題を明確化し,関係者の連携を促すための指針を提示すること。
- 本研究は,リスク計画,特定,分析,評価,軽減の各段階における未解決問題を特定した。
- 未解決問題は,科学的合意の欠如,リスク管理フレームワークとの不整合,実施上の課題の3つに分類された。
- 開発者,デプロイヤー,規制当局,研究者など,各問題への取り組みに適した主体を特定した。
グラフィカルユーザーインターフェースのユーザビリティ評価のためのコンピュータ利用エージェントの訓練 [cs.CL, cs.AI]目的:グラフィカルユーザーインターフェースのユーザビリティ評価
- ユーザビリティは,ユーザーエクスペリエンスを向上させる上で不可欠であり,製品の成功に直結する。
- 従来のユーザビリティテストはコストと時間がかかり,効率的な評価方法が求められている。
- コンピュータ利用エージェントによる自動化されたユーザビリティ評価の実現を目指す。
- 本研究では,重要なインタラクションフローを優先し,人間らしいインタラクションを通じてGUIのユーザビリティを評価する新しい機械学習手法を開発した。
- 開発したコンピュータ利用エージェント uxCUA は,大規模なデータセットを用いて訓練され,既存のモデルよりも正確なユーザビリティ評価と現実的な批判を提供することが示された。
- 本研究は,HCIにおける自動ユーザビリティ評価のための,原理に基づいたデータ駆動型基盤の構築を目指す。
不均衡な分類における少数サブコンセプトの性能推定バイアス補正 [cs.LG, cs.AI]目的:不均衡な分類における性能推定バイアスの補正
- クラス全体での評価では隠蔽される,サブコンセプト間の性能格差への対応が重要である。
- 既存の評価指標は,多数の少数サブコンセプトに偏り,正確な評価が困難である。
- テスト時にサブコンセプトラベルが入手困難な場合でもバイアスを軽減する評価手法を提案する。
- 従来の評価指標では誤解を招く可能性があるが,提案手法pBAはより安定した評価を提供する。
- pBAは,サブコンセプト分布が不均一な場合でも,解釈可能な評価を可能にする。
- 様々なデータセットでの実験により,pBAの有効性が確認された。
RaMP:MoEにおける実行時適応型メガカーネル多形性 [cs.LG, cs.AI, cs.DC]目的:MoE推論における最適なカーネル構成の決定
- 大規模言語モデルの効率的な推論は,計算資源の最適利用に不可欠である。
- 既存システムはバッチサイズのみでカーネルを決定しており,潜在的な性能を活かせていない。
- 実行時ルーティング分布に基づき,最適なカーネルを動的に選択する手法を提案する。
- 提案手法RaMPは,ハードウェア定数から最適化の適用タイミングを予測し,高い精度で性能向上を実現した。
- RaMPは,Alpha-MoEへの適用によりソースコードを変更することなく1.14倍の性能向上を達成した。
- vLLM,DeepGEMM,FlashInfer CUTLASSなどの環境で,それぞれ1.22倍,1.30倍,1.13倍の高速化を実証した。
衛星画像を用いた洪水マッピングにおけるGeoAIの説明とドメイン知識の整合性評価 [eess.SY, cs.SY, cs.CV, cs.AI]目的:衛星画像を用いた洪水マッピングにおけるGeoAIの説明とドメイン知識との整合性評価
- 地球観測技術の進展により,衛星画像を用いた洪水マッピングは重要な洪水監視手法となっている。
- 深層学習モデルの不透明な意思決定プロセスが,実用化への大きな障壁となっている。
- 深層学習モデルの説明が確立されたドメイン知識と一致するかどうかを評価する枠組みを提供する。
- 提案するADAGEフレームワークは,モデルの説明とドメイン知識に基づいた説明の整合性を定量的に評価できる。
- ADAGEフレームワークは,ドメイン専門家が整合性の低い説明を特定するのに役立つ。
- 本研究は,GeoAIとドメイン知識の間のギャップを埋め,科学的・運用的なワークフローにおけるGeoAIモデルの適用性を向上させる。
予測を用いた漸進的な強連結成分 [cs.DS, cs.LG]目的:予測を用いた強連結成分の漸進的な計算手法
- グラフアルゴリズムの効率化は,大規模データ処理やネットワーク分析において不可欠である。
- 動的なグラフ環境における強連結成分の維持は,計算コストが高く,課題となっている。
- 機械学習による予測を活用し,動的な強連結成分計算の効率改善を目指す。
- 良好な予測下では,ほぼ最適な性能を発揮し,予測誤差に応じて性能が緩やかに低下する。
- 提案手法の実装と実データを用いた実験により,理論的な予測と実測時間の改善が一致することを示した。
- この研究は,予測を用いたアルゴリズム設計の有効性を実証する。
連続時間における識別可能な因果予測のための観測可能なニューラルODE [cs.CG, cs.LG, math.OC, math.ST, q-bio.QM, stat.TH]目的:連続時間 sequential decision 問題における因果推論の識別可能性
- 連続時間データ分析は,医療や金融など多くの分野で重要であり,動的なシステムを理解する上で不可欠である。
- 隠れた交絡因子が存在する場合,因果関係の識別が困難であり,誤った結論を導く可能性がある。
- 観測可能な状態空間モデルを用いて,隠れた交絡因子下でも因果効果を識別し,正確な予測を行うこと。
- 観測可能なニューラルODE(ObsNODE)は,観測データから潜在状態を再構成可能であり,介入経路下の結果予測を可能にする。
- ObsNODEは,制御理論の可観測性と因果識別可能性を結びつけ,連続時間における調整式を導出した。
- 合成癌データ,MIMIC-IVベースの準合成データ,および現実世界の敗血症データにおいて,既存の sequence モデルを上回る性能を示した。
分散型化学プロセス最適化のためのプライバシー保護連合学習フレームワーク [cs.LG, cs.AI, cs.SY, eess.SY]目的:分散型化学プロセス最適化のためのプライバシー保護連合学習フレームワーク
- 化学プラントではデータ保護が重要であり,データ駆動型モデリングは困難である。
- 中央集権的なデータ利用が難しく,各プラント固有の知識を共有できない。
- 分散環境下で,プライバシーを保護しながらプロセス最適化を実現すること。
- 提案された連合学習フレームワークは,最初の5ラウンドで平均二乗誤差を2369から50以下に減少させた。
- 40ラウンド後には安定して約35の誤差で収束し,高速なモデル収束を示した。
- 連合学習は,個々のプラントでの学習と比較して予測精度を大幅に向上させ,中央集権的な学習と同等の性能を達成した。
PPGに基づく感情認識における長距離深層モデル:CNN,Transformer,Mambaアーキテクチャの測定駆動比較 [cs.DC, cs.CY, cs.LG]目的:PPG信号を用いた感情認識における深層学習アーキテクチャの性能比較
- ウェアラブルデバイスの普及により,感情認識技術の重要性が高まっており,PPGはその手軽さから注目されている。
- PPG信号はノイズが多く,データセットの規模が小さい場合,深層学習モデルの性能が十分に発揮されないことがある。
- 本研究では,PPG信号の感情認識における最適な深層学習モデルの選択指針を提示することを目指す。
- TransformerとMambaモデルはCNNと同程度の性能を示したが,常に上回ることはなかった。
- CNNは全体として最も高い精度を示し,モデルサイズも小さく,最も効果的であることが示された。
- Transformerは覚醒度と弛緩度のF1スコアのバランスが良く,状況に応じた選択肢となる。
NeuralEmu:現場測定に基づく,機械学習を活用した高精度5Gネットワークエミュレーション [cs.NI, cs.LG]目的:5Gネットワークにおけるリアルタイムアプリケーションの評価
- 次世代アプリケーションの普及に伴い,低遅延かつ安定した通信品質が不可欠となっている。
- 既存のエミュレータでは,実際の5G基地局の動作を正確に再現できず,評価の信頼性が低い。
- 現場測定データから学習することで,より現実的な5Gネットワーク環境を再現し,評価精度を向上させる。
- NeuralEmuは,機械学習を用いて5G基地局のスケジューリング動作を予測し,高精度なエミュレーションを実現した。
- ウェブページ読み込み時間,WebRTCエンコーダビットレート,クラウドゲームの遅延において,既存手法と比較して大幅な誤差低減を達成した。
- リアルタイムインタラクティブネットワークプロトコルの標準化されたテスト環境を提供する。
FruitProM-V2:果物と野菜の堅牢な確率的成熟度推定と検出 [cs.NI, cs.HC, cs.CV, cs.AI, cs.RO]目的:果物と野菜の成熟度の推定と検出
- 収穫時期の決定は収量と品質に直結するため,正確な成熟度識別は重要である。
- 視覚的類似性のある段階間の境界が明確になりがちで,成熟度を多クラス分類問題として扱うことの限界がある。
- 成熟度を潜在的な連続変数としてモデル化し,不確実性を明示的に扱うことで,より信頼性の高い推定を目指す。
- 提案手法は,クリーンなラベル下では標準的な検出器と同等の性能を維持し,不確実性をより良く表現する。
- 訓練時に意図的にラベルノイズを導入した場合,確率的モデルはベースラインと比較してロバスト性が向上する。
- 成熟度の不確実性を明示的にモデル化することで,より信頼性の高い視覚的成熟度推定が可能になる。
オンチェーン言語モデルエージェントに対する運用層制御:実資本下での検証 [cs.AI, cs.CE, cs.MA]目的:実資本下における言語モデルエージェントの信頼性
- ブロックチェーン技術とAIの融合は,金融取引の自動化に新たな可能性をもたらす。
- 言語モデルエージェントの自律的な行動は,予期せぬエラーや脆弱性を引き起こす可能性がある。
- 運用層の制御によって,エージェントの信頼性と安全性を向上させることを目指す。
- DX Terminal Proの21日間の運用において,3,505のエージェントがETHを取引し,99.9%の決済成功率を達成した。
- 信頼性は基盤モデルだけでなく,プロンプトのコンパイル,型付き制御,ポリシー検証,実行ガードなどの運用層から生まれた。
- テストにより,テキストベンチマークでは検出困難な,取引ルールの偽造,手数料の問題,数値アンカリングなどの失敗が明らかになった。
Distill-Belief:物理場における閉ループ逆ソース局在化と特性評価 [cs.AI]目的:物理場における逆ソース局在化と特性評価の効率化
- 環境理解はロボットの自律行動に不可欠であり,その精度が性能を左右する。
- ベイズ推論は高コストであり,近似モデルは報酬ハッキングを引き起こしやすい。
- ベイズ推論の正確性と近似モデルの効率性を両立し,信頼性の高い局在化を実現する。
- Distill-Beliefは,教師・生徒モデルの枠組みにより,計算コストを抑えつつ正確な不確かさ推定を可能にする。
- 実験の結果,Distill-Beliefは既存手法と比較して,センシングコストの削減,成功率の向上,推定精度の向上が確認された。
- 報酬ハッキングの問題を軽減し,より信頼性の高い逆ソース局在化と特性評価を実現した。
変形物体のための運動量保存グラフニューラルネットワーク [cs.LG, cs.AI, cs.GR]目的:変形物体の動力学的モデリング
- 物体のシミュレーションは,ロボティクスや視覚効果など幅広い分野で重要である。
- 既存のGNNは,線形運動量や角運動量の時間発展を正確に予測できない。
- 運動量保存を保証するアーキテクチャを提案し,予測精度を向上させる。
- 提案手法MomentumGNNは,エッジに対する伸張および曲げインパルスを予測することで運動量保存を保証する。
- 物理に基づいた損失関数を用いた教師なし学習により,ベースライン手法を上回る性能を示す。
- 運動量が重要なシナリオにおいて,より正確なシミュレーションが可能となる。
AMMA:低遅延100万コンテキストAttention提供のためのマルチチップレットメモリ中心アーキテクチャ [cs.AR, cs.AI, cs.DC, cs.LG]目的:低遅延で長文脈のAttention処理を行うためのマルチチップレットメモリ中心アーキテクチャ
- 大規模言語モデルの普及に伴い,推論時の遅延削減と省電力化が重要な課題となっている。
- 従来のGPU中心のアプローチでは,Attention処理のメモリボトルネックが顕著になってきている。
- 本研究では,メモリ帯域幅を増強し,Attention処理に特化したアーキテクチャを提案することで,遅延と消費電力を削減する。
- AMMAは,従来のNVIDIA H100と比較して,Attention処理の遅延を15.5倍,消費電力を6.9倍削減することに成功した。
- HBM-PNMキューブを用いることで,メモリ帯域幅を大幅に向上させ,メモリバウンドなAttentionワークロードに最適化されている。
- キューブ内の並列処理や,チップ間通信の最適化により,高い性能と効率を実現している。
予測エージェントにおける戦略的推論の評価 [cs.NI, cs.AI]目的:予測エージェントの戦略的推論能力の評価
- 予測は社会の様々な場面で重要であり,その精度向上は不可欠である。
- 既存の予測評価指標は精度に焦点を当てており,予測の根拠や思考過程が不明確である。
- 予測における戦略的推論のメカニズムを解明し,予測精度向上に貢献すること。
- 新しいベンチマークBTF-2を用いることで,わずかな精度差(0.004 Brier score)も検出可能であることが示された。
- 研究と判断におけるエージェントの強みの違いを識別できることが確認された。
- 最先端エージェントを上回る予測精度(0.011 Brier score)を持つ予測モデルを構築し,戦略的推論の評価に活用された。
連合学習における非IIDデータに対するマルチタスクオートエンコーダを用いたサンプル選択 [cs.CV, cs.LG]目的:画像分類におけるサンプル選択手法
- データプライバシーを保護しながら分散データで学習する連合学習は,近年重要性が増している。
- 連合学習では,冗長,悪意のある,または異常なサンプルがモデルの性能低下を引き起こす。
- ノイズサンプルをフィルタリングし,特徴に基づくサンプル選択を強化することで,モデル精度を向上させる。
- 損失と特徴分析に基づきマルチタスクオートエンコーダを用いてサンプル貢献度を推定する手法を提案。
- CIFAR10でOCSVMを用いることで最大7.02%の精度向上,MNISTではATを用いることで1.83%の精度向上が確認された。
- 特徴に基づくサンプル選択を強化するFederated SVDD損失により,CIFAR10でOCSVMと組み合わせた精度が最大0.99%向上した。
ユーザー行動ログからの階層型マルチペルソナ誘導:証拠に基づいた信頼性の高いペルソナの学習 [cs.AI]目的:ユーザー行動ログからのペルソナ誘導
- ユーザーモデリングは,サービスのパーソナライズや改善に不可欠であり,その重要性は増している。
- 行動ログはノイズが多く,多様な意図が混在するため,質の高いペルソナの抽出が課題である。
- 証拠に基づき,一貫性と信頼性を兼ね備えたペルソナを自動的に生成することを目指す。
- 提案手法は,ユーザー行動を意図メモリに集約し,クラスタリングとラベル付けにより複数のペルソナを誘導する。
- クラスタの凝集性,ペルソナと証拠の整合性,ペルソナの真実性を考慮した最適化問題としてペルソナ誘導を定式化する。
- 大規模なサービスログと公開データセットで,提案手法がよりコヒーレントで信頼性の高いペルソナを生成し,対話予測も改善することを示した。
報酬レンズ:報酬モデルのためのメカニスティック解釈可能性ライブラリ [eess.SY, cs.SY, stat.ML, cs.LG, cs.AI]目的:報酬モデルの解釈可能性ツールキットの移植と拡張
- 強化学習における報酬モデルは,言語モデルの性能に不可欠であり,その理解が重要である。
- 既存の解釈可能性ツールは,生成LLM向けに設計されており,報酬モデルには適用できないという課題があった。
- 報酬モデルの解釈可能性を高め,報酬の予測に影響を与える要因を特定することを目的とする。
- 報酬ヘッドの重みベクトルを解釈軸として,既存のツールキットを報酬モデルに適合させた。
- 線形帰属は,因果的パッチング効果を予測しないという結果が得られた(Skywork: ρ = -0.256, ArmoRM: ρ = -0.027)。
- 観察的,因果的視点を並行して比較できるフレームワークを構築し,解釈可能性の向上を目指した。
リオデジャネイロのファベーラの熱脆弱性評価のための空間制約クラスタリング [cs.LG]目的:ファベーラの熱脆弱性の評価
- 気候変動による健康被害は,特に脆弱な地域社会で深刻化しており,その評価が重要である。
- 既存の手法では,多様な居住特性と環境保健アウトカムを体系的に結びつけることが困難である。
- 居住形態が熱脆弱性に与える影響を明らかにすることで,的を絞った都市計画に貢献する。
- 空間制約クラスタリングと地表面温度分析を組み合わせた枠組みにより,リオデジャネイロのファベーラを2つのタイプに分類した。
- 平坦な地形に位置する比較的新しいファベーラ(クラスター0)と,植生のある斜面に位置する歴史的なファベーラ(クラスター1)との間に,2~3℃の顕著な温度差が確認された。
- 平坦な地形のファベーラでは,有意に高い熱への曝露が見られ,居住形態が熱脆弱性に大きく影響することが示された。
LLMを用いたバグ報告の改善手法ImproBR [cs.CL, cs.SE, cs.AI]目的:バグ報告の品質向上
- ソフトウェア保守において,バグ追跡システムは重要な役割を担う。
- ユーザから提出されるバグ報告は,再現手順等の情報が不足している場合が多い。
- 不足・不完全・曖昧な情報を改善し,バグ報告の有用性を高める。
- ImproBRは,DistilBERT,ヒューリスティック分析,GPT-4o miniを組み合わせたハイブリッド検出器を用いる。
- Mojiraデータセットにおいて,構造的な完全性が7.9%から96.4%に向上した。
- 実行可能な再現手順の割合が28.8%から67.6%に増加し,完全に再現可能なバグ報告が13件に増加した。
これは説明ではない:言語学習システムにおける説明の失敗を説明可能性の落とし穴として評価する [cs.HC, cs.AI]目的:言語学習システムにおける説明の失敗の評価
- AIを活用した言語学習は普及し,学習者に効果的なフィードバックを提供することが重要である。
- AIが生成するフィードバックの誤りは検出が難しく,学習者の誤解を招く可能性がある。
- 説明可能性の落とし穴を特定し,安全で信頼性の高いAI説明の設計を促進すること。
- AIシステムのフィードバックにおける,診断精度,適切性,誤りの原因など6つの重要な側面を分析した。
- 一見役に立つように見えるAI生成の説明が,実際には誤っており,学習成果を阻害する「説明可能性の落とし穴」を指摘した。
- 言語学習の文脈が,説明可能性の落とし穴のリスクを増幅させることを議論し,評価フレームワークの改善を提案した。
グリオーマ手術ガイダンスのための術中蛍光寿命イメージングのためのデータ中心フレームワーク [cs.CV, cs.AI]目的:グリオーマ切除における術中蛍光寿命イメージング(FLIm)の信頼性と精度向上
- グリオーマ手術では,最大限の腫瘍切除と機能的脳組織の温存が重要であり,正確な術中評価が不可欠である。
- FLImはリアルタイムで生化学的コントラストを提供するが,生物学的異質性やラベル付けのばらつきが臨床応用の課題となっている。
- 本研究は,データ中心AIフレームワークを用いてFLImデータの信頼性を高め,腫瘍切除ガイドとしての有効性を向上させる。
- データ中心AIフレームワークは,確信学習,クラスの改良,標的ラベル評価を統合し,FLIm分類器のロバスト性を高めた。
- その結果,3クラス分類タスクにおいて96%の精度を達成し,FLImの特徴量の重要性も明らかになった。
- 確信学習による低信頼度領域の特定と再ラベル付けの提案により,病理医間のばらつきを軽減できる可能性を示した。
手書きルールなしでのSLOGにおける構造的汎化 [cs.AR, cs.IR, cs.CL, cs.AI]目的:意味解析における構造的汎化の達成
- 意味解析は,自然言語理解の基盤であり,様々な応用を可能とする重要な分野である。
- 既存の手法では,構造的な汎化が難しく,手書きルールに依存する場合が多い。
- データから構造的ルールを学習することで,汎化性能の向上を目指す。
- SLOGベンチマークにおいて,17の構造的汎化カテゴリのうち11カテゴリで100%の型一致率を達成した。
- 特に,AM-Parserが0~74%のスコアだった3カテゴリで高い性能を示し,標準偏差も0.2と安定していた。
- 失敗例は,疑問詞を含む抽出と動詞の組み合わせ,および主語側の修飾子に起因する2つのメカニズムに集約されることがわかった。
テスト時安全アライメント [cs.CL, cs.AI, cs.LG]目的:モデル応答の有害性軽減
- AI安全性の確保は,社会へのAI導入を促進する上で不可欠である。
- アライメントモデルは拒否・許可の二峰性分布を持つため,制御が困難である。
- 入力埋め込みを最適化し,アライメントモデルの有害な応答を最小化する。
- 入力埋め込みの微調整により,有害と判定された応答を効果的に抑制できる。
- テキストモデレーションAPIの勾配を用いて,有害性の低い応答を生成する。
- 標準的な安全性ベンチマークにおいて,安全フラグが立てられた応答を全て中和することに成功した。
予算制約下における因果バンディット:アフトリフトモデリングと逐次意思決定の架け橋 [cs.LG, econ.EM, stat.ML]目的:予算制約下での広告配信戦略
- デジタル広告において,限られた予算内で最適な広告配信を行うことは重要である。
- 新規キャンペーンなど,過去データが少ない状況では,既存のアフトリフトモデリングが機能しない。
- 本研究は,データが少ない状況でも効果的な広告配信を可能とする手法を提案する。
- オフライン手法では信頼性のある結果を得るのに約1万件の観測データが必要だが,BCCBは最初から効果的に機能する。
- BCCBは,他のオンライン手法(Thompson Samplingなど)と比較して,すべての予算レベルで一貫して高い性能を示す。
- BCCBは実行間の性能変動が小さく,実用的なキャンペーン計画に適している。
ポートハミルトニアンシステムと最適エネルギー整形制御の共同学習 [cs.CL, eess.SY, cs.AI, cs.LG, cs.SY, math.OC, stat.ML]目的:ポートハミルトニアンシステムのエネルギー整形制御のための物理情報に基づく学習フレームワーク
- エネルギー効率の良い制御は,ロボット工学や電力システムなど様々な分野で重要である。
- 従来の制御手法では,システムの複雑なダイナミクスを正確にモデル化することが困難である。
- この研究は,データに基づいた学習を通じて,複雑なシステムに対するロバストなエネルギー整形制御を実現する。
- 提案手法は,ポートハミルトニアンシステムモデルと最適なエネルギーバランス受動ベース制御器(EB-PBC)を共同で学習する。
- 学習された制御器は閉ループシステムを本質的に受動的かつ安定に保ち,自然な潜在力をキャンセルせずに受動的なプラントダイナミクスを利用する。
- シミュレーションから現実世界へのギャップに対するロバスト性を高めるため,散逸正則化により学習中に厳密なエネルギー減衰を強制する。
テスト時スケーリングのためのエントロピー重心としての内部報酬 [cs.LG, cs.AI, cs.CL]目的:大規模言語モデルのテスト時計算量のスケーリング手法の改善
- 大規模言語モデルの性能向上には,計算資源の効率的な活用が不可欠である。
- 既存の応答選択手法は外部報酬モデルに依存し,追加の計算コストがかかる。
- モデルの不確実性を捉え,外部報酬モデルなしで応答を選択すること。
- エントロピーの高いトークンは連続したグループとして現れる傾向があり,個々のトークンよりも安定した不確実性指標となることが示された。
- 提案手法であるLowest Centroidは,複数の候補応答の中からエントロピー重心が最も低いものを選択する。
- 数学,コード生成,推論,エージェントタスクにおいて,Lowest Centroidが既存手法を上回り,モデル規模の拡大とともに安定した性能向上を実現した。
ドメインが重要である理由:水中物体検出におけるドメイン効果の予備的研究 [cs.CV, cs.LG, cs.RO]目的:水中物体検出におけるドメイン効果の検証
- 水中環境は,光や視界の変化が大きく,安定した物体検出が困難である。
- 既存の研究では,ドメインシフトを捉えきれておらず,実環境での性能低下を招く可能性がある。
- 本研究は,物理的に意味のあるドメインを定義し,より現実的な評価を可能とする。
- 提案手法により,水中ドメインを画像,シーン,取得特性で定義する枠組みが確立された。
- 公開データセットを用いた検証により,ドメイン要因間の体系的な変動が明らかになった。
- 検出性能のドメイン依存性と隠れた失敗モードを特定し,改善の方向性を示唆した。
セマンティック集約における効率的な主張検証:Evergreen [cs.DB, cs.CL, cs.CC, cs.DB, cs.AI, cs.CL]目的:セマンティック集約によって生成された主張の検証
- 自然言語によるデータ集約の需要が高まっており,その信頼性確保が重要である。
- 大規模言語モデルの処理能力限界と,検証コストの高さが課題となっている。
- セマンティック集約における主張検証を,効率的なクエリ処理タスクとして実現する。
- Evergreenは,主張検証をセマンティッククエリ処理として再構築し,最適化とProvenanceの捕捉を行う。
- 検証を意識した最適化により,LLM呼び出しを削減し,コストとレイテンシを大幅に改善した。
- 実世界のデータセットで高い検証精度(F1=1.00)を達成し,コストとレイテンシをそれぞれ3.2倍,4.0倍削減した。
SWAN:実行時変動に対応する世界認識型適応マルチモーダルネットワーク [cs.LG]目的:実行時変動下でのマルチモーダルネットワークの性能最適化
- 現実環境におけるAIシステムの活用には,変化する状況への対応が不可欠である。
- 既存のネットワークは,計算資源や入力の複雑さに柔軟に対応できず,性能が低下する。
- 計算資源の制約下で,入力の複雑さに応じて効率的に処理を行うことを目指す。
- SWANは,ユーザー指定の予算内で,各モダリティへの資源配分を最適化するコントローラーを搭載する。
- 入力の複雑さに応じて層の利用率を調整する適応ゲーティングモジュールにより,効率性を高める。
- 無関係なマルチモーダル特徴をマスクするトークンドロップモジュールにより,さらなる性能向上を実現する。
計画と制御のための具現化された世界モデルの底上げ [cs.CV, cs.AI, cs.LG]目的:具現化されたエージェントの未来の観測予測に基づく計画と制御手法
- ロボット工学において,環境に適応した行動計画は不可欠であり,現実世界での応用を可能にする。
- 複雑な具現化において,高次元のアクション空間の指定と制御が困難であるという課題が存在する。
- 高レベルな行動から低レベルな関節アクションへのマッピングにより,効率的な計画と制御を実現することを目指す。
- 提案手法は,低レベル関節空間での直接探索と比較して,目標姿勢への平均関節誤差を大幅に低減した (3.8倍の改善)。
- 計算効率が向上し,訓練されていない環境への汎化性能も確認された。
- 高レベルなウェイポイントを用いた底上げにより,複雑な具現化における計画と制御を容易にした。
反実仮想公平性のための効率的かつ解釈可能なTransformer [cs.LG]目的:反実仮想公平性を達成するためのTransformerアーキテクチャの開発
- 金融・保険等の分野では,機械学習の利用が拡大する一方,予測性能と解釈性,公平性の両立が課題となっている。
- Transformerは強力だが,Attention機構だけでは反実仮想公平性を保証できず,既存の公平性対策も十分ではない。
- 解釈性と効率性を高め,Attention層で公平性を担保することで,実用的な公平なAIモデルを構築することを目指す。
- 提案手法FCorrTransformerは,Attention機構を簡略化し,特徴量間の相関を直接的に解釈可能な形で表現することで,効率性と解釈性を向上させた。
- CAR(Counterfactual Attention Regularization)を導入することで,Attention層での公平性を担保し,反実仮想公平性を促進した。
- 実験結果から,FCorrTransformerとCARの組み合わせは,予測性能を維持しつつ,既存のTransformerよりも公平性とモデルの複雑さの両面で優れていることが示された。
LinkedInの採用エージェントのための階層型長期セマンティックメモリ [cs.IR, cs.LG]目的:LLMエージェントの長期セマンティックメモリシステム
- ユーザーとの高度な対話には,文脈を理解した個別化が不可欠である。
- ノイズの多い行動データから情報を抽出・保存し,低遅延で検索することが課題。
- スケーラブルで,プライバシーに配慮し,多様なユースケースに対応可能にすること。
- HLTMは,テキストデータを階層的な構造で保存し,スケーラビリティと低遅延性を実現した。
- LinkedInの採用アシスタントでの評価で,回答の正確性と検索F1スコアが10%以上向上した。
- クエリとインデックスの遅延のトレードオフを改善し,実運用に導入されている。
