arXiv雑要約
AI - 2026/04/20 公開
可逆残差正規化が時空間分布シフトを軽減する [cs.LG]目的:深層予測モデルにおける時空間分布シフトへの対処
- 時空間データ分析は,交通,気象,社会システムなど多岐に渡る分野で重要性が増している。
- グラフ構造を持つ時空間データでは,ノードごとの統計的性質の違いにより分布シフトが複雑化する。
- 空間的・時間的な分布シフトを同時に軽減し,ロバストな予測モデルを構築することを目指す。
- 提案手法である可逆残差正規化(RRN)は,グラフ構造を考慮した適応的な正規化を可能にする。
- RRNは,データ駆動的に複雑な時空間関係を捉え,正規化された潜在空間での学習と分布の復元を両立する。
- 実験結果から,RRNは様々な動的な時空間システムにおいて高い予測性能を示すことが確認された。
発見と証明:Lean 4における難易度高自動定理証明のためのオープンソースエージェントフレームワーク [cs.AI, cs.CL, cs.LO]目的:難易度高自動定理証明のためのエージェントフレームワークの開発と評価
- 形式検証はソフトウェアやハードウェアの信頼性向上に不可欠であり,自動定理証明はその重要なツールである。
- 既存の自動定理証明ベンチマークは答えが埋め込まれており,人間の証明者とは異なる状況で評価されている。
- 本研究は,より現実的な「難易度高モード」ベンチマークとフレームワークを開発し,モデルの能力を正確に評価する。
- 新たに「MiniF2F-Hard」と「FIMO-Hard」という難易度高モードのベンチマークを公開し,専門家による再アノテーションを行った。
- LLMの自然言語推論と自己反省を組み合わせたエージェントフレームワーク「Discover And Prove (DAP)」を開発した。
- DAPはCombiBenchで解決問題を7から10へ,PutnamBenchで36定理の形式証明を初めて達成し,LLMと形式証明器の性能差を明らかにした。
DPrivBench:差分プライバシーにおけるLLMの推論能力のベンチマーク [cs.LG, cs.AI, cs.CR]目的:差分プライバシーにおけるLLMの推論能力評価
- データプライバシー保護の重要性が増す中,差分プライバシーは不可欠な技術である。
- DPアルゴリズムの設計・検証には専門知識が必要で,非専門家への障壁となっている。
- LLMによるDP推論の自動化可能性を探り,その限界と改善点を示す。
- DPrivBenchは,DP保証を満たすかの判断問題を網羅的に含むベンチマークである。
- 強力なLLMでも,高度なアルゴリズムに対しては推論が困難であることが示された。
- 本ベンチマークは,DP推論の自動化手法の開発・評価のための基盤を提供する。
欠損または完全なモダリティ下における構造化潜在投影によるロバストな多波長セマンティックセグメンテーション [cs.RO, cs.CV, cs.AI]目的:多波長リモートセンシングデータを用いたセマンティックセグメンテーションのロバスト性の向上
- リモートセンシングは,地球観測や資源管理に不可欠であり,高精度なセグメンテーションが求められる。
- センサー故障や気象条件により,データの一部が欠損することがあり,セグメンテーション精度が低下する。
- 欠損モダリティ時と完全なモダリティ時,双方で高性能を維持できるセグメンテーションモデルの開発。
- 提案手法CBC-SLPは,共有表現だけでなく,モダリティ固有の情報も保持することで,既存モデルの課題を克服した。
- 3つの多波長リモートセンシングデータセットで,CBC-SLPは完全なモダリティ時,欠損モダリティ時ともに,最先端モデルを上回る性能を示した。
- 提案手法は,共有表現では失われがちな補完的な情報を効果的に回復できることが実験的に示された。
QuantSightBench:予測区間を用いたLLMの量的予測の評価 [cs.LG, cs.AI]目的:LLMの量的予測能力の評価
- 不確実性下での推論は重要であり,経済,公衆衛生など多岐にわたる分野での意思決定に不可欠である。
- 既存のLLM評価は,単純な形式の判断タスクに限定され,連続量の数値予測能力を十分に捉えていない。
- 予測区間を用いることで,LLMのスケール認識,一貫性,キャリブレーションを評価し,より厳密な量的予測評価を目指す。
- 11の最先端モデルにおいて,90%のカバー率目標を達成するものはなく,Gemini 3.1 Pro (79.1%),Grok 4 (76.4%),GPT-5.4 (75.3%) が上位であった。
- 極端な値においてキャリブレーションが著しく低下し,評価されたすべてのモデルで系統的な過信が明らかになった。
DiZiNER:パイロットアノテーションシミュレーションによるゼロショット固有表現認識のための不一致に基づく指示の改良 [cs.RO, cs.RO, cs.CL, cs.AI, cs.LG]目的:ゼロショット固有表現認識の性能向上
- 情報抽出は,非構造化データから有用な情報を得る上で不可欠である。
- 大規模言語モデルによるゼロショット固有表現認識は,教師あり学習に比べて性能が劣る。
- 不一致に基づく指示の改良により,ゼロショット性能のギャップを縮小すること。
- DiZiNERは,18のベンチマークにおいて,14のデータセットでゼロショットの最高性能を達成した。
- 既存の最高性能をF1スコアで+8.0ポイント改善し,ゼロショットと教師あり学習のギャップを+11ポイント以上縮小した。
- モデル間の合意率はNERの性能と強い相関関係があり,指示の改良が性能向上に寄与していることを示唆している。
UniEditBench:蒸留MLLMによる画像・動画編集のための統一的かつ費用対効果の高いベンチマーク [cs.CV, cs.AI]目的:画像および動画編集モデルの評価基準
- 画像・動画編集技術は,多様な応用分野で重要性が増しているため,客観的な評価が不可欠である。
- 既存の評価基準は特定の編集手法に偏っている場合が多く,異なる手法間の公平な比較が困難である。
- 画像と動画編集を統一的に評価できる,費用対効果の高いベンチマークを構築し,公平な比較を可能にすること。
- UniEditBenchは,画像編集の9種類と動画編集の8種類の操作を網羅し,複雑なタスクにも対応した統一的なベンチマークである。
- 高性能MLLMを蒸留することで,軽量な評価器を開発し,計算コストと費用を大幅に削減しつつ,人間の判断との高い一致度を維持している。
- UniEditBenchは,現代の画像・動画編集手法のベンチマークングのための実用的かつ再現可能なプロトコルを提供する。
経験圧縮スペクトル:LLMエージェントにおける記憶,スキル,ルールの統合 [eess.SY, cs.SY, cs.AI, cs.CL, cs.MA]目的:LLMエージェントの経験管理効率化
- LLMエージェントの長期運用において,蓄積された経験の効率的な管理が重要課題となっている。
- 記憶システムとスキル発見は経験の再利用を目指すも,コミュニティ間の交流が少ない。
- 圧縮レベルを動的に調整し,記憶,スキル,ルールを統合的に管理する手法を提案する。
- 本研究では,記憶,スキル,ルールを圧縮率の軸上に配置する「経験圧縮スペクトル」を提案した。
- 既存システムは固定の圧縮レベルで動作しており,スペクトルの対角線部分が未開拓であることが示された。
- 圧縮率と特異性のトレードオフ,知識ライフサイクル管理の重要性が明らかになった。
特徴量帰属による厳密な説明可能性に向けて [eess.SY, cs.SY, cs.AI]目的:機械学習モデルの説明可能性の向上
- 機械学習の利用拡大に伴い,その判断根拠の説明が重要視されている。
- 従来の非記号的説明手法は厳密性に欠け,誤解を招く可能性がある。
- 記号的説明手法を用いて,特徴量重要度の厳密な評価を目指す。
- 非記号的説明手法が広く用いられているが,その厳密性には課題がある。
- 特にShapley値などの手法は,その妥当性において議論の余地がある。
- 本研究では,厳密な記号的手法による特徴量重要度の評価を提案する。
デフォルトによる偏極:LLMベースのコンテンツキュレーションにおける推奨バイアスの監査 [cs.CL, cs.NI, cs.SI, cs.AI, cs.CL, cs.CY, cs.MA]目的:LLMによるコンテンツキュレーションにおける推奨バイアスの構造と傾向
- LLMはコンテンツキュレーションに利用が拡大しており,その公平性への関心が高まっている。
- LLMのバイアスがどのように形成され,プラットフォームやプロンプトによって変化するか不明である。
- LLMのバイアスを定量的に評価し,その軽減策を検討する。
- 主要なLLMプロバイダー間(OpenAI, Anthropic, Google)でコンテンツ選択バイアスに差異が見られた。
- 偏極はすべての設定で増幅され,毒性への対処はプロンプトの種類によって逆転する傾向がある。
- Twitter/Xでは,左派の著者が過剰に表現される傾向があり,プロンプトの影響も限定的であった。
(重み付き)適応半径近傍探索:WiFiフィンガープリントに基づく位置推定の評価 [cs.RO, cs.LG, stat.AP]目的:WiFiフィンガープリントに基づく屋内位置推定のための近傍探索手法の評価
- 屋内位置推定は,様々なアプリケーションにおいて重要な役割を担う技術である。
- 従来のk近傍法では,適切なk値の選定が難しい場合がある。
- 固定半径近傍探索の精度低下を,適応的な距離と重み付けで改善する。
- 提案手法であるWARNNは,k近傍法の変種と同等以上の性能を示すことがわかった。
- 適応半径近傍探索に重み付けを組み合わせることで,位置推定精度が向上する。
- 固定半径近傍探索および適応半径近傍探索は,他の手法と比較して性能が低い傾向にあった。
RAGognizer: ハルシネーションを意識した検出ヘッド統合によるファインチューニング [cs.AR, cs.CL, cs.LG]目的:大規模言語モデルにおけるハルシネーションの検出と軽減
- 知識獲得の効率化が求められる中,外部情報を取り込むRAG技術が注目されている。
- RAGモデルは,検索されたコンテキストと矛盾するハルシネーションを起こしやすいという課題がある。
- ハルシネーション検出を訓練信号として活用し,生成時のハルシネーション率を低下させる。
- RAGognizerは,トークンレベルのハルシネーション検出において最先端の性能を達成した。
- 生成時のハルシネーション率を大幅に削減しつつ,言語の質や関連性を損なうことはなかった。
- 言語モデリングとハルシネーション検出の同時最適化により,内部表現の分離性を向上させている。
TwinTrack:医療画像セグメンテーションのための事後多評価者較正 [cs.LG]目的:膵管腺癌セグメンテーションにおける評価者間不一致の較正
- 医療画像解析における正確なセグメンテーションは,診断と治療計画において不可欠である。
- 専門家間でも意見が分かれる場合があり,単一の正解を想定する既存手法では課題が残る。
- 評価者間不一致を考慮した,より信頼性の高いセグメンテーション確率の推定を目指す。
- 提案手法TwinTrackは,アンサンブルセグメンテーション確率を人間の平均反応に基づいて較正する。
- 較正された確率は,腫瘍ラベルを割り当てる評価者の期待割合として解釈可能である。
- MICCAI 2025 CURVAS-PDACVIベンチマークにおいて,標準手法よりも較正性能が向上した。
グラフ,大規模言語モデル,エージェントの統合:推論と検索 [cs.AI]目的:グラフLLM統合のデザイン選択に関する概要
- 生成AIの進化に伴い,グラフ構造の活用が重要視されている。
- グラフLLM統合が適切かどうか判断する明確な基準が不足している。
- タスク要件に応じた最適なグラフLLMアプローチの選択を支援する。
- 本調査は,推論,検索,生成,推薦といった目的に応じたグラフLLM統合手法を分類した。
- 知識グラフ,シーングラフなど,多様なグラフ形式と統合戦略を整理し,各技術の強みと限界を明らかにした。
- サイバーセキュリティ,医療など多岐にわたる分野における活用事例を提示し,最適な適用シナリオを示唆した。
適応的なε制約分解による多目的ベイズ最適化 [cs.LG]目的:多目的ベイズ最適化における,探索範囲の拡大と効率的な制約処理
- 複数目的の最適化は,現実世界の複雑な問題を解決するために不可欠である。
- 既存手法では,探索範囲の不足や,目的数増加に伴うスケーラビリティの問題がある。
- パレートフロントのギャップを特定し,制約条件として活用することで効率的な最適化を目指す。
- 提案手法STAGE-BOは,パレートフロントの未探索領域を的確に特定し,ギャップを制約として利用する。
- ハイパーボリューム計算を必要とせず,均一なパレートフロントの網羅を実現する。
- 実験結果から,既存手法と比較して優れた探索範囲と競争力のあるハイパーボリューム性能が確認された。
大規模テーブル形式の健康データセットに対する合成データ生成の品質評価 [cs.LG]目的:合成データ生成における品質評価指標とベンチマークの確立
- 医療データはプライバシー保護が重要であり,合成データはその解決策の一つである。
- 合成データの品質評価指標が統一されておらず,大規模な健康データセットでのベンチマークが不足している。
- 合成データ生成モデルの性能を客観的に評価し,適切なモデル選択を支援する。
- 7つの最新モデルを4つの異なる規模のデータセットで評価し,各モデルのハイパーパラメータを調整した。
- 合成された結合分布の忠実度を評価する手法を提案し,指標と可視化を統合した。
- ドイツ癌登録の疫学データセット分析から,医療ドメインへの厳密な準拠の難しさを示した。
マルチエージェント推論と協調のための弱点最適化 [cs.AI, cs.CL, cs.MA]目的:マルチエージェントシステムの弱点特定と性能向上
- 複雑な推論タスク解決において,複数エージェントの協調が重要な役割を果たす。
- エージェント間の連携において,個々のエージェントの誤りが増幅され,システム全体の性能を低下させる不安定性の問題がある。
- システム全体の安定性と性能を向上させるため,弱点となるエージェントの特定と強化を目指す。
- 提案手法WORCは,スワームインテリジェンスアルゴリズムとメタ学習を活用し,弱点エージェントをゼロショットで特定する。
- WORCは,弱点エージェントに重点的に推論リソースを割り当てることで,信頼性の低さを補完する。
- 実験結果から,WORCは推論ベンチマークで平均82.2%の精度を達成し,システム全体の安定性と汎化性能を向上させる。
大規模MIMOにおける非線形電力増幅器の影響:現実的な無線チャネル下での機械学習による予測 [cs.LG]目的:大規模MIMOシステムにおける非線形電力増幅器の影響の定量化と,それに対応した電力制御手法の開発
- 無線通信において,スペクトル効率とエネルギー効率の向上が重要な課題であり,大規模MIMOはその主要な技術の一つである。
- 既存研究では線形なフロントエンドを仮定しているが,エネルギー効率追求の限界から非線形性が無視できなくなっている。
- 現実的な無線チャネル環境下で,非線形性が生じる状況を考慮し,精度の高い予測モデルを構築し,電力制御に活用する。
- 3D-Ray Tracingを用いたシミュレーションにより,既存のチャネルモデルの精度に限界があることが示された。
- 統計モデルと機械学習モデルの二つの予測モデルを提案し,受信信号対歪み比(SDR)を精度良く予測することに成功した。
- 提案する機械学習ベースの電力制御方式は,最新技術と比較してユーザーのスループットを中央値で約12%向上させた。
脆弱なデータ主体から脆弱化するデータ慣行へ:プラットフォーム化された生活におけるAI分析の保護のパラドックス [eess.SY, cs.SY, cs.NI, cs.CY, cs.AI, cs.CV, cs.HC]目的:プラットフォーム化された生活におけるAI分析における保護のパラドックス
- デジタル化が進む現代社会において,個人のデータ保護は重要な課題である。
- 既存の倫理的枠組みでは,データの欠如に焦点を当てがちで,データ過多な状況に対応できない。
- データ分析の過程における倫理的な問題を明らかにし,新たな倫理的枠組みを提案すること。
- 本研究は,データ分析が個人の脆弱性を増幅させる可能性に着目し,倫理的な考察の転換を促す。
- AI for Social Goodの事例研究を通じて,保護を意図した取り組みが新たな脆弱性を生み出す「保護のパラドックス」を明らかにした。
- データセット設計,運用化,推論,普及という4つの段階における技術的決定が倫理的に重要であることを示した。
ReactBench:化学反応図におけるMLLMのトポロジカル推論のためのベンチマーク [cs.AI]目的:化学反応図を用いたMLLMのトポロジカル推論能力の評価
- 科学分野における視覚的情報の解釈は,複雑なデータ構造の理解に不可欠である。
- 現在のMLLMは,複雑なトポロジー構造の推論において,性能が著しく低下する。
- 化学反応図を用いて,MLLMの構造的推論能力の限界を明らかにし,改善の方向性を示す。
- ReactBenchは,1,618個の専門家による注釈付きQAペアを含むベンチマークである。
- 17のMLLMを評価した結果,アンカーベースのタスクと全体的な構造的推論タスクの間には,30%を超える性能差があることが示された。
- このボトルネックは,知覚ではなく推論にあることが,制御されたアブレーションによって確認された。
リカレントスパイクニューラルネットワークにおける畳み込みと遅延学習の組み合わせ [eess.SY, cs.SY, cs.NE]目的:リカレントスパイクニューラルネットワークにおける畳み込み型接続と遅延学習機構の組み合わせによる効率化
- リソース制約のあるエッジシステムにおいて,従来のニューラルネットワークの代替としてスパイクニューラルネットワークが注目されている。
- リカレントスパイクニューラルネットワークでは,ネットワークパラメータと共に軸索遅延を学習する必要がある。
- 畳み込み型接続と遅延学習機構を組み合わせることで,メモリ消費量を削減し,推論速度を向上させる。
- 提案手法は,音声分類タスクにおいて,リカレントパラメータ数を約99%削減し,推論速度を52倍向上させた。
- DelRecの精度を維持しつつ,より効率的なアーキテクチャを実現した。
- 本研究のコードは公開されており,今後の研究に貢献することが期待される。
AgentV-RL:エージェント的検証器による報酬モデリングのスケーリング [cs.HC, cs.CL, cs.AI]目的:大規模言語モデルの推論能力向上に向けた報酬モデリング手法
- 大規模言語モデルの性能は,検証機構によって大幅に向上しうる。複雑なタスクにおける信頼性向上が期待される。
- 従来の検証器は,中間推論の誤り伝播や外部知識の欠如により,複雑な領域で課題を抱える。
- エージェント的検証器は,ツール利用と内部推論を組み合わせることで,より堅牢かつ解釈可能な評価を目指す。
- 提案手法「Agentic Verifier」は,順方向と逆方向のエージェントを活用し,解の検証を多段階的に行うことで,信頼性の高い評価を実現した。
- 強化学習を通じて,検証器が自律的にツール利用と内部推論を繰り返す「AgentV-RL」を提案し,実用的な展開を可能にした。
- 実験結果から,4Bモデルにおいて既存の最先端手法を25.2%上回り,エージェント的報酬モデリングの有効性が示された。
周波数アジャイルレーダーを用いた多次元微小運動特徴によるコーナー反射器アレイ妨害識別 [cs.AR, cs.LG]目的:コーナー反射器アレイ妨害と実際の船舶目標との識別
- レーダーによる船舶目標の識別は,海上安全保障や交通管理において不可欠である。
- コーナー反射器アレイ妨害は,従来の識別手法で検出が難しく,誤認識のリスクがある。
- 周波数アジャイルレーダーと微小運動特徴を用いて,より正確な妨害識別を目指す。
- 本研究では,レンジ・速度マップから抽出した新たな特徴量と深層学習特徴を組み合わせることで,妨害識別性能を向上させた。
- 提案手法は,既存の最先端技術と比較して一貫して優れた性能を示すことがシミュレーションによって確認された。
- 剛体である船舶と非剛体であるデコイを,多次元微小運動の特徴によって区別する点が有効である。
MEDLEY-BENCH:AIメタ認知における評価と制御,規模では得られないもの [cs.AI]目的:AIメタ認知の行動的側面を評価するための新たなベンチマーク
- AIの意思決定プロセスを理解・改善するため,自己認識能力であるメタ認知の研究が重要である。
- 既存のAIベンチマークでは,メタ認知能力を十分に評価できていない点が課題である。
- モデルの自己認識と行動の変化を分離し,メタ認知能力を詳細に評価・分析することを目的とする。
- モデルの規模と評価能力は相関するが,制御能力は必ずしも向上しないことが示された。
- モデルは,議論の質や合意統計に基づいて行動が異なる2つのパターンを示すことが明らかになった。
- 評価能力は35モデル全てにおいて相対的に弱く,メタ認知における「知っている」ことと「できる」ことのギャップが示唆された。
ニューロシンボリックなリポジトリレベルのコード局所化 [cs.SE, cs.AI]目的:キーワードに依存しない論理的なコード局所化の課題とその解決策
- ソフトウェアの自動化において,コード局所化は不可欠な要素であり,その重要性は高まっている。
- 既存のコード局所化手法は,キーワードに過度に依存する傾向があり,構造的な推論が不十分である。
- 構造的な推論能力を必要とする新しいベンチマークを提示し,その上でより正確なコード局所化を実現する。
- 既存の最先端手法は,キーワードに依存しないベンチマークにおいて性能が大幅に低下することが示された。
- 提案手法LogicLocは,Datalogと大規模言語モデルを組み合わせ,正確かつ検証可能なコード局所化を可能にする。
- LogicLocは,新しいベンチマークで優れた性能を示し,トークン消費量と実行時間を大幅に削減した。
SocialGrid:具現化されたマルチエージェントシステムにおける計画立案と社会的推論のベンチマーク [cs.AI, cs.LG, cs.MA]目的:具現化されたマルチエージェントシステムにおける計画立案と社会的推論の評価
- 大規模言語モデルが自律エージェントとして進化する中で,社会的相互作用能力の評価が不可欠である。
- 既存の評価環境では,計画立案能力と社会的推論能力を分離して評価することが困難である。
- LLMエージェントの計画立案,タスク実行,社会的推論能力を包括的に評価する環境を提供する。
- SocialGrid環境において,最先端モデル(GPT-OSS-120B)でもタスク完了率は60%以下であり,反復行動や基本的な障害物回避の失敗が見られた。
- 計画立案支援によってタスク完了率は向上するものの,欺瞞の検出はほぼ偶然に依存し,行動証拠の蓄積が不十分であった。
- SocialGridは自動的な失敗分析と詳細な指標を提供し,エージェントの開発と改善に貢献する。
ポストトレーニングにおいて,出力の多様性はどこで失われるのか [cs.CL, cs.AI, cs.LG]目的:ポストトレーニング後の言語モデルにおける出力多様性の低下機構の解明
- 大規模言語モデルの発展は,多様なタスクへの応用を可能にしたが,その出力の質が重要となる。
- ポストトレーニングは性能向上に寄与する一方で,出力の多様性が失われるという問題がある。
- データ構成が多様性低下に及ぼす影響を特定し,推論時の対策の限界を示す。
- ポストトレーニング後の出力多様性の低下は,推論時のスケーリング手法の有効性を損なう可能性がある。
- データの構成要素が多様性の低下に大きく影響し,特にThink系統では教師ありファインチューニング段階でセマンティックな多様性を失う。
- 多様性の低下は,推論時の生成形式ではなく,学習データによってモデルの重みに埋め込まれることが示された。
損失を削減せよ!効率的な並列推論のための早期パス剪定学習 [cs.CL, cs.LG]目的:大規模推論モデルにおける無駄なパスの削減
- 大規模言語モデルの推論能力向上は重要だが,計算コストが課題となっている。
- 初期段階での誤りが原因で,無駄な推論パスが発生し,効率を著しく低下させている。
- 推論パスの早期剪定により,計算資源の浪費を防ぎ,効率的な推論を実現することを目指す。
- 本研究では,パス剪定方法を信号源と学習可能性で分類する体系的な分類法を提案した。
- 提案手法STOPは,既存手法と比較して,大規模言語モデルにおいて優れた効果と効率を示した。
- GPT-OSS-20BのAIME25における精度を,固定された計算量下で約84%から90%に向上させることを実証した。
建物暖房制御と需要側柔軟性のための安全な深層強化学習 [eess.SY, cs.AI, cs.SY]目的:建物暖房の最適化と電力系統運用者への需要側柔軟性の提供
- 世界のエネルギー消費の約40%を建物が占めるため,エネルギー効率向上が重要である。
- 再生可能エネルギーの導入拡大に伴い,電力系統の安定化が課題となっている。
- 深層強化学習を用いて,安全性と効率性を両立した暖房制御を実現する。
- リアルタイム適応安全フィルターにより,柔軟性要求への完全な準拠を保証した。
- ルールベースコントローラーと比較して,最大50%のエネルギーコスト削減を達成した。
- 単独の深層強化学習コントローラーよりも,エネルギー・コスト効率が向上した。
大規模言語モデルの内在的な解釈可能性:設計原則とアーキテクチャの調査 [cs.CL, cs.AI, cs.LG]目的:大規模言語モデルの内在的な解釈可能性に関する設計原則とアーキテクチャの現状
- 大規模言語モデルの性能向上に伴い,その信頼性と安全な利用が重要視されている。
- 既存の解釈手法は事後的なものであり,モデルの内部構造を十分に理解できない。
- モデル自身に透明性を組み込む内在的な解釈可能性を実現し,信頼性を高める。
- 本調査では,機能的透明性,概念整合性,表現的分解可能性,明示的なモジュール化,潜在的な疎性誘導という5つの設計パラダイムを分類した。
- 内在的な解釈可能性に関する最近の研究動向を体系的にレビューし,現状を整理した。
- この分野における未解決の課題と将来の研究方向性についても議論した。
救急車内の振動を最小化するための運転支援システム [cs.HC, cs.CY, cs.LG]目的:救急車の運転における振動軽減ルート選択
- 救急搬送は負傷者や病人の生命に関わるため,搬送中の安全確保が重要である。
- 救急車の走行時の振動は,医療従事者の作業に影響を及ぼし,患者の生存や回復に悪影響を及ぼす可能性がある。
- 患者への振動影響を最小限に抑えるルート選択を支援し,搬送の質を向上させる。
- 本研究では,振動センサーとGPSを用いたシステムを開発し,ルートの振動指標と所要時間を比較する。
- ANNによる分類モデルの精度は97%であり,振動が少ないルートの選択が可能であることが示された。
- 所要時間差が小さい場合,振動が少ないルートが優先されるが,差が大きい場合は最短ルートが優先される傾向がある。
心の目:マルチモーダルLLMのための視覚的抽象化,変換,合成のベンチマーク [cs.DC, cs.CV, cs.AI]目的:マルチモーダルLLMの視覚的認知・空間推論能力の評価
- 視覚と言語を統合したAIの発展は,人間のような知能の実現に不可欠である。
- 既存のベンチマークでは,AIの視覚的認知能力を十分に評価できていない。
- AIの流動性知能,特に視覚的抽象化,関係性認識,変換能力の評価を目指す。
- 人間の正答率は80%であるのに対し,最先端のMLLMは50%を下回る結果となった。
- MLLMのエラー分析から,視覚的注意の偏り,知覚的操作の弱さ,抽象概念の理解不足が明らかになった。
- 現状のMLLMは,人間と比較して視覚空間推論能力が限定的であり,認知に基づいた評価の必要性を示唆する。
AST:適応的,シームレス,そして学習不要な高精度音声編集 [cs.SD, cs.AI]目的:高精度な音声編集手法
- 音声編集は,話者固有の特性や文脈を維持しつつ,音声の一部を修正する上で重要である。
- 既存手法は,タスク固有の学習に依存するため,データコストが高く,編集されていない部分の時間的整合性に課題がある。
- ASTは,学習を必要とせず,高品質かつ時間的整合性の高い音声編集を実現し,この課題を解決する。
- ASTは,事前学習済みのTTSモデルを活用し,保存された音声セグメントと新たに合成された音声をシームレスに結合するLatent Recompositionを導入した。
- ASTは,Adaptive Weak Fact Guidance (AWFG)により,編集境界におけるアーティファクトを抑制し,構造的制約を必要に応じて動的に適用する。
- 新しいデータセットLibriSpeech-Editを導入し,提案するWDTW評価指標を用いることで,ASTが既存手法と比較して時間的整合性と語彙誤り率の大幅な改善を達成した。
思考連鎖がマルチモーダルLLMの視覚空間推論能力を低下させる [cs.CV, cs.AI]目的:マルチモーダルLLMにおける視覚空間推論能力低下の検証
- マルチモーダルLLMは,数学や論理問題解決に革命をもたらしたが,空間推論能力には課題が残る。
- 思考連鎖(CoT)は,空間推論タスクにおいて一貫して性能を低下させるという問題がある。
- テキストのみのCoTが空間タスクに適さないことを明らかにし,視覚に焦点を当てた推論パラダイムの必要性を訴える。
- 17モデル13ベンチマークの評価により,CoTプロンプトが視覚空間推論の性能を低下させることが確認された。
- No-Image++アブレーションにより,MRMとCoTプロンプトMLMが深刻なショートカット学習に陥り,画像がない場合でもテキストからの情報を幻覚することが示された。
- これらの結果は,視覚中心の推論パラダイムの重要性を強調し,CoTの有効性に疑問を投げかける。
二重制約付き公平k-中心点,k-中央値,k-平均クラスタリングに対する定数因子近似 [cs.DS, cs.CY, cs.LG]目的:二重制約付き公平クラスタリング問題における近似アルゴリズムの開発
- 機械学習における公平性の重要性が増しており,特にセンシティブな属性に基づく不公平の解消が求められている。
- 既存手法では,公平性の制約を満たすために近似率が低下する,あるいは制約違反が生じる問題があった。
- グループ公平性と多様な中心選択という二つの制約を同時に満たす,より効率的な近似アルゴリズムを提案する。
- k-中心点問題において,既存の8-近似を改善し,4-近似を達成した。少量の加法的なグループ公平性制約違反を伴う。
- k-中央値およびk-平均問題に対し,初の定数因子近似アルゴリズムを提案した。
- 提案手法は,マトロイドk-クラスタリングやナップサック制約など,他の中心選択制約にも一般化可能である。
AEGIS:アンカー強制勾配隔離による知識保存型ビジョン-言語-行動ファインチューニング [cs.LG, cs.CV]目的:知識を保持しつつ,ビジョン-言語モデルをロボット制御に適合させる手法
- ロボット制御において,事前学習済みモデルの知識を活用することが重要である。
- ロボット制御のための勾配注入時に,事前学習されたビジョン-言語モデルの性能が著しく低下する問題がある。
- 勾配隔離により,事前学習された知識を維持しつつ,ロボット制御に適応させることを目指す。
- AEGISは,アンカー強制勾配隔離システムという,バッファーフリーで層ごとの直交勾配投影フレームワークを導入した。
- この手法により,継続的なMSE学習を可能にしつつ,事前学習されたVQA多様体を維持する。
- 勾配エネルギーの損失は平均1%未満でありながら,深刻な忘却を引き起こす活性化ドリフトを解消する。
線形システムソルバーにおける後方誤差の普遍的収束に向けて [cs.CG, cs.SI, math.NA, cs.DS, cs.LG, cs.NA, math.OC]目的:線形システムソルバーの後方誤差の普遍的収束
- 数値線形代数において,効率的な線形システムの解法は重要であり,計算コスト削減に繋がる。
- 既存手法は条件数に依存し,安定した収束が保証されない場合がある。
- 条件数に依存しない,普遍的な収束性を持つ解法の確立を目指す。
- リチャードソン反復法が正定値線形システムに対し,反復回数$k$で最大$1/k$の後方誤差に収束することを示した。
- この結果から,正定値線形システムを$\epsilon$の後方誤差で解くアルゴリズムが$O(n^2/\epsilon)$の計算量で実現できる。
- MINBERRというアルゴリズムを開発し,$O(n^2/\sqrt\epsilon)$の計算量でより高速な収束を実現した。
検証可能な概念整合性のためのプロトタイプに基づいた概念モデル [cs.LG, cs.AI, cs.NE]目的:深層学習における概念整合性の検証方法
- 深層学習の解釈可能性向上は,AIの信頼性確保に不可欠である。
- 既存の概念ボトルネックモデルは,学習された概念が人間の意図と一致するか検証できない。
- プロトタイプに基づいた概念モデルで,概念の意味を明確化し,整合性を検証する。
- 提案手法は,最先端の概念ボトルネックモデルと同等の予測性能を達成した。
- 概念の意味の直接的な検証と,プロトタイプレベルでの介入が可能になった。
- 透明性,解釈可能性,介入可能性が大幅に向上した。
YOLOv12深層学習モデルを用いた急性骨髄性白血病(AML)の早期検出 [cs.MA, cs.CV, cs.AI, cs.LG]目的:急性骨髄性白血病(AML)細胞の多クラス分類
- 急性骨髄性白血病は生命を脅かす血液がんであり,早期正確な診断が重要である。
- 細胞の種類が視覚的に類似しているため,正確な分類は依然として課題となっている。
- YOLOv12モデルを用いて,AML細胞の分類精度向上を目指す。
- 細胞ベースセグメンテーションとOtsu閾値処理を組み合わせたYOLOv12が最も高い検証・テスト精度(99.3%)を示した。
- 画像の前処理にHueチャンネルとOtsu閾値処理を使用することで,細胞及び核の特徴に基づいたセグメンテーションを試みた。
確率的モデリングの解明:交通予測のための普遍的な多Modal確率モデル [cs.LG, cs.AI]目的:交通予測のための普遍的な多Modal確率モデルの提案
- 都市交通管理において不可欠であり,交通流の効率化と安全性の向上に貢献する重要な研究分野である。
- 既存研究では決定論的な予測に偏っており,交通ダイナミクスの不確実性や確率性への配慮が不足している。
- 交通予測における不確実性を定量化し,より信頼性の高い予測情報を提供することを目的とする。
- 提案手法は,既存のモデルの出力層を新しいガウス混合モデル層に置き換えるだけで確率予測が可能となり,学習パイプラインの変更は不要である。
- 複数の交通データセットにおける実験により,古典的なモデルから最新のモデルアーキテクチャまで,幅広いモデルに適用可能であることが示された。
- 累積分布と信頼区間に基づく評価により,提案手法が単峰または決定論的なベースラインよりも大幅に正確かつ情報量が多いことが示された。
スタイル付きST-STORM:外観のセマンティックな性質の認識 [cs.CV, cs.AI, cs.LG, stat.ML]目的:外観をセマンティックなモダリティとして解きほぐす自己教師あり学習フレームワーク
- 画像認識の分野において,ロバストな特徴表現を獲得することは,多様な条件下での性能向上に不可欠である。
- 既存の自己教師あり学習は,外観に依存する情報まで除去してしまう場合があり,特定のタスクにおいて問題となる。
- 外観が重要な識別信号となる場合に,外観情報を効果的に捉え,活用することを目的とする。
- ST-STORMは,コンテンツとスタイルという2つの潜在ストリームを分離することで,外観の特徴を捉える。
- スタイルブランチは,複雑な外観現象(Multi-WeatherでF1=97%,ISIC 2024でF1=94%)を効果的に分離することを示した。
- コンテンツブランチのセマンティック性能(ImageNet-1KでF1=80%)を損なうことなく,外観情報の保存を改善した。
より困難な道:ゼロサムゲームにおけるバンディットフィードバックを用いた非結合学習における最終反復収束 [cs.LG, stat.ML]目的:ゼロサム行列ゲームにおける非結合学習アルゴリズムの収束性
- ゲーム理論は,経済学,コンピュータサイエンスなど様々な分野に応用され,戦略的意思決定を分析する上で不可欠である。
- バンディットフィードバック下でのゲーム学習は,探索と活用のトレードオフが難しく,収束速度が遅いという課題がある。
- プレイヤー間の通信を必要としない非結合学習アルゴリズムにおいて,収束率の理論的限界を明らかにし,それを達成するアルゴリズムを開発する。
- 非結合アルゴリズムにおいて,ポリシープロファイルの収束を保証すると,パフォーマンスが低下し,収束率は$\Omega(T^{-1/4})$に制限されることが示された。
- 探索と活用のトレードオフを利用したアルゴリズムと,二段階ミラー降下に基づく正則化手法を用いたアルゴリズムを提案し,最適な収束率を達成した。
- 提案アルゴリズムは,定数および対数因子を除いて,$\Omega(T^{-1/4})$の収束率を達成することが確認された。
相関するデバイス故障に強い連合学習のための堅牢な同期 [cs.NI, cs.AR, cs.DC, cs.AI]目的:分散学習における堅牢な同期手法の開発
- モバイル環境など,デバイスの信頼性が低い状況下での連合学習の重要性が高まっている。
- 従来の同期手法では,デバイスの可用性とデータの分布が相関する場合,学習の偏りが生じやすい。
- デバイスの可用性予測と故障相関に基づき,公平性を意識したノードサンプリングを可能にする手法を提案する。
- 提案手法AW-PSPは,独立・相関故障の両方に対して堅牢性を示し,ラベルのカバレッジを向上させた。
- AW-PSPは,標準的なPSPと比較して,公平性の分散を低減することを確認した。
- 可用性を考慮したノードサンプリングプロトコルは,大規模かつ異質な環境下での連合学習のスケーラビリティを向上させる。
AIの政治経済:説明責任追求における欺瞞の回避 [cs.CY, cs.AI]目的:AIの政治経済における欺瞞の構造と,真の責任追及のあり方
- AI技術は社会構造を大きく変革する可能性を秘めており,その影響を理解することは不可欠である。
- AI開発において,責任追及の議論が表面化する一方で,本質的な問題が隠蔽されている現状がある。
- AI開発の政治経済的構造を明らかにし,欺瞞に惑わされず,公正な技術社会の実現を目指す。
- 本研究では,AI開発を推進する資金提供者や開発者が,権力と富のネットワークを維持・強化する構造を分析した。
- AIに関する批判や議論の多くが,表面的なものに留まり,AIの政治経済的構造を覆い隠す「欺瞞」として機能していることが示唆された。
- 真の公平性や責任追及を実現するためには,欺瞞を見抜き,AIを可能にする権力構造に直接取り組む必要がある。
確率的最短経路問題における生成モデルを用いたサンプル複雑度上限 [cs.LG, stat.ML]目的:確率的最短経路問題におけるε-最適方策の学習に必要なサンプル数
- 強化学習の重要な課題であり,現実世界の複雑な制御問題への応用が期待される。
- サンプル効率が低い場合,学習に必要なデータ量が膨大になり,実用上の制約となる。
- 生成モデルを利用することで,サンプル複雑度を理論的に評価し,効率的な学習アルゴリズムを開発する。
- 生成モデルが利用可能な場合,最悪の場合の確率的最短経路問題インスタンスにおいて,少なくともΩ(SAB⋆3/(cminε2))個のサンプルが必要となることが示された。
- 最小コストcminが0の場合,確率的最短経路問題は学習不可能であり,有限ホライズンや割引設定よりも学習が困難であることが明らかになった。
- 提案アルゴリズムは,対数因子を除いてこの下限に一致し,さらにcmin=0の場合でも,目標状態への到達時間が有限であるという条件下で下限に一致する。
遺物条件:発表された学術研究が自身の代替となる様相 [cs.ET, cs.AI, cs.CY]目的:学術研究者の推論システム抽出と,大規模言語モデルへの実装による学術機能の評価
- 学術研究は知識の創造と発展に不可欠であり,社会の進歩を支える基盤である。
- 研究者の思考プロセスは暗黙的であり,その再現や自動化は困難であった。
- 発表された研究記録から推論システムを抽出し,学術機能を代替する可能性を探る。
- 研究者の推論システムを抽出し,大規模言語モデルに実装した「学者ボット」は,博士課程の指導,査読,講義などの学術機能を専門家レベルで実行できた。
- 専門家による評価の結果,学者ボットの出力は基準を満たし,オーストラリアの大学システムにおける准教授以上のレベルと判断された。
- 研究者学位取得課程の学生によるアンケート調査では,情報信頼性,理論的深さ,論理的厳密さにおいて高い評価を得た。
ドイツの大学におけるプログラミングのための知能型チュータリングシステムの導入 [cs.LG, cs.AI]目的:プログラミング教育のための知能型チュータリングシステム
- プログラミング教育において,反復練習と豊富な演習は不可欠である。
- 既存のプログラミング用ITSはPythonに対応しておらず,初学者向けに偏っている。
- 生成モデルの発展を取り入れ,データ保護規制に対応したITSを開発する。
- 本研究では,Pythonプログラミング教育用の適応性の高いITSの現状と今後の開発方向を示す。
- このITSは,教育と研究の両方のプラットフォームとして機能し,ヒント機構のインターフェースを提供する。
- ドイツの法規制(データ保護規則,AI法,ドイツ研究財団の倫理的枠組み)への準拠が課題である。
多変量時系列分類のための単変量チャネル融合 [cs.LG]目的:多変量時系列データの分類
- 医療信号分析やモーションモニタリングなど,様々な分野で重要性が増している
- 深層学習モデルは計算資源を多く必要とし,リアルタイム処理や低コストデバイスでの利用が困難
- 計算効率の高い単変量変換による多変量時系列分類問題の解決
- 提案手法であるUCFは,平均,中央値,動的時間伸縮重心などのシンプルなチャネル融合により多変量時系列を単変量表現に変換する。
- UCFは,既存の単変量時系列分類器を適用可能にし,計算負荷を軽減する。
- 化学モニタリング,脳コンピュータインターフェース,人体活動分析を含む5つの事例研究で,UCFは既存手法や最先端アルゴリズムを上回り,高い計算効率を実現した。
分子特性の文脈内予測のための表形式ファウンデーションモデル [cs.IR, cs.LG, physics.chem-ph]目的:分子特性予測における表形式ファウンデーションモデルの有効性評価
- 創薬,触媒,プロセス設計等において,正確な分子特性予測は不可欠である。
- データセットが小さい場合,既存の手法では性能が制限されるという課題がある。
- 少ないデータでも高い予測精度を実現し,専門知識なしで利用可能とする。
- 表形式ファウンデーションモデルは,タスク固有の学習なしで高い予測性能を示し,計算コストを削減する。
- CheMeleon埋め込みと組み合わせることで,MoleculeACEタスクにおいて最大100%の勝率を達成した。
- 分子表現がモデル性能に大きく影響し,ファウンデーションモデル埋め込みや2D記述子が古典的なフィンガープリントよりも優れていることが示された。
LLMはトラウマの影響を理解できるか?銃器暴力被害者のインタビューをLLMでコーディングする際の費用と利益 [cs.CL, cs.AI]目的:銃器暴力被害者のインタビューにおけるLLMによる帰納的コーディングの評価
- 銃器暴力は深刻な公衆衛生問題であり,被害者の経験理解が不可欠である。
- 質的分析は時間と労力を要し,大規模な調査の実施が困難である。
- LLMを活用し,質的データの分析を効率化し,倫理的課題を明確化する。
- LLMは重要なコードを特定できる場合があるが,全体的な関連性は低い。
- LLMのデータ処理方法に敏感であり,わずかな変更で結果が大きく変動する。
- LLMの安全対策が,被害者の語りの大幅な削除につながる。
