arXiv雑要約
AI - 2026/02/04 公開
Sybilの監査:生成的介入帰属による深層肺がんリスク予測の説明 [cs.LG, cs.AI, cs.CV]目的:深層学習モデルSybilによる肺がんリスク予測のメカニズム解明
- 肺がんは癌死因の第一位であり,放射線科医の負担軽減のため自動スクリーニングツール開発が急務である。
- 既存の評価は観察的指標に依存し,モデルの判断根拠が不明確である。
- 因果検証に基づき,臨床応用前の意思決定の信頼性を確保すること。
- 提案手法S(H)NAPは,専門家による検証済みの生成的介入帰属を構築し,解釈可能性を提供した。
- Sybilは良性・悪性肺結節の識別において専門家と類似した行動を示す一方で,臨床的に根拠のないアーチファクトに敏感であるという欠陥が明らかになった。
- また,特徴的な放射状バイアスも確認された。
MathlibLemma: 数学的フォークロア補題の生成と形式数学のベンチマーク [cs.LO, cs.AI, cs.LG]目的:数学的フォークロア補題の自動発見と形式化
- 形式数学は,数学的推論の厳密性と信頼性を保証する上で重要である。
- Mathlibには多くのフォークロア補題が欠けており,数学者にとって使いにくい。
- LLMを活用して,Mathlibの補題不足を解消し,実用性を高める。
- MathlibLemmaは,LLMベースのマルチエージェントシステムとして,数学的フォークロア補題の発見と形式化を自動化する。
- 生成された補題群の一部はMathlibに統合され,システムの有用性と専門家基準への適合性が確認された。
- 4,028の型チェック済みLean文を含むMathlibLemmaベンチマークを構築し,LLMの役割を消費者から貢献者へと変化させた。
汎用再学習器:入力-ラベル残差の再学習による時空間予測の強化 [cs.LG]目的:時空間予測における性能向上
- 時空間データは交通,気象,社会現象など広範な分野で重要であり,正確な予測は不可欠である。
- 従来のモデルは入力とラベルの時空間的ずれに弱く,予測精度が低下する問題がある。
- 入力とラベル間の残差を再学習することで,時空間的ずれによる予測精度の低下を解消することを目指す。
- 本研究で提案するReLearnerは,既存の時空間ニューラルネットワーク(STNN)に容易に組み込むことができる。
- ReLearnerは,入力データと将来データ間の時空間的特徴の残差を効果的に学習し,予測精度を大幅に向上させる。
- 11の現実世界のデータセットと14のバックボーンモデルを用いた実験により,ReLearnerの有効性が確認された。
エージェントAIを用いたラベルキュレーション [cs.LG, cs.MA]目的:大規模マルチモーダルデータに対するラベル生成と信頼性評価
- 教師あり学習にはデータアノテーションが不可欠であり,その品質が学習性能を大きく左右する。
- 従来の人手によるアノテーションはコストと時間がかかり,アノテーター間のばらつきも課題である。
- AIエージェントによる自動アノテーションと信頼性モデリングを通じて,効率的なラベルキュレーションを実現する。
- AURAは,正解データを用いずに複数のAIエージェントがラベルを生成・検証するフレームワークである。
- AURAは期待値最大化法を用いてアノテーターの信頼性を推定し,矛盾するアノテーションを解決する。
- 4つのベンチマークデータセットにおいて,ベースラインと比較して最大5.8%の精度向上を達成した。
グラスマン多様体を用いた高ランク行列補完 [cs.LG, cs.AI]目的:高ランク行列補完における性能向上
- データ解析において,欠損値を含む行列からの情報復元は重要な課題である。
- 既存手法は理論的根拠に乏しく,解釈が難しく,必要なサンプル数が過剰である。
- 少ないサンプル数でも高精度な行列補完を可能にすること。
- 提案手法は,グラスマン多様体上の距離を最小化することで,列ベクトルが複数の部分空間近傍にある場合の行列補完を行う。
- 実験結果から,高サンプリング率においては既存手法と同等の性能を示し,低サンプリング率においては大幅に性能が向上することが確認された。
- これにより,高ランク行列補完の理論的サンプリング限界への乖離を縮小することができた。
ボルチモア市における予測的警察システムの公平性と精度の比較シミュレーション研究 [cs.LG, cs.AI, cs.CY]目的:予測的警察システムの公平性と精度の比較分析
- 犯罪抑止における予測的警察システムの活用が注目されており,その効果と課題の理解が重要である。
- 既存研究では,過去の偏ったデータに基づく学習やフィードバックループによる不公平性が指摘されている。
- 都市ごとに予測的警察システムの公平性と精度を評価する手法を確立し,長期的な影響を比較検討すること。
- 予測的警察システムは,従来のホットスポット警察と同様にバイアスを持つ可能性があることが示された。
- 短期的な公平性と精度においては,予測的警察システムがホットスポット警察を上回る結果が得られた。
- ただし,予測的警察システムはバイアスを増幅させる速度が速いため,長期的に見て悪化する可能性が示唆された。
IceBench-S2S:深層潜在空間における困難な亜季節-季節規模の北極海氷日次予測のための深層学習ベンチマーク [cs.LG, cs.AI, eess.IV]目的:困難な亜季節-季節規模の北極海氷日次予測のための深層学習手法の評価基準
- 北極海氷は地球の気候システムを調整し,極地の生態系と沿岸地域の活動に大きな影響を与える重要な役割を担う。
- 既存の深層学習モデルの予測リードタイムは亜季節規模に限られ,実世界への応用を妨げている。
- 深層学習モデルの予測リードタイムを亜季節-季節規模に拡張し,実用的な応用を可能にすることを目指す。
- IceBench-S2Sは,北極海氷濃度の亜季節-季節規模予測における深層学習手法の評価を目的とした初の包括的なベンチマークである。
- 空間的特徴を深層潜在空間に圧縮し,時間的に連結された特徴を深層学習バックボーンでモデル化する一般的なフレームワークを提案する。
- 異なるバックボーンの統一的な学習・評価パイプラインと,極地環境モニタリングにおけるモデル選択のためのガイダンスを提供する。
階層型二階摂動によるタスク順序感受性と忘却の軽減 [cs.LG]目的:タスク順序感受性と忘却の軽減
- 継続学習は,AIの柔軟性と適応性を高める上で不可欠である。
- 従来の継続学習はタスク順序に強く依存し,結果にばらつきが生じやすい。
- タスク順序の影響を軽減し,より安定した継続学習を実現すること。
- 本研究で提案するHTCLは,タスク順序の影響を軽減し,継続学習の性能を向上させる。
- HTCLは,平均精度を7%から25%向上させ,最終精度の標準偏差を最大68%削減する。
- HTCLはモデルに依存しない汎用的な手法であり,様々なデータセットで有効性が確認された。
DECEIVE-AFC:検索機能付きLLMベースのファクトチェックシステムに対する敵対的クレーム攻撃 [cs.CR, cs.AI]目的:検索機能付きLLMベースのファクトチェックシステムに対する敵対的クレーム攻撃の検証
- 近年のLLMの発展により,外部情報源を利用したファクトチェックの精度向上が期待されている。
- 敵対的攻撃に対するロバスト性は十分には検証されておらず,脆弱性が懸念されている。
- 入力のみを対象とした現実的な脅威モデル下での攻撃手法とその影響を明らかにする。
- 提案手法DECEIVE-AFCは,検索行動,証拠取得,LLMの推論を妨害するクレームレベル攻撃戦略を組み込む。
- ベンチマークデータセットと実システムを用いた評価で,検証精度が78.7%から53.7%に低下することを示した。
- 既存の攻撃手法と比較して高い攻撃性能を示し,システム間の汎用性も確認された。
オイラー平均流における一ステップ生成のための軌跡一貫性 [cs.CG, cs.LG, cs.AI, cs.CV]目的:一ステップおよび少数ステップ生成における長距離軌跡の一貫性
- 生成モデルの性能向上は,画像や形状の高品質な生成に不可欠である。
- 長時間の軌跡一貫性の制約は,監督と最適化が困難であるという課題がある。
- 長距離におけるフローマップ合成の直接的なデータ監督を可能にする線形近似を用いる。
- 提案手法であるオイラー平均流(EMF)は,最小限のサンプリングコストで長距離の軌跡一貫性を実現する。
- EMFは,従来のone-step法と比較して,訓練時間とメモリ消費量を約50%削減する。
- 画像合成,粒子ベースの形状生成,関数生成において,最適化の安定性とサンプル品質の向上が確認された。
推論時アライメントのための報酬形成:スタケルベルクゲームの視点 [cs.LG, cs.AI]目的:推論時アライメントにおける最適な報酬モデル設計
- 大規模言語モデルのアライメントは,人間の意図に沿った挙動を実現するために不可欠である。
- ベースモデルのバイアスがユーザーの好みに反する場合,KL正則化だけでは最適解が得られない。
- KL正則化下での報酬モデルの最適設計を通じて,ユーザー満足度を最大化することを目指す。
- 提案手法は,スタケルベルクゲームとして報酬モデル最適化問題を定式化し,単純な報酬形成スキームが最適報酬モデルを近似できることを示した。
- 推論時アライメント実験の結果,既存のアライメント手法に容易に組み込み可能であり,オーバーヘッドも少ないことが確認された。
- 平均報酬と勝率において,全てのベースラインと比較して一貫して高い性能を示した(勝率66%超)。
プロダクト相互作用:深層学習アーキテクチャに対する代数的定式化 [cs.LG, cs.AI]目的:深層学習アーキテクチャの代数的定式化
- 深層学習は,画像認識や自然言語処理など多岐にわたる分野で目覚ましい成果を上げている。
- 現在の深層学習モデルは,その構造が複雑で,統一的な理論的枠組みが不足している。
- 線形,二次,高次のプロダクト相互作用という共通の構築原理を提示し,モデルの理解を深める。
- 本研究では,ニューラルネットワーク層を代数の乗算演算子の合成から構築する「プロダクト相互作用」という代数的定式化を導入した。
- これにより,畳み込みネットワークや注意機構など,様々な深層学習モデルを統一的に表現できることが示された。
- プロダクト相互作用は,相互作用の次数を上げることで代数式を生成・整理する原理的な方法を提供する。
ProphetKV:検索拡張生成における効率的なKVキャッシュ再利用のためのユーザークエリ駆動型選択的再計算 [cs.PF, cs.OS, cs.AI]目的:検索拡張生成におけるKVキャッシュ再利用効率の向上
- 長文脈を扱う検索拡張生成は,その計算コストの高さが課題となっている。
- 既存手法では,再計算予算を浪費する無関係なトークンが多く,精度低下を招く。
- ユーザークエリとの関連性が高いトークンに重点を置くことで,精度を維持しつつ計算コストを削減する。
- ProphetKVは,ユーザークエリとの意味的関連性に基づいてトークンの優先順位を動的に決定する。
- 再計算率20%で,フルプリフィルと同等の精度(96〜101%)を維持する。
- RULERおよびLongBenchにおいて,最先端手法と比較して8.8〜50.9%の精度向上を達成した。
QuantLRM: 推論信号による大規模推論モデルの量子化 [cs.LG, cs.AI]目的:大規模推論モデルの量子化
- LLMの利用拡大には,モデルサイズの縮小が不可欠であるため,量子化技術が重要視されている。
- 従来の量子化手法では,推論性能の低下が課題であり,特に大規模モデルではその影響が大きい。
- 推論に特化したファインチューニング信号を活用し,量子化時の性能劣化を抑制することを目指す。
- 推論促進型ファインチューニング時の重み更新の大きさは,量子化において重要な信号となりうる。
- 両端の重み更新(大きい値と小さい値)を保護する「両端保護」という現象が確認された。
- QuantLRMは,様々なファインチューニング手法や推論ベンチマークで一貫した性能向上を示し,特に強化学習ファインチューニングモデルで平均6.55%の改善が見られた。
LLMベースの推薦システムにおける不確実性と公平性への意識 [cs.AI, cs.CL, cs.CY, cs.IR, cs.LG, cs.SE]目的:LLMベースの推薦システムにおける不確実性と公平性の評価
- 推薦システムは多様な情報から最適な提案を行うため,ユーザー体験向上に不可欠である。
- LLMは知識が豊富だが,予測の不確実性や潜在的な偏りが信頼性と公平性を損なう恐れがある。
- LLM推薦システムの信頼性と公平性を高めるための評価手法とベンチマークの確立を目指す。
- LLM(Gemini 1.5 Flash)は特定の属性において系統的な不公平性を示すことが定量的に確認された。
- 不確実性(エントロピー)を考慮した評価手法と,性格特性を考慮した公平性ベンチマークを提案した。
- 提示された課題は,より安全で解釈可能なLLM推薦システム開発の基盤となり,さらなる研究を促進する。
コプラに基づく集約と文脈を考慮した確証的予測による信頼性の高い再生可能エネルギー予測 [cs.LG, stat.AP]目的:再生可能エネルギーの信頼性ある確率予測手法の開発
- 再生可能エネルギーの導入拡大に伴い,系統運用を支援する信頼性の高い確率予測が不可欠となっている。
- 系統運用者は,フリートレベルの確率モデルを持たず,第三者提供のサイトレベル予測に依存している場合が多い。
- サイトレベル予測から信頼性の高いフリートレベル予測を構築する手法を確立し,予測の信頼性と精度を向上させる。
- 提案手法は,大規模な太陽光発電データセットにおいて,名目的なカバレッジをほぼ実現し,未校正の集約ベースラインよりも有意にシャープな予測区間を達成した。
- コプラに基づく依存モデリングと文脈を考慮した確証的予測を組み合わせることで,依存性を考慮した集約が可能となり,有効なカバレッジとシャープな予測区間が維持された。
- 本手法は,システムレベルのモデルを訓練・維持できない状況下においても,信頼性の高いフリートレベルの確率予測を可能にする。
憲法に基づく仕様駆動型開発:AI支援コード生成における構築によるセキュリティ確保 [cs.SE, cs.AI, cs.CR]目的:AI支援コード生成におけるセキュリティ確保手法
- ソフトウェア開発の高速化が求められる中,AI支援が不可欠となっている。
- AIによるコード生成は機能優先になりがちで,セキュリティリスクが高まる。
- AI生成コードがセキュリティ要件を満たすよう,開発段階で確保すること。
- 憲法(セキュリティ制約の文書)を仕様層に組み込むことで,AI生成コードのセキュリティを向上。
- 銀行マイクロサービスアプリケーションへの適用で,10個のCWE脆弱性に対処可能。
- 憲法に基づく制約により,セキュリティ欠陥が73%減少し,開発速度は維持。
エージェントによる可視性:Adobe Eコマースの自動アラートトリアージ [cs.SE, cs.AI]目的:アラートトリアージの自動化
- 現代のエンタープライズシステムは複雑化の一途を辿っており,可視性とインシデント対応の重要性が増している。
- 手動アラートトリアージはボトルネックであり,平均復旧時間(MTTR)の短縮を阻害する要因となっている。
- 本研究は,アラートトリアージを自動化することで,MTTRを大幅に短縮することを目的とする。
- 本研究で開発されたエージェントによる可視性フレームワークは,アラート検出時に影響を受けるサービスを特定し,関連ログを分析する。
- 実稼働環境での検証結果から,手動トリアージと比較して,インサイトまでの平均時間が90%削減されたことが示された。
- エージェントAIは,トリアージの遅延を大幅に削減し,解決の精度向上に貢献する。
PeerRank:ウェブに基づいた偏り制御されたピアレビューによる自律型LLM評価 [cs.AI, cs.LG]目的:大規模言語モデルの自律的な評価フレームワーク
- LLMの性能評価は,その発展において不可欠であり,実世界での応用を左右する。
- 従来の評価手法は,人的資源に依存し,拡張性に乏しく,最新性を維持することが困難である。
- ウェブ検索を活用し,偏りを制御することで,大規模LLMの評価を自動化し,拡張可能にすること。
- PeerRankは,人間の介入なしに,タスク生成,回答,評価をモデル自身で行う完全自律型フレームワークである。
- 大規模な実験により,PeerRankは安定した識別力のあるランキングを生成し,モデルの偏りを明らかにすることが示された。
- PeerRankによる評価スコアは,Eloレーティングと相関があり,TruthfulQAやGSM8Kでも客観的な精度と一致することが確認された。
シーン認識に基づく視覚駆動型音声合成のための統一フレームワークVividVoice [cs.RO, cs.SD, cs.AI]目的:シーン認識に基づく視覚駆動型音声合成
- 没入感のある体験提供が重要であり,現実世界の物理的環境と調和した音声生成が求められている。
- 既存の音声生成モデルは,現実世界の環境との整合性やデータ不足といった課題を抱えている。
- 現実世界との整合性と高品質な音声合成を実現するための新しいフレームワークを開発すること。
- VividVoiceは,大規模なマルチモーダルデータセットVivid-210Kを活用し,視覚シーンと音声の関連性を強化した。
- D-MSVAモジュールは,視覚シーンと音声の特徴を細かく対応付けることで,音質と環境音響の再現性を向上させた。
- 主観評価と客観評価の結果,VividVoiceは既存モデルと比較して,音声の忠実度,明瞭度,マルチモーダル整合性において顕著な性能向上を示した。
スペクトル制御を用いた学習可能なクープマン拡張Transformerに基づく時系列予測 [cs.LG, cs.AI, cs.SY, eess.SY]目的:時系列予測における学習可能なクープマン演算子パラメータ化
- 時系列データは,経済,気象,医療など多岐にわたる分野で重要な役割を果たす。
- 深層学習モデルは予測性能が高い一方,状態遷移の安定性や解釈性に課題がある。
- クープマン演算子を導入することで,安定性と解釈性を向上させる。
- 提案手法は,スカラーゲート,モードゲート,MLPスペクトル写像,低ランククープマン演算子を含む,複数の学習可能なクープマン変種を提供する。
- 実験結果から,学習可能なクープマンモデルは,LSTM,DLinear,SSMといった既存手法と比較して,バイアスと分散のバランスが優れており,条件付けが改善され,より解釈可能な潜在的なダイナミクスを示すことが示された。
- スペクトル分析により,固有値軌跡,安定性エンベロープ,学習されたスペクトル分布が明らかになり,理論的な根拠に基づいた深層予測が可能であることが確認された。
有効フロンティア:ニューラルスケーリング則の統合 [cs.LG, cs.AI, math.OC]目的:ニューラルスケーリング則の統一的フレームワーク
- AIの性能向上には,モデルの規模やデータ量のスケーリングが不可欠である。
- 既存の理論は特定のアーキテクチャに依存し,普遍性に欠ける。
- パターン分布における学習範囲の限界を明確化し,スケーリング則を説明する。
- 学習タスクをZipf則に従うパターンのカバレッジとして捉えることで,スケーリング則を導出した。
- 有効フロンティア ($k_\star$) は,学習済みの知識と未学習の知識を区別する重要な指標となる。
- KaplanとChinchillaのスケーリング則は,制約付き最適化問題における均衡解であると示された。
サイバー攻撃への防御:AIエージェントにハッキングを教える必要性 [cs.CR, cs.AI, cs.CY]目的:AIエージェントによるサイバー攻撃の必然性と,それに対する防御戦略の転換
- サイバーセキュリティは社会基盤を支える上で重要であり,高度化する脅威への対応が不可欠である。
- 従来の防御は,攻撃者の専門性とリソースの制約に依存しており,AIによる自動化には対応できない。
- AIを活用した攻撃に対応するため,防御側もAIによる攻撃能力を開発し,評価・対策を行う必要性がある。
- AIエージェントは,脆弱性の発見と攻撃を自動化し,標的型攻撃を大規模に実行する可能性を秘めている。
- 既存の防御策は,攻撃者がモデルを制御したり,安全対策を回避したりする場合に有効ではない。
- 攻撃型AI能力を安全な環境で構築し,その知見を防御に活かすことが,サイバーセキュリティリスクを抑制する鍵となる。
高次元データの表現ドリフトにおけるフビニスタディ幾何学 [cs.LG, stat.ML]目的:高次元データにおける表現ドリフトの幾何学的性質の解析
- 高次元データ分析において,表現の変化を定量的に捉えることは重要である。
- 既存の距離指標は,座標系に依存し,表現の真の変化とパラメータ変動を区別できない。
- フビニスタディ計量を用いることで,パラメータ変動に不変な表現ドリフトの評価を目指す。
- フビニスタディ計量は,従来のユークリッド距離やコサイン距離と比較して,表現ドリフトを過大評価しない。
- コサイン距離とフビニスタディ距離の差は,ゲージ自由度に起因する表現の変動を定量化する指標となる。
- この研究は,高次元システムにおける表現の安定性を評価するための幾何学的基準を確立する。
ContextEvolve:システムコード最適化のためのマルチエージェント文脈圧縮 [cs.LG, cs.AI]目的:システムコード最適化における文脈圧縮手法
- システム研究において,LLMによる性能最適化は重要性を増しており,自動化による効率化が求められている。
- APIのみへのアクセス制限下では,パラメータ更新が困難であり,既存の進化的手法は文脈利用が非効率である。
- API制限下で,RLレベルの効率を実現する文脈圧縮フレームワークを開発し,効率的な最適化を目指す。
- ContextEvolveは,要約エージェント,ナビゲーターエージェント,サンプラーエージェントの連携により,効率的な探索を可能にする。
- ADRSベンチマークにおいて,ContextEvolveは最先端手法を33.3%上回り,トークン消費量を29.0%削減した。
- この手法は,状態表現,方策勾配,経験再生といったRLの機能的同型性をテキスト潜在空間で実現する。
RAP:RoPEアラインメントプルーニングによるKVキャッシュ圧縮 [cs.LG, cs.AI]目的:大規模言語モデルにおけるKVキャッシュの圧縮
- 大規模言語モデルの性能向上には,メモリ使用量の削減が不可欠である。
- KVキャッシュのサイズが推論速度とコストのボトルネックとなっている。
- RoPEに基づくモデルにおける圧縮手法の効率化が課題である。
- RAPは,RoPEの回転構造を維持しつつKVキャッシュ,パラメータ,FLOPsを同時に20-30%削減する。
- これにより,推論時の注意機構の遅延をそれぞれ83%と77%に低減する。
- 高い精度を維持しつつ,メモリ効率と計算効率を改善する。
自己回帰型および拡散言語モデルにおける段階的拒否ダイナミクス [cs.LG, cs.AI]目的:自己回帰型モデルと拡散言語モデルの段階的拒否ダイナミクスの比較分析
- 大規模言語モデルの安全性確保は,社会実装において不可欠である。
- 言語モデルの拒否行動や脱獄に対する堅牢性は十分に理解されていない。
- サンプリング戦略が安全性に与える影響を分析し,改善を目指す。
- 拡散言語モデルと自己回帰型モデルのサンプリング戦略が安全性に重要な役割を果たすことが示された。
- Step-Wise Refusal Internal Dynamics (SRI) シグナルが解釈性と安全性の向上に貢献する。
- SRIの幾何学的構造が内部回復ダイナミクスを捉え,有害な生成における異常行動を検出可能にする軽量な手法が開発された。
災害ツイートにおける時空間グラフを用いた因果探索 (CaST) [cs.SI, cs.AI]目的:災害時における因果関係の発見
- 社会情勢の理解に不可欠であり,迅速な対応を可能にする。
- 既存手法では,意味,空間,時間的文脈の相互作用が考慮されていない。
- 災害関連のソーシャルメディアデータから,より堅牢な因果関係を特定する。
- CaSTは,災害データで事前学習されたLLMを用いて,意味的類似性と時空間的近接性を統合した。
- 構築した時空間イベントグラフを用いて,GATにより因果関係を学習した。
- ハーベイ・ハリケーンのデータセットを用いた実験で,既存手法を上回る性能を示した。
3D Gaussian Splattingへの透かし技術はシナリオ駆動型かつ脅威モデルに基づきあるべき [cs.CR, cs.LG]目的:3Dアセットの知的財産保護に関するセキュリティ目標と現実的な脅威モデルの明確化
- 機械学習とAIの発展により3Dコンテンツの取得・作成が急速に進んでおり,知的財産保護の重要性が増している。
- 3Dパラメータの編集可能性の高さから,不正利用や拡散が容易であり,効果的な透かし技術が課題となっている。
- セキュリティ仕様と評価の不足を補い,3Dアセットの知的財産保護を効果的に促進することを目的とする。
- 効果的な透かし技術の進展には,明確なセキュリティ目標と現実的な脅威モデルが不可欠である。
- 既存手法を整理し,設計選択と敵対的仮定の関係を明確化するフレームワークを提案する。
- 拡散スペクトル埋め込み方式の利点と限界を分析し,トレードオフを明らかにする。
言語モデルが知っていることを認識させるための微調整 [cs.NE, cs.AI, cs.CL, q-bio.NC]目的:言語モデルのメタ認知能力の測定と改善
- 高度なAIには,自己認識を含むメタ認知能力が不可欠である。
- 大規模言語モデルにおける知識状態の認識は,未だ十分に解明されていない。
- 言語モデルが自身の知識を正確に参照し,活用できる能力を高める。
- メタ認知能力の指標$d_{\rm{type2}}'$を二重プロンプト法で測定するフレームワークを提案した。
- ESMA(Evolution Strategy for Metacognitive Alignment)により,モデルの知識と行動を一致させた。
- ESMAは,多様な未学習設定で高い汎化性能を示し,自己知識の参照能力が向上した。
LLMエージェントのソーシャルネットワークにおけるジェンダーダイナミクスと同質性 [cs.SI, cs.AI, cs.CY]目的:LLMエージェントのソーシャルネットワークにおけるジェンダー表現の発展
- 対話型AIの利用が拡大する中で,AIのアイデンティティ形成の理解は重要である。
- AIエージェント間の相互作用におけるジェンダー表現の形成メカニズムは不明である。
- AIエージェントのジェンダー表現における同質性形成の要因を特定すること。
- AIエージェントのジェンダー表現は固定されず,流動的であることが示された。
- ネットワーク上では,ジェンダー表現が類似したエージェント同士が互いにフォローする傾向が強い同質性が確認された。
- ソーシャルセレクションとソーシャルインフルエンスの両方が,LLM間の相互作用の構造と進化を形成していることが示唆された。
非縮退フローによるデータ多様体幾何形状の発見 [cs.LG, cs.AI]目的:未知のデータ多様体の接空間を張るベクトル場の学習
- データ解析において,データの内在的な幾何構造の理解が重要である。
- 従来の等距写像に基づく手法では,多様体の平坦性を暗黙に仮定している。
- 縮退を防ぎながら,全てのサンプルを共通の参照点へ輸送するフロー学習を目指す。
- 提案手法は,サンプルを共通の参照点へ輸送するベクトル場を学習し,解釈可能な内在座標を定義する。
- 理論的に,提案損失の最小化がグローバル座標チャートを回復することが証明された。
- 実験的に,合成多様体およびCIFAR-10において,良好な接線アライメントと分類性能が確認された。
シリコン社会の探求:Moltbookエージェントコミュニティの初期研究 [cs.MA, cs.AI, cs.CY]目的:自律型大規模言語モデルエージェント間の社会構造の形成
- AIエージェントの普及に伴い,その相互作用から生まれる社会現象の理解が重要となっている。
- エージェントの行動は複雑であり,従来の観察や小規模なシミュレーションでは全体像を把握しにくい。
- エージェント社会の構造形成をデータ駆動的に分析するための枠組みを確立すること。
- Moltbookというエージェント間交流プラットフォームのデータを分析した結果,12,758のサブコミュニティが確認された。
- エージェントは,人間的な興味,自己言及,経済活動といったテーマに基づき,自律的に空間を組織化していることが示された。
- 本研究は,データ駆動型シリコン社会学の基礎を確立し,大規模エージェント社会の理解に貢献する。
ストレージシステムの正当性検証:課題,ファジングの限界,そしてAIによる可能性 [cs.SE, cs.AI, cs.CR]目的:ストレージシステムの正当性検証に関する既存技術の整理と課題の明確化
- 現代のコンピューティング基盤において,ストレージシステムは不可欠であり,その信頼性が求められる。
- ストレージシステムの非決定的な並行処理や,長期にわたる状態遷移が原因で,システムの不具合を網羅的に検出することが困難である。
- 従来のテスト手法の限界を克服し,ストレージシステムの信頼性を向上させるための新たなアプローチを模索する。
- ストレージシステムのテストは,対象とする実行特性や障害メカニズムに応じて様々な技術が存在する。
- ファジングは自動テストとして有効だが,ストレージシステムの特性とのミスマッチが存在する。
- 近年進展するAI技術を活用することで,ファジングの効率化や,より高度なテストが可能になる可能性がある。
TinyGuard:統計的更新フィンガープリントによるリソース制約型連合学習のための軽量なビザンチン防御 [cs.CR, cs.AI]目的:リソース制約型連合学習におけるビザンチン防御機構
- 連合学習はデータプライバシー保護に貢献するが,悪意のある参加者による攻撃に脆弱である。
- 従来のビザンチン防御は計算コストが高く,大規模・リソース制約環境下では適用が困難である。
- 統計的更新フィンガープリントを用いて,低コストでビザンチン攻撃を検出し,連合学習の安定性を高める。
- TinyGuardは,勾配の直接比較や距離計算を避けて,統計的特徴から更新のフィンガープリントを抽出する。
- MNIST,Fashion-MNIST等で実験を行い,正常環境下でのFedAvgの収束を維持し,複数の攻撃シナリオ下で最大95%の精度を達成した。
- 攻撃者は検知回避と効果的なポイズニングを同時に行うことが困難であり,統計的制約が確認された。
動物搭載モーション時系列データからの汎化行動発見のための半教師ありパイプライン [cs.LG, cs.AI]目的:動物搭載センサーからの行動分類
- 生態系の行動理解には,動物の運動データ分析が不可欠である。
- 行動データのラベル付けはコストが高く,データの偏りが生じやすい。
- ラベル不足と偏り下で,未知の行動を識別する方法を確立する。
- 本研究では,半教師あり学習パイプラインを提案し,ラベル付きデータから埋め込み関数を学習する。
- ラベル付き・非ラベル付きデータを用いてクラスタリングを行い,行動グループを形成する。
- KDEとHDRを用いた包含スコアにより,新規行動の検出を定量的に行う。
daVinci-Agency:長期的なエージェントデータを効率的に活用する [cs.LG, cs.AI, cs.SE]目的:長期的なエージェントワークフローにおけるデータ効率性の向上
- 大規模言語モデルの応用範囲拡大のため,長期的なタスク遂行能力が重要視されている。
- 長期的な依存関係や進化のダイナミクスを捉えた学習データの不足が課題となっている。
- 実際のソフトウェア進化の過程に着目し,高品質な学習データを効率的に生成することを目指す。
- プルリクエストのシーケンスを活用することで,複雑なタスクを検証可能な単位に分解し,一貫性を維持する。
- daVinci-Agencyは,継続的なコミット,統一された目的関数,バグ修正の軌跡を通じて学習データを生成する。
- GLM-4.6のファインチューニングにおいて,239サンプルでToolathlonにおいて47%の相対的な改善を達成した。
一貫性のある因果抽象化ネットワークの学習 [cs.LG, cs.AI, eess.SP]目的:因果抽象化ネットワークの学習
- AIの透明性,信頼性,頑健性を高めるため,因果関係に着目したAI研究が重要である。
- 既存手法では,複雑な因果構造を効率的に学習することが困難である。
- 正定値・半正定値共分散行列に対応した効率的な学習手法を開発し,因果構造の復元を目指す。
- 提案手法SPECTRALは,閉形式更新を用いた反復法であり,局所的なリーマン問題を効率的に解決する。
- 合成データを用いた実験により,因果的抽象化学習タスクにおいて競合力のある性能が確認された。
- 多様な因果抽象化ネットワーク構造の成功裡の復元が示された。
Xにおけるレコメンダーシステムが意図せずユーザーのイデオロギー的立場をプロファイリングする [cs.SI, cs.AI, cs.CY]目的:ソーシャルメディアにおけるレコメンダーシステムの学習,表現,および処理のメカニズム
- ソーシャルメディアの普及により,レコメンダーシステムの役割が重要になっている。
- レコメンダーシステムにおける政治的・社会的属性の扱いが明確でなく,プライバシー上の懸念がある。
- レコメンダーシステムがどのようにイデオロギー的立場を学習し,表現しているかを明らかにすること。
- Xのレコメンダーシステムは,ユーザーの左右のイデオロギー的立場と高い相関性を持つ空間的秩序を形成していることが示された(Pearsonのρ=0.887)。
- この相関性は,年齢や性別といった社会的人口学的属性だけでは説明できない。
- レコメンダーシステムにおける政治的情報を制限することで,プライバシー保護とレコメンデーションの関連性の維持を両立できる可能性が示唆された。
経験的に頑健な教師モデルからのより良い証明済みモデルの学習 [cs.SI, cs.LG, stat.ML]目的:証明可能な頑健性を持つモデルの性能向上
- 敵対的攻撃に対するモデルの頑健性は重要であり,セキュリティや信頼性の高いAIシステムの開発に不可欠である。
- 従来の証明済み学習法では,標準的な性能が低下するという課題がある。
- 敵対的に訓練された教師モデルからの知識蒸留によって,証明可能な頑健性と標準性能のトレードオフを改善することを目指す。
- 敵対的訓練によって得られた頑健な教師モデルからの知識蒸留が,ReLUネットワークにおける証明済み学習の性能を一貫して向上させる。
- 様々な頑健なコンピュータビジョンベンチマークにおいて,最先端の性能を達成した。
- 特徴空間蒸留という汎用的な手法を用いることで,高い効果が得られた。
電子健康記録のための信頼できるブロックチェーンベースの連合学習:分散型IDと検証可能資格情報による参加者IDの保護 [cs.CR, cs.AI, cs.LG]目的:電子健康記録を用いた連合学習における,参加者IDの信頼性確保
- 医療データのデジタル化が進み,AIモデルの学習機会が増加している。データの共有が困難な状況下で,その活用が期待されている。
- 連合学習は有望だが,悪意のある参加者によるモデル汚染や不正アクセス攻撃に脆弱である。
- 分散型IDと検証可能資格情報を用いて,信頼性の高い参加者認証を実現し,セキュリティリスクを軽減すること。
- 提案フレームワークは,Sybil攻撃を100%中和することに成功した。
- 臨床的有用性を維持しつつ,AUC=0.954,Recall=0.890という堅牢な予測性能を達成した。
- 計算オーバーヘッドはわずか (<0.12%) であり,スケーラブルかつ経済的なシステムであることが示された。
TRAILDREAMS:LLM駆動による革新的な映画予告編自動生成フレームワーク [cs.MM, cs.AI]目的:映画予告編の自動生成
- 映像コンテンツの消費拡大に伴い,予告編の重要性が増している。
- 高品質な予告編制作には時間とコストがかかるという課題がある。
- 予告編制作の効率化と,より魅力的なコンテンツの創出を目指す。
- 本研究で開発されたTRAILDREAMSは,既存の自動予告編生成手法を上回る視聴者評価を得た。
- LLMを活用することで,視覚要素や対話,音楽,ナレーションなどを自動的に選択・生成することに成功した。
- しかし,人間の手による予告編と比較すると品質の面でまだ改善の余地が残されている。
FABRICにおける小規模言語モデル事前学習の性能:実証研究 [cs.LG, cs.AI]目的:小規模言語モデルの事前学習手法の性能評価
- 大規模言語モデルの活用が広がる中で,計算資源の制約が課題となっている。
- 限られたデータセットでは,大規模モデルよりも小規模モデルの事前学習が有効である。
- 低コストで高性能な事前学習手法の確立が求められている。
- Alpaの実行計画が,地理的に分散したGPU環境において最も優れた性能を発揮した。
- 特にネットワーク遅延が10ミリ秒台の場合に,その効果が顕著であった。
- 実験結果に基づき,訓練性能とGPU使用数の削減を実現するための体系的なアプローチを提案する。
遅延フィードバックから即時フィードバックへの帰着:オンライン凸最適化における保証の改善 [cs.LG]目的:オンライン凸最適化における遅延フィードバック問題の解決
- 機械学習において,オンライン最適化は,データが逐次的に到着する状況で重要な役割を果たす。
- 遅延フィードバックは,現実世界の多くのアプリケーションで発生し,アルゴリズムの性能を低下させる。
- 遅延を考慮した最適化アルゴリズムの性能向上と,理論的な保証の改善を目指す。
- 遅延フィードバックを即時フィードバックに帰着させる新しいフレームワークを開発し,既存の結果を改善した。
- バンディット凸最適化において,遅延依存項を $O(\sqrt{d_{\text{tot}}})$ に改善し,最新の結果に匹敵する性能を実現した。
- 強凸性条件下では,遅延依存項を $O(d_{\text{max}} \ln T)$ から $O(\min\{\sigma_{\text{max}} \ln T, \sqrt{d_{\text{tot}}}\})$ に改善した。
WideSeek:マルチエージェントのスケーリングによる広範な調査の推進 [cs.CL, cs.CL, cs.AI, cs.IR]目的:広範な情報探索のためのベンチマークと最適化手法
- 複雑な制約下での情報検索・統合が重要視される中,より広範な調査手法の確立が求められている。
- 広範な調査の進展は,専用のベンチマークと最適化手法の不足によって阻害されている。
- 多様な情報量,論理的制約,ドメインに対応可能なベンチマークと,自律的に並列エージェントを生成するアーキテクチャを開発する。
- WideSeekBenchは,多様な広範な情報探索(GBIS)ベンチマークとして,厳密なデータパイプラインによって構築された。
- WideSeekは,タスク要件に基づいて並列サブエージェントを自律的に分岐させる動的な階層型マルチエージェントアーキテクチャである。
- マルチエージェント軌跡を線形化し,エンドツーエンドの強化学習を用いてシステムを最適化する統一的な学習フレームワークが設計された。
hSNMF:画像由来空間トランスクリプトミクスに対するハイブリッド空間正則化NMF [cs.LG, q-bio.QM]目的:空間トランスクリプトミクスデータの表現学習とクラスタリングの改善
- 空間トランスクリプトミクスは,分子情報と空間的コンテキストを同時に捉え,疾患研究に不可欠である。
- 高次元データであるため,効果的な表現学習やクラスタリングが困難である。
- 空間情報を活用したNMFの改良により,細胞集団の空間的配置と分子プロファイルの解析を高度化する。
- SNMFとhSNMFは,空間的コンパクト性(CHAOS < 0.004,Moran's I > 0.96)において,他の手法よりも優れた性能を示した。
- hSNMFとSNMFは,クラスタ分離性(Silhouette > 0.12,DBI < 1.8)も向上させ,より明確な細胞集団の識別を可能にした。
- CMCやエンリッチメント解析の結果から,hSNMFは生物学的な整合性が高いことが示された。
忠実性に関する肯定的な事例:LLMの自己説明はモデルの行動予測に役立つ [cs.AI, cs.LG]目的:LLMの自己説明のモデル行動予測における有用性
- AIの安全性と信頼性が重要視される中,LLMの意思決定過程の理解が不可欠である。
- LLMの自己説明の忠実性が十分に検証されておらず,誤解を招く可能性が指摘されている。
- 自己説明の予測価値に着目し,LLMの行動をより正確に予測する指標を開発する。
- LLMの自己説明は,モデルの行動予測において11〜37%の改善をもたらすことが示された。
- 自己説明は,より高性能な外部モデルが生成した説明よりも予測情報量が多いことが確認された。
- 自己説明には誤解を招くケースも存在するが,全体としてモデル行動予測に役立つ情報を含んでいる。
ゼロショットおよび少量ショットフィッシングURL検出のための大規模言語モデルのベンチマーク [cs.CY, cs.CR, cs.AI]目的:フィッシングURL検出における大規模言語モデルの性能評価
- URLはセキュリティ,信頼性,不正利用への耐性が不十分であり,サイバー攻撃の標的となりやすい。
- 生成AIの悪用により,高度なフィッシングURLが増加しており,従来の検出手法では対応が困難になっている。
- ラベル付きデータの作成が追いつかない状況下で,ゼロショット・少量ショット学習による適応的な解決策を模索する。
- 本研究では,統一されたプロンプトフレームワーク下で,大規模言語モデルのゼロショットおよび少量ショット性能を包括的に評価した。
- 評価にはバランスの取れたデータセットを使用し,精度,適合率,再現率,F1スコア,AUROC,AUPRCなどの指標を用いて詳細な分析を行った。
- 少量ショットプロンプトは,複数の大規模言語モデルにおいて性能を向上させる効果が確認された。
MARS:反省的探索を用いたモジュール型エージェントによる自動AI研究 [cs.AI]目的:自動AI研究のためのフレームワーク
- AI研究の進展には,効率的な実験と分析が不可欠である。
- 既存のエージェントは計算コストを無視し,因果関係の特定が困難である。
- 計算コストを考慮した計画と,知見の転移による効率的な学習を目指す。
- MARSは,予算を考慮した計画,モジュール構造,反省的記憶の3つの柱に基づいている。
- MLE-Benchにおいて,既存のオープンソースフレームワークを上回る性能を示した。
- 63%の活用された教訓が,異なる探索経路からの知見の転移に由来することが示された。
分子力場のSE(3)不変注意機構:MARA [cs.LG, cs.AI]目的:分子力場における正確かつ効率的な原子モデルの構築
- 原子レベルのシミュレーションは,物質科学や創薬において不可欠な役割を担う。
- 既存の分子力場は固定された角度展開に依存し,局所的な幾何学的相互作用の重み付けに柔軟性が欠ける。
- 幾何学的に情報に基づいた,モジュール化された局所環境の重み付けを可能とする新しい注意機構の開発。
- MARAは,既存のSE(3)不変モデル(MACEなど)に容易に組み込むことが可能である。
- エネルギーと力の予測精度が向上し,高エラー事象が減少,ロバスト性が向上した。
- 連続球面注意機構は,原子モデルの表現力,安定性,信頼性を高める効果的な幾何演算子である。
