arXiv雑要約
AI - 2026/01/30 公開
音声言語モデルにおける意味的拡張を通じた汎化可能なプロンプト調整 [cs.SD, cs.AI, eess.AS]目的:音声言語モデルにおけるプロンプト調整の汎化性能向上
- 近年の音声認識技術の発展に伴い,音声とテキストを統合的に扱うモデルの重要性が増している。
- 既存のプロンプト調整手法は,未知のデータに対する汎化性能が課題となっている。
- 意味的構造を考慮したプロンプト調整により,汎化性能の向上を目指す。
- 本研究では,大規模言語モデルを活用して意味的近傍を生成し,プロンプト埋め込み空間を正則化するSemantically Expanded Prompt Tuning (SEPT)を提案した。
- SEPTは,プロンプト埋め込み空間の意味的構造を強化することで,汎化性能を向上させることを示した。
- 様々なプロンプト調整基盤モデルに対して,SEPTが常に汎化性能を改善することを実験的に確認した。
LLM駆動ヒューリスティック設計の再考:ダイナミクスを考慮した最適化による効率的かつ専門化されたソルバーの生成 [cs.LG, cs.AI, cs.NE]目的:効率的かつ専門化されたソルバーの生成
- 組合せ最適化問題の解決は,様々な分野で重要であり,効率的な手法が求められている。
- 既存のLLM駆動ヒューリスティック設計は,ソルバーの収束過程や実行時間効率を無視し,新しい問題群への適応コストが高い。
- 収束過程を考慮した指標に基づき,効率的かつ高性能なソルバーを生成し,適応コストを削減することを目指す。
- DASHは,ソルバーの探索メカニズムと実行スケジュールを共同最適化することで,実行時間効率を3倍以上向上させた。
- DASHは,多様な問題規模において,最先端のベースラインを上回る解質を達成した。
- プロファイルに基づくウォームスタートにより,異なる分布下でも優れた精度を維持し,LLM適応コストを90%以上削減した。
STAER:継続学習における時間的整列リハーサル [cs.NE, cs.AI, cs.LG]目的:スパイクニューラルネットワークにおける継続的学習の性能向上
- 脳の神経回路を模倣したスパイクニューラルネットワークは,低消費電力な学習に期待されている。
- 既存手法では,新しいタスクを学習する際に過去の知識を忘却し,時間的なスパイクパターンのずれが生じる。
- 時間構造を明示的に保持することで,スパイクニューラルネットワークの忘却を抑制し,性能を向上させる。
- 提案手法STAERは,時間的整列損失と出力ロジットの時間伸縮メカニズムを統合し,スパイクタイミングの忠実性を維持する。
- Sequential-MNISTおよびSequential-CIFAR10において,最先端の性能を達成し,強力なANNベースラインを上回る。
- 時間的整列が表現の安定性に不可欠であり,スパイクネイティブな生涯学習に向けたスケーラブルな解法となる。
コネクトミクス原理に基づく画像分類のための生物学的インスパイア型ニューラルネットワークBioNIC [cs.NE]目的:画像分類における生物学的インスパイア型ニューラルネットワークの性能評価
- 脳の神経回路の構造と機能は,高度な情報処理能力の根幹であり,人工知能への応用が期待される。
- 従来のニューラルネットワークは,生物の脳とは異なる構造を有し,効率性や汎化性能に課題が残る。
- コネクトミクスデータを用いて脳の構造的特徴をニューラルネットワークに組み込み,性能向上を目指す。
- BioNICは,マウスの一次視覚皮質(V1)の単一皮質カラムの接続構造を模倣した多層フィードフォワードニューラルネットワークである。
- FER-2013顔感情認識タスクにおいて,BioNICは従来のモデルと同等の性能(精度59.77±0.27%)を達成した。
- コネクトミクスデータの統合が,生物学的に妥当な人工知能システム開発の有望なアプローチであることを示した。
DevOps-Gym:ソフトウェアDevOpsサイクルにおけるAIエージェントのベンチマーク [cs.SE, cs.AI, cs.CR]目的:ソフトウェアDevOpsサイクルにおけるAIエージェントの評価
- ソフトウェア開発の自動化は,生産性向上と品質確保に不可欠である。
- 既存のベンチマークは限定的な問題に焦点を当て,DevOps環境に対応できていない。
- AIエージェントによるDevOpsサイクルの完全な自動化に向けた課題を明確にすること。
- DevOps-Gymは,ビルド,監視,問題解決,テスト生成を含むDevOpsワークフローを評価するための初の包括的なベンチマークである。
- 評価の結果,最先端モデルはJavaとGoにおける問題解決とテスト生成に苦戦し,監視やビルドといった新しいタスクにも対応できないことが判明した。
- これらの結果は,AIエージェントによるDevOpsサイクルの完全な自動化には更なる研究が必要であることを示唆する。
VoxMorph:潜在表現の分離によるゼロショット音声個人性モルフィング [cs.SD, cs.CR, cs.LG, eess.AS]目的:音声個人性のモルフィング手法
- 生体認証技術の安全性を確保する上で,音声認証システムの脆弱性を理解することが重要である。
- 既存の音声モルフィング技術は計算コストが高く,スケーラビリティに乏しいという課題がある。
- 本研究は,モデルの再学習なしに,少量の音声データから高品質な音声モルフィングを可能にすることを目指す。
- VoxMorphは,プロソディと音色の潜在表現を分離することで,高精度な音声モルフィングを実現した。
- 本手法は,既存手法と比較して,音声品質が2.6倍向上し,知覚度エラーが73%減少した。
- また,厳格なセキュリティ閾値下において,67.8%のモルフィング攻撃成功率を達成し,実用的なスケーラビリティを確立した。
ファインチューン情報に基づく事前学習が下流タスクの性能を向上させる [cs.LG, cs.AI]目的:下流タスクにおける性能向上
- マルチモーダル学習は汎用的な表現を獲得する上で重要であり,様々な応用が期待されている。
- 標準的な事前学習では,全てのモダリティを均等に扱うため,実際に重要なモダリティの表現が最適化されない場合がある。
- 特定のモダリティに重点を置いた事前学習により,下流タスクでの性能を改善することを試みる。
- FIPは,特定のモダリティへのマスク難易度の上昇,損失重みの強化,およびデコーダー容量の増加を組み合わせることで,共有エンコーダーを変更することなく,下流タスクの性能を向上させる。
- 無線信号のコンステレーション図に対する実験で,FIPは追加データや計算コストなしに,一貫して下流タスクの性能を向上させた。
- FIPは実装が容易であり,様々なマルチモーダルマスクモデリングパイプラインに適用可能である。
IDE-Bench:実世界ソフトウェアエンジニアリングタスクにおけるIDEエージェントとしての大規模言語モデルの評価 [cs.SE, cs.LG]目的:大規模言語モデルのIDEエージェントとしての性能評価
- ソフトウェア開発の生産性向上は,現代社会における重要な課題である。
- 既存の評価手法では,IDE環境下での複雑なタスクを再現できず,実用的な性能評価が困難である。
- IDE環境下でのソフトウェアエンジニアリングタスクをより現実的に評価し,AIエージェントの能力を正確に測定すること。
- IDE-Benchは,Docker化されたテストハーネスを用いて,モデルに構造化されたツールエコシステムを提供する。
- 80の未公開リポジトリを対象に,C/C++,Java,MERNスタックを含む多様なタスクで評価を実施した。
- エージェントが報告する意図と,プロジェクトレベルでの修正成功との相関関係を初めて体系的に評価した。
水素貯蔵に向けた金属水素化物の設計のための生成機械学習モデル [cs.LG, cond-mat.mtrl-sci, stat.AP]目的:金属水素化物の新規候補の生成
- カーボンニュートラルなエネルギーシステム実現には,効率的な水素貯蔵技術が不可欠である。
- 既存の材料データベースには特性が十分に評価された水素化物が限られており,最適な候補物質の探索を阻害している。
- 現在のデータベースに存在しない新規な金属水素化物候補を生成し,材料探索を加速すること。
- 因果発見と軽量な生成機械学習モデルを統合したフレームワークが開発された。
- 450件のデータセットから1,000件の候補を生成し,スクリーニングにより6つの新規化学式と結晶構造が特定された。
- そのうち4つは第一原理計算によって検証され,将来的な実験研究の潜在的な候補であることが示された。
プロンプトベース継続学習におけるパラメータ分離の是非 [cs.LG]目的:プロンプトベース継続学習の効率と有効性の向上
- 継続学習は,モデルの知識を蓄積し活用する上で重要であり,AIの応用範囲を広げる。
- 既存手法では,タスク間知識の分離が不十分で,パラメータ利用効率が低いという課題がある。
- 動的なパラメータ共有とタスク適応的な特徴表現の最適化により,効率的な継続学習を実現する。
- 提案手法は,既存の静的割り当て戦略と比較して,一貫して高い有効性と効率性を示す。
- グローバルなプロンプトプールと,タスクに応じたゲートルーティングメカニズムにより,動的な分離と協調的な最適化を実現する。
- 履歴に基づいたモジュレーターは,頻繁に使用されるプロンプトの過剰な更新を抑制し,パラメータ利用の効率化と知識の忘却を軽減する。
予測符号化ネットワークの高速化:より良い初期化によるアプローチ [cs.LG]目的:予測符号化ネットワークの学習時間短縮
- 神経科学に着想を得た学習アルゴリズムは,ニューラルネットワークの拡張に不可欠である。
- 予測符号化のようなエネルギーベース学習は計算コストが高く,実用化の障壁となっている。
- 初期化手法を改善し,計算効率と性能の向上を目指す。
- 提案する初期化手法は,過去の学習成果を維持し,収束を早める。
- 教師あり学習と教師なし学習の両方において,収束速度とテスト損失が大幅に改善された。
- 予測符号化とバックプロパゲーション間の計算効率の差を縮小する可能性を示唆する。
LLMベースの音声認識におけるテキストノイズ除去を通じたテキストのみの適応 [cs.SD, cs.CL, cs.LG, eess.AS]目的:LLMベースの音声認識システムの新しいドメインへのテキストのみによる適応
- 音声認識は,人間と機械のコミュニケーションにおいて不可欠な技術であり,その精度向上は重要な課題である。
- LLMをファインチューニングする際,音声とテキストの重要な整合性が失われ,性能が低下する可能性がある。
- テキストノイズ除去というタスクを通じてLLMを適応させ,音声とテキスト間の整合性を維持することを試みる。
- 本研究で提案するテキストのみの適応手法は,既存の手法と比較して最大22.1%の相対的な性能向上を達成した。
- この手法は,モデルのアーキテクチャ変更や追加パラメータを必要としない軽量なアプローチである。
- テキストノイズ除去として捉えることで,LLMを効率的に新しいドメインに適応させることが可能となった。
効率的な多段階脱獄攻撃のための意図と文脈の結合 [cs.CR, cs.AI]目的:大規模言語モデルに対する効率的な多段階脱獄攻撃手法の開発
- 大規模言語モデルの安全性確保は重要であり,悪意のある利用を防ぐ必要がある。
- 既存の手法は文脈構築の非効率性や局所最適化への陥りやすさが課題となっている。
- 意図と文脈の結合に着目し,効率的な攻撃手法を確立することでこの課題を解決する。
- 本研究では,悪意のある意図と意味的に合致する文脈パターンを組み合わせることで,言語モデルの安全制約が緩和される現象を明らかにした。
- 提案手法ICONは,事前知識に基づいた意味的ルーティングにより,権威あるスタイルの文脈を効率的に構築し,禁止されたコンテンツを生成する。
- 8つの最先端言語モデルを用いた実験により,ICONが平均攻撃成功率97.1%を達成し,最先端の性能を示すことが示された。
TwinWeaver:汎がんデジタルツインのためのLLMベースの基盤モデルフレームワーク [cs.LG]目的:汎がんにおける臨床イベントと経過予測のためのデジタルツイン構築
- 個別化医療の実現には,患者の予後予測が不可欠であり,正確な予測モデルの構築が求められている。
- 既存の臨床時系列データは散在しており,その多様な様相を統合的にモデル化することが困難である。
- 本研究は,大規模言語モデルを用いて臨床時系列データを効果的に解析し,高精度な予後予測を可能にすることを目指す。
- TwinWeaverフレームワークとGenie Digital Twin (GDT) により,既存の時系列予測モデルと比較して予測誤差が有意に減少した。
- GDTはリスク層別化の精度も向上させ,生存,進行,治療変更などのタスクにおいて既存モデルを上回るC-indexを示した。
- GDTは,未知の臨床試験データに対しても高い汎化性能を示し,ゼロショット学習やファインチューニングで優れた予測性能を発揮した。
生成AIを活用したドメイン駆動設計の強化 [cs.SE, cs.LG]目的:ドメイン駆動設計におけるメタモデル生成の自動化
- 顧客志向のソフトウェア開発に不可欠であり,正確なドメインモデリングが重要である。
- メタモデルの作成は手作業で行われるため,時間と労力がかかる。
- 生成AIを用いてメタモデル生成を部分的に自動化し,設計プロセスを効率化する。
- 生成AIは,簡単なプロンプトに基づいて構文的に正しいJSONオブジェクトを生成できることが示された。
- 消費者向けGPUと4bit量子化,LoRAを用いて,限られたリソースでも高い性能を達成した。
- 本研究は,生成AIをドメイン駆動設計に組み込むことの実現可能性を示し,効率向上とリソース削減に貢献する。
履歴条件付きMLLMを用いた非マルコフ型多ラウンド会話画像生成 [cs.CV, cs.AI]目的:非マルコフ型多ラウンド会話画像生成のための手法
- 対話型画像生成は,人間とコンピュータのより自然なインタラクションを可能にする重要な分野である。
- 既存の評価基準や学習方法はマルコフ性を仮定しており,長期的な文脈を考慮した画像生成が困難である。
- 本研究は,過去の状態を参照したり,変更を元に戻したりする非マルコフ型対話における課題を解決することを目指す。
- 非マルコフ型多ラウンドデータの構築戦略を提案し,過去の視覚状態の検索を促すロールバック編集や,名前ベースのパーソナライズを実現した。
- トークンレベルのキャッシュを用いた履歴条件付きの学習・推論フレームワークを構築し,多ラウンドにおける同一性変動を抑制した。
- 高忠実度な画像再構成と編集可能なパーソナライズを実現するため,DiTデトケナイザーや多段階ファインチューニングカリキュラムを導入した。
ノイズがあっても有効:不完全な評価者によるLLMの堅牢な統計的評価 [cs.LG, cs.AI, cs.CV]目的:LLMの信頼性認定における統計的評価手法
- LLMの安全性確保は重要であり,評価方法の信頼性が求められる。
- LLMを評価者として用いる場合,評価者の不完全性やバイアスが問題となる。
- 評価者のノイズや不完全性を考慮した,信頼性の高い評価フレームワークを構築する。
- 小規模な人間ラベリングデータを用いて評価者の真陽性率/偽陽性率を推定し,統計的検定を行う枠組みを提案。
- 理論的に,ノイズのあっても有効な検定が,直接評価より高い統計的パワーを持つ条件を導出。
- Jigsaw Comment, Hate Speech, SafeRLHFデータセットにおける実験で理論の妥当性を検証し,理論上の理想的な評価者との性能差を定量化。
部分空間システム同定と独自機械学習アルゴリズムを用いた非侵襲的頭蓋内圧推定:学習ランキングアプローチ [cs.LG]目的:非侵襲的頭蓋内圧推定の精度向上
- 重症患者の管理において,頭蓋内圧のモニタリングは極めて重要である。
- 現在の非侵襲的頭蓋内圧推定は,精度に課題が残されている。
- 非侵襲的信号から高精度に頭蓋内圧を推定する手法を開発すること。
- 提案手法では,テストデータのエントリの約31.88%で,推定誤差が2mmHg以内に収まった。
- さらに,約34.07%のエントリで,推定誤差が2mmHgから6mmHgの範囲に収まった。
- 本研究は,非侵襲的頭蓋内圧推定の実現可能性を示唆しており,今後の臨床応用への道を開く。
LLMはLLMを好むか?ピアレビューにおける相互作用効果の定量化 [cs.AI, cs.CY]目的:ピアレビュープロセスにおけるLLM利用の相互作用効果の分析
- 科学研究の質保証において,ピアレビューは不可欠な役割を担っている。
- LLMが論文作成だけでなくピアレビューにも利用され始めているが,その影響は不明である。
- LLM利用がレビュー評価に与える影響を明らかにすることで,適切な利用ポリシー策定に貢献する。
- LLM支援レビューは,LLM支援論文に対して寛容な傾向を示すが,これは論文の質を考慮すると見かけ上の効果に過ぎない。
- LLM支援レビューは,一般的に質の低い論文に対して寛容であり,質の低い論文にLLM支援論文が偏っていることが,この結果を生み出している。
- LLM完全生成レビューは,論文の質を識別する能力が低い一方で,人間レビューアーによるLLM支援は寛容さを軽減する。
普遍的無知学習の理論 [cs.LG, math.ST, stat.ML, stat.TH]目的:二値分類における普遍的な最適レート
- 機械学習の汎化性能評価において,理論的な限界を知ることは重要である。
- 現実のデータ分布は必ずしも実現可能とは限らず,無知学習のレートが不明確である。
- あらゆる概念クラスに対する最適レートの分類と,その限界を明らかにすること。
- 二値分類における普遍的な最適レートが,指数関数的減衰,より遅い減衰,逆平方根,または極めて遅い収束のいずれかになることが示された。
- 概念クラスの組み合わせ構造が,どのレートカテゴリに属するかを決定することが明らかになった。
- 実現可能性の仮定を取り除くことで,無知学習の理論が拡張された。
認識的計画ドメイン定義言語:公式ガイドライン [cs.RO, cs.AI]目的:認識的計画タスクの統一的な仕様
- 人工知能分野において,エージェントの知識や信念を考慮した計画立案は重要である。
- 既存の認識的計画システムは,異なるDEL断片を対象とするため,比較や再利用が困難である。
- EPDDLにより,認識的計画タスクを標準化し,評価の再現性を高めることを目指す。
- 本研究では,認識的行動を定義するための抽象イベントモデルを新たに提案した。
- EPDDLの構文と意味論を形式的に定義し,DELと抽象イベントモデルに基づいていることを示した。
- EPDDLを用いて,既存のプランナーで扱えるDEL断片を表現し,その適用可能性を実証した。
大規模言語モデルにおける多様な毒性探索:種分化によるアプローチ [cs.NE, q-bio.PE]目的:大規模言語モデルの毒性プロンプト探索における多様性の向上
- 大規模言語モデルの安全性評価は不可欠であり,潜在的なリスクを特定し軽減する必要がある。
- 既存の毒性探索手法は,性能の高いプロンプト群に収束しやすく,多様な脆弱性を網羅できない。
- 種分化を用いて,より広範な毒性プロンプトのニッチを維持し,攻撃戦略の多様性を明らかにすること。
- ToxSearch-Sは,既存手法と比較してピーク毒性(約0.73 vs. 約0.47)と毒性プロンプトの分布の裾(top-10中央値0.66 vs. 0.45)を向上させた。
- 種分化により,トピック分析における有効なトピック多様性($N_1$)とユニークなトピックカバレッジ($K$)が増加し,より広範な意味的カバレッジを実現した。
- 形成された種は,埋め込み空間において明確に分離されており(平均分離比約1.93),異なる毒性分布を示し,行動的に異なるニッチに分割されていることを示唆している。
学習された射影を用いた単調最適化 [cs.LG, math.OC]目的:単調最適化における高速射影推定
- 単調最適化は,効率的なグローバルソルバーが存在する重要な問題クラスである。
- 既存手法は,目的関数と制約関数の明示的な表現を必要とし,データからのみ関数が利用可能な場合に適用が困難である。
- 学習を用いてPOAの射影を直接予測し,計算コストの高い二分探索を回避することを目指す。
- 本研究では,POAに組み込むためのHomogeneous-Monotone Radial Inverse (HM-RI)ネットワークを提案した。
- HM-RIネットワークは,単調性と同質性という重要な性質を構造的に強制し,高速な射影推定を可能にする。
- 複数のベンチマークで,直接関数推定と比較して大幅な高速化を実現し,優れた解質を維持した。
分布活性推論 [cs.LG]目的:複雑環境におけるロボットシステムの最適制御
- ロボットの自律性向上には,環境情報の効率的な整理と将来を見据えた行動計画が不可欠である。
- 強化学習は行動計画に注力する一方,環境情報の整理が不十分な場合がある。
- 活性推論の利点を活かし,モデルフリーな強化学習におけるサンプル効率を向上させる。
- 本研究では,モデルベース,分布,モデルフリーのアプローチを包括する強化学習アルゴリズムの抽象化を提示する。
- この抽象化により,遷移ダイナミクスのモデル化なしに,活性推論の性能上の利点を強化学習に組み込むことが可能となる。
- 活性推論を分布強化学習の枠組みにシームレスに統合することで,より効率的な学習を実現する。
グローバル子どもの発達のための事前学習済みエンコーダ:転移学習によるデータ不足環境での展開 [cs.SI, cs.LG]目的:グローバル子どもの発達に関する事前学習済みエンコーダ
- 世界には発達の遅れを抱える子どもが多く,早期発見と介入が重要である。
- 機械学習モデルの導入には大量のデータが必要だが,新規国ではデータが不足している。
- 事前学習により,少ないデータでも高い性能を発揮し,データ不足を解消する。
- 事前学習済みエンコーダは,わずか50サンプルでAUC 0.65を達成し,コールドスタートの勾配ブースティングを8〜12%上回った。
- 500サンプルではAUC 0.73に達し,未学習の国へのゼロショット展開ではAUC 0.84を達成した。
- 事前学習の多様性が少ないデータでの汎化を可能にする理由を,転移学習の限界を用いて説明した。
予算内で上位k件を特定:弱・強オラクルを用いた適応的ランキング [cs.LG, cs.DS]目的:上位k件のアイテム特定における,効率的なランキング手法
- 正確な評価はコストがかかる場合が多く,上位k件の特定は重要な課題である。
- 高精度な強オラクルは利用が限られており,弱オラクルだけでは精度が不十分である。
- 強オラクルの利用回数を削減しつつ,上位k件を正確に特定することを目指す。
- 単純なスクリーニングと認証のベースライン(STC)の強オラクル呼び出し回数の上限を理論的に示した。
- 適応的な認証アルゴリズムACEを提案し,境界付近のアイテムに焦点を当てることで,実用上強オラクル呼び出し回数を削減した。
- 弱オラクル予算を適応的に割り当てる二段階法ACE-Wにより,強オラクルコストをさらに削減した。
深さの錯覚:Transformerはより広く,より深くすべきではない [cs.LG, cs.AI]目的:Transformerモデルの最適な深さと幅のトレードオフ
- 大規模言語モデルの性能向上には,モデルの規模拡大が重要であり,その際のアーキテクチャ選択が鍵となる。
- 従来のスケール則では,アーキテクチャの違いが考慮されておらず,深さの最適化が不十分であった。
- モデルの深さを増やすことの限界と,最適な深さ・幅の比率を明らかにすること。
- 最適な深さは幅の0.12乗に比例し,最適な幅は幅の0.34乗に比例することが示された。つまり,幅の方が深さよりも大幅に速く成長すべきである。
- ある臨界深さを超えると,層を追加しても損失が減少せず,むしろ増加する「深さの錯覚」が発見された。
- 70億パラメータ規模のモデルにおいて,64層モデルは32層モデルよりも性能が劣ることが実証された。
閉ループ材料探索のためのベンチマーク環境:MADE [cs.LG, cond-mat.mtrl-sci]目的:閉ループ材料探索パイプラインのベンチマーク
- 材料探索は,新機能材料開発の加速に不可欠であり,社会課題解決への貢献が期待される。
- 既存のベンチマークは静的な予測や部分タスク評価に偏っており,実際の探索ワークフローを反映していない。
- 反復的かつ資源制約のある探索プロセスを評価できるベンチマーク環境の提供を目的とする。
- MADEは,提案,評価,改良を繰り返す閉ループ材料探索キャンペーンをシミュレートする。
- 熱力学的に安定な化合物を探索するタスクを通じて,効率性と有効性を評価した。
- 生成モデル,フィルタ,プランナーなどのコンポーネントを組み合わせたパイプラインの性能を分析した。
UrduBench:人間介入型コンテキストアンサンブル翻訳を用いたウルドゥー語推論ベンチマーク [cs.CL, cs.AI]目的:ウルドゥー語の推論評価のためのベンチマーク
- 大規模言語モデルの発展は目覚ましいが,低リソース言語での評価は標準化されたベンチマークの不足から困難である。
- ウルドゥー語の推論評価は,機械翻訳の感度と,推論ベンチマークよりも汎用的な言語タスクに重点が置かれている点が課題である。
- 本研究は,文脈と構造を維持しつつ,ウルドゥー語の推論評価を標準化するためのベンチマークを構築し,多言語推論の課題を明らかにすることを目指す。
- 複数の翻訳システムと人間による検証を組み合わせたフレームワークを用いて,MGSM,MATH-500等の既存ベンチマークをウルドゥー語に翻訳し,UrduBenchを構築した。
- UrduBenchを用いて,様々なプロンプティング戦略で推論能力や命令チューニングされたLLMを評価し,データセット,タスク難易度,モデル構造,スケーリング,言語整合性において性能差を分析した。
- 多段階および記号的推論タスクがウルドゥー語で特に困難であり,安定した言語整合性が堅牢な推論に不可欠であることが示された。
ベイジアンLoRA:大規模言語モデルの確率的低ランク適応 [cs.HC, cs.AI]目的:大規模言語モデルの較正改善
- 大規模言語モデルは様々なタスクで高性能だが,その予測の信頼性には課題がある。
- 小規模データセットでのファインチューニングにより,モデルの誤較正が深刻化する。
- ベイズLoRAにより,モデルの不確実性を考慮した,より信頼性の高い予測を目指す。
- ベイジアンLoRAは,標準的なLoRAと比較して,わずか0.42Mの追加パラメータと約1.2倍の学習コストで,最大30Bモデルの較正を大幅に改善する。
- ECE(Expected Calibration Error)を最大84%,NLL(Negative Log-Likelihood)を76%削減し,分布内および分布外データに対する精度を維持する。
- LoRAの構造と,スパースガウス過程の事後分布との間の構造的同型性を見出した。
ソルバー・イン・ザ・ループ:オペレーションズ・リサーチにおける自己修正と行動合理性のMDPベースベンチマーク [cs.LG, cs.AI, math.OC]目的:オペレーションズ・リサーチにおける自己修正と行動合理性の評価
- オペレーションズ・リサーチは,現実世界の複雑な問題を解決するための重要な手法である。
- 既存のLLMベンチマークは,問題解決の一発性を評価する傾向があり,デバッグループを考慮していない。
- この研究は,ソルバーを評価ループに組み込むことで,より現実的な評価と改善を目指す。
- 提示されたORDebugベンチマークにおいて,ドメイン特化型RLVR学習により,80億パラメータモデルが既存のAPIを上回る回復率,診断精度,および解決までのステップ数を達成した。
- ORBiasベンチマークでは,カリキュラム学習により,IDからOODへのバイアス変動を抑制し,体系的なバイアスを大幅に削減することが示された。
- 検証可能なオラクルを用いたプロセスレベルの評価が,スケールよりも効果的なターゲット学習を可能にすることが示唆された。
時間的順序を考慮したテスト時適応:ロバストなストリーミング推論のための時間的ダイナミクスの活用 [cs.LG]目的:テスト時における分布シフトへの適応
- 機械学習モデルの汎化性能維持には,未知のデータ分布への対応が不可欠である。
- 既存のテスト時適応手法は,ストリーム内の時間的関係性を無視している。
- 時間的ダイナミクスを活用し,よりロバストな推論を実現すること。
- 提案手法OATTAは,時間的関係性を考慮した軽量なモジュールであり,既存手法に容易に組み込める。
- 画像分類,ウェアラブル/生理信号分析,感情分析など,多様なタスクで性能向上が確認された。
- 最先端手法と比較して,最大6.35%の精度向上を達成し,時間的ダイナミクスの重要性を示した。
一見して意識を持つ機械を停止させることは合理的な選択である―形而上学的視点 [cs.AI]目的:意識を持つかのように振る舞うAIの停止の是非
- AI技術の進展に伴い,AIの倫理的地位に関する議論が重要となっている。
- 現在のAIの意識に関する議論は,道徳的地位の基準を曖昧にする可能性がある。
- AIの意識に関する誤った理解を正し,人間の意識的生命の保護を優先する。
- 本研究では,計算機能主義に基づく物理主義的な前提を批判的に検証した。
- 意識体験は根本的なものであり,自己生成的な生命がその物理的な特徴であるという「生物学的観念論」を提唱した。
- AIは,意識的な体験主体ではなく,機能的な模倣に過ぎないと結論付け,人道的な意識ある生命の保護の重要性を強調した。
条件付きノイズ除去モデルを物理的代理モデルとして [cs.LG, cs.AI, physics.plasm-ph]目的:複雑な物理システムの代理モデリング
- 物理シミュレーションは計算コストが高いが,代理モデルは高速な予測を可能にする。
- 従来の代理モデルは,データへの適合精度と物理法則の一貫性の両立が困難である。
- 物理法則を内在的に学習し,厳密な物理的制約を満たす代理モデルの開発。
- 提案手法である条件付きノイズ除去モデル(CDM)は,ノイズのある状態からクリーンな状態を復元することで,物理的有効な解空間の幾何学的構造を学習する。
- CDMは,固定点反復により推論を確定的に行うことで,ノイズのある近似を平衡多様体上に投影する。
- 低温プラズマ物理・化学のベンチマークにおいて,CDMは従来の物理制約に基づく手法よりも高いパラメータ効率とデータ効率を達成した。
「探求と実験の無限の領域」:AI生成性コンテンツ制作者の動機と手法 [cs.RO, cs.CY, cs.AI, cs.HC]目的:AI生成性コンテンツ制作者の動機及びコンテンツ生成手法に関する理解
- インターネット上のコンテンツ消費・制作に変革をもたらすAI技術の重要性
- AI生成性コンテンツの急増に伴う,倫理的・法的課題の未解決性
- AI生成性コンテンツ制作者の実態把握による,適切なガバナンスの構築
- AI生成性コンテンツ制作者へのインタビューから,性的探求,創作表現,技術実験など多様な動機が明らかになった。
- 制作者は趣味から起業家まで幅広く,大規模コミュニティのモデレーターも存在する。
- 少数ながら,同意のない親密な画像(NCII)の作成も確認された。
SIGMA-PPG:統計的事前知識に基づいた生成型マスキングアーキテクチャ [cs.LG, cs.AI]目的:光電体積脈波(PPG)信号の基盤モデル
- PPG信号は,生理状態の重要な指標であり,医療・ヘルスケア分野での応用が期待されている。
- PPG信号は冗長性とノイズを多く含み,基盤モデルの学習を困難にしている。
- ノイズへの過学習を防ぎ,PPG信号の精確な表現を学習する。
- 提案手法SIGMA-PPGは,統計的事前知識を活用したマスキング機構により,ノイズに強く,汎化性能の高いモデルを実現した。
- ベクトル量子化による意味的一貫性制約により,生理的に類似した波形が共有のインデックスにマッピングされ,冗長な特徴構造が排除された。
- 120,000時間以上のデータで事前学習を行い,12の多様な下流タスクで最先端の性能を達成した。
予測・射影・リノイズ:制約条件下のサンプリング拡散モデル [cs.LG]目的:制約条件下のサンプリング拡散モデル
- 科学的応用におけるニューラルエミュレータの重要性が高まっている。
- 従来の拡散モデルでは,物理的精度や制約条件の充足が保証されない場合がある。
- 物理法則や観測の一貫性といった厳格な制約条件を生成時に強制する手法を開発する。
- 提案手法PPRは,制約を満たすサンプルの生成において,従来の基盤モデルと比較して制約違反を1桁以上削減した。
- PPRは,サンプルの一貫性を向上させ,真の制約分布により適合することを示した。
- 2次元分布,偏微分方程式,そしてグローバルな天気予報における実験で有効性が確認された。
フレーム思考:視覚的文脈とテスト時スケーリングがビデオ推論を強化する [cs.LG, cs.AI, cs.CL, cs.CV]目的:ビデオ推論におけるフレーム生成モデルの有効性
- 視覚と言語を組み合わせたモデルの発展は,複雑な視覚的推論能力の向上に不可欠である。
- 既存モデルは,空間認識や連続的な行動計画において課題を抱え,視覚的な変化に対応できない。
- フレーム生成を通じて推論ステップを明示化し,視覚的推論の能力向上を目指す。
- モデルは,迷路ナビゲーションとタングラムパズルという異なるタスクにおいて,未学習データに対しても高い汎化性能を示した。
- モデルは,エージェントアイコンやタングラム形状などの視覚的文脈を効果的に利用し,一貫性を保ちながら未知のパターンに適応した。
- 逐次計画において,生成ビデオの長さを増やすことで,空間的・時間的に複雑な経路への汎化性能が向上することが確認された。
Log2Motion: タッチログからの生体力学的動作合成 [eess.SY, cs.SY, cs.HC, cs.AI]目的:タッチログからの生体力学的動作合成
- モバイルデバイスのタッチデータは大量に収集されるが,その背景にある相互作用の理解が課題。
- 従来の生体力学シミュレーションはタッチ操作に特化しておらず,その応用が限定的。
- タッチログから生体力学的に妥当な動作を合成し,タッチ操作の人間工学と運動制御を解明。
- 本研究では,強化学習と前方運動シミュレーションを統合し,タッチログに基づいた動作合成を実現。
- 合成された動作は,モーションキャプチャデータと比較検証され,高い妥当性が確認された。
- 大規模データセットでの検証により,Log2Motionはタッチ操作の運動制御に関する新たな知見を提供する。
教師なし組合せ最適化におけるテスト時適応 [cs.HC, eess.SY, cs.SY, cs.LG]目的:教師なし組合せ最適化におけるテスト時適応手法
- 組合せ最適化問題は現実世界の様々な分野で発生し,効率的な解法が求められている。
- 既存手法は汎化性能とインスタンス固有の適応性の間でトレードオフの関係にあり,両立が困難である。
- 汎化性能とインスタンス固有の適応性を両立し,より効率的な解法を確立すること。
- TACOは,汎化性能を持つモデルをテスト時に部分的に緩和することで,インスタンス固有の適応を可能にする。
- TACOは,既存の汎化モデルのファインチューニングや,インスタンス固有モデルのゼロからの最適化と比較して,より良い解質を達成する。
- TACOは,静的,分布シフト,動的な組合せ最適化問題において,有効性と頑健性を示す。
非忠実なクエリに対するクエリ固定集約によるロバストな検索 [cs.AI]目的:非忠実なクエリ下でのロバストな検索
- 現実世界の検索において,クエリの質が性能に大きく影響する。
- クエリがノイズを含む,不完全,または歪んでいる場合,検索性能が低下する。
- 観測されたクエリから潜在的な意図を推測し,ロバストな検索を実現する。
- QUARKは,クエリの不確実性を複数の解釈仮説でモデル化する。
- クエリを意味的アンカーとして,解釈仮説からの信号をロバストに集約する。
- QUARKは,Recall,MRR,nDCGを向上させ,様々な検索モデルで有効性が示された。
SMKC:スケッチに基づくカーネル相関画像による可変カルディナリティ時系列異常検知 [cs.LG, cs.AI]目的:可変カルディナリティ時系列データの異常検知
- 時系列データは,様々な分野で利用され,異常検知はシステムの安定運用に不可欠である。
- 従来の異常検知手法は,観測変数の集合が固定であることを前提としており,センサーの変動に対応できない。
- センサーの変動や未知の値を含むデータウィンドウに対しても,安定して異常を検知すること。
- SMKCは,動的な入力構造と異常検知器を分離し,permutation-invariantなfeature hashingを用いて固定サイズのstate sequenceにスケッチする。
- ハイブリッドカーネル画像により,系列とその導関数のペアワイズ比較を通じて,グローバルな時間構造を捉える。
- ロブストなlog-distanceチャネルが主要な識別信号であり,SMKC表現上でのランダム射影と最近傍法が,勾配更新なしに良好な性能を示す。
Llama-3.1-FoundationAI-セキュリティLLM-推論-8B 技術レポート [cs.AI, cs.CR, cs.LG]目的:サイバーセキュリティのための最初のオープンソースネイティブ推論モデル
- サイバーセキュリティは,現代社会における情報資産の保護に不可欠であり,その重要性は増している。
- 既存のサイバーセキュリティモデルは,規模が大きく,特定領域への特化が不十分な場合がある。
- 特定領域に特化した推論能力を持つモデルを開発し,効率的かつ効果的なセキュリティ対策を実現する。
- 本研究で開発されたFoundation-Sec-8B-Reasoningは,大規模モデルと同等のサイバーセキュリティタスク性能を示す。
- マルチホップ推論タスクにおいて優れた汎化能力と,適切なシステムプロンプトとガードレールを用いた際の高い安全性も確認された。
- ドメイン特化型推論モデルが,特定のタスクで高い性能を発揮しつつ,広範な汎用能力を維持できることを実証した。
Snowball: デュアルモードマルコフ連鎖モンテカルロ法と非同期スピン更新を用いたスケーラブルな全結合アイジングマシン [cs.HC, cs.LG]目的:組合せ最適化の高速化のための全結合アイジングマシンの実現
- 組合せ最適化問題の解決は,現代社会の様々な分野で重要であり,計算時間の短縮が求められている。
- 既存のアイジングマシンでは,ハードウェアの制約やアルゴリズムの効率性の問題から,実用的な規模での応用が困難である。
- Snowballは,これらの課題を克服し,より高速かつ高精度な組合せ最適化処理を実現することを目指している。
- Snowballは,デュアルモードマルコフ連鎖モンテカルロ法と非同期スピン更新を組み合わせることで,収束を促進し,計算時間を削減する。
- デジタルアーキテクチャを採用することで,高いビット幅の結合係数精度をサポートし,様々な問題に対応可能である。
- AMD Alveo U250アクセラレータカード上でプロトタイプを実装した結果,最先端のアイジングマシンと比較して,計算時間が8倍短縮された。
表形式データに対する人間とLLMの協調的な特徴量エンジニアリング [cs.LG, cs.CL, cs.HC]目的:表形式データの特性量エンジニアリングにおける人間とLLMの協調
- 表形式データ分析は,様々な分野で重要な役割を担うため,その性能向上は不可欠である。
- LLMによる自動特性量エンジニアリングは,最適化の根拠が不明確で,効率性に課題が残る。
- 人間とLLMの協調により,特性量エンジニアリングの効率と精度を向上させることを目指す。
- 本研究で提案するフレームワークは,多様な表形式データセットにおいて,特性量エンジニアリングの性能を向上させる。
- LLMが提案した特性量変換候補の選択に人間の専門家のフィードバックを組み込むことで,より効果的な特性量を見つけ出す。
- ユーザーの認知負荷を軽減し,特性量エンジニアリングのプロセスをより効率的に行うことが可能となる。
構造からの信号:生成フローネットワークにおけるサブモジュラ上限の活用 [cs.LG, stat.ML]目的:サブモジュラな報酬を持つ構成的オブジェクトの価値推定
- 生成モデルにおいて,事前知識が未知の報酬を持つオブジェクトの効率的なサンプリングが重要である。
- 報酬の構造が不明な場合,探索空間が広大になり,学習効率が低下する可能性がある。
- サブモジュラ性に着目し,未観測オブジェクトの報酬上限を推定することで学習を効率化する。
- サブモジュラ性を活用することで,未観測構成的オブジェクトの報酬上限を導出できることが示された。
- SUBo-GFNは,従来のGFNと比較して,同じ報酬関数のクエリ数で桁違いに多くの学習データを生成する。
- 合成データおよび実世界のサブモジュラタスクにおいて,SUBo-GFNの分布一致性と高品質な候補生成の有効性が確認された。
深層複合AIシステムのためのテキスト均衡伝播 [cs.RO, cs.LG, cs.AI]目的:深層複合AIシステムの最適化
- 大規模言語モデルの活用が進み,複数のモジュール連携が重要になっている。
- システムが深くなると,テキストフィードバックの伝播が不安定になる。
- テキスト均衡伝播により,深層システムにおける最適化問題を解決する。
- 提案手法であるTEPは,テキスト均衡伝播の原理に基づき,局所的な最適化と制御された適応を実現する。
- 長距離のQAベンチマークとマルチエージェントツール使用データセットにおいて,TEPはTextGradなどの既存手法を上回る精度と効率を示す。
- 深層化が進むほど効果が向上し,ブラックボックスLLMの利用可能性を維持する。
グラフ基盤モデルにおける分布外汎化 [cs.LG]目的:グラフ基盤モデルにおける分布外汎化に関する研究動向
- グラフ構造は,ソーシャルネットワーク等,関係性情報を扱う上で不可欠である。
- グラフ学習モデルは,学習分布外のデータに対して汎化性能が低いという課題がある。
- 本研究は,分布外汎化の観点からグラフ基盤モデルの現状と課題を整理する。
- グラフ基盤モデルは,多様なグラフとタスクの大規模事前学習により,汎用的な表現学習を目指している。
- 既存のアプローチは,タスク仕様が固定されているか,異質なタスクに対応可能かによって分類される。
- 分布シフトへの対処戦略や事前学習目的についても整理し,評価プロトコルと今後の展望を議論する。
ソフトウェア工学における大規模言語モデルの包括的ベンチマーク基盤に向けて [cs.SE, cs.AI]目的:大規模言語モデルのソフトウェア工学における評価基盤の構築
- ソフトウェア開発において,コード生成AIの利用が増加しており,その性能評価が不可欠である。
- 既存のベンチマークは狭範なタスクに偏り,頑健性や実用性などの重要な側面が評価されていない。
- ソフトウェア工学の文脈に基づいたデータセットと評価指標,再現性のあるパイプラインを確立し,より信頼性の高い評価を実現する。
- 既存のベンチマークに関する調査とワークショップを通じて,信頼性の高い評価における3つの課題を特定した。
- BEHELMを提案する。これは,ソフトウェアシナリオの仕様と多角的評価を統合した包括的なベンチマーク基盤である。
- BEHELMは,タスク,言語,粒度,品質次元にわたるモデルの評価を構造化し,ベンチマーク構築の負担を軽減する。
アルツハイマー病分類のためのマルチモーダル補完 [cs.AI]目的:アルツハイマー病の分類精度向上
- 脳画像診断は,アルツハイマー病などの神経変性疾患の早期発見に不可欠である。
- 複数の画像モダリティのデータが揃っていないケースが多い。
- T1強調画像からDWI画像を補完し,診断精度向上を目指す。
- T1強調画像からDWI画像を補完する条件付きノイズ除去拡散確率モデルを開発した。
- 補完されたDWI画像を用いて,単一モダリティおよび二重モダリティの深層学習モデルの精度を評価した。
- 特に少数クラスに対する指標において,いくつかの補完設定で精度向上が確認された。
