arXiv雑要約
AI - 2026/05/07 公開
変換された潜在変数多出力ガウス過程 [cs.LG]目的:多出力ガウス過程の拡張
- 高次元データへの対応が求められている。複雑な相関構造を捉え,予測精度を向上させる重要性がある。
- 高次元出力空間では,計算量の増加が課題となる。表現力を制限するような仮定が必要となる場合がある。
- 高次元出力設定下で,計算効率と予測精度を両立させることを目指す。
- 提案手法T-LVMOGPは,大量の出力に対応可能であり,出力間の依存関係を捉える能力を維持する。
- Lipschitz正則化されたニューラルネットワークにより,柔軟な多出力深層カーネルを構築する。
- 気候モデリングや空間トランスクリプトームデータなど,多様なベンチマークで既存手法を上回る性能を示した。
LLMのハルシネーション検出のための動的システム予測による低コストブラックボックス検出 [cs.LG, math.DS]目的:LLMのハルシネーション検出手法
- LLMの応用拡大に伴い,生成される情報の信頼性確保が重要となっている。
- 既存手法は計算コストが高いか,外部知識に依存するため,実用性に課題がある。
- 動的システム予測に基づき,低コストかつ単一サンプルでハルシネーションを検出する。
- 提案手法はLLMをブラックボックスの動的システムとして扱い,潜在状態空間のダイナミクスを特徴付ける。
- Koopman演算子理論を用いることで,事実とハルシネーションの領域における遷移演算子を学習し,予測誤差に基づいた識別スコアを定義する。
- 3つのデータベンチマークにおける実験により,提案手法が最先端の性能を発揮し,リソース消費を削減できることが示された。
コーディングエージェント時代におけるARC-AGI-3用実行可能なワールドモデル [cs.AI]目的:ARC-AGI-3における実行可能なPythonワールドモデルの維持と検証
- 汎用的な問題解決能力を持つAGIの実現は,AI研究における長年の目標である。
- 既存のAIシステムは,特定のゲームや環境に特化したロジックに依存しがちである。
- 汎用的な問題解決能力を評価するためのARC-AGI-3のベースラインを提供する。
- 本システムは,ゲーム固有のコードを使用せず,ワールドモデルの検証を通じて問題を解決する。
- ARC-AGI-3の25個の公開ゲームで,7つのゲームを完全に解決し,6つのゲームでRHAEが75%を超えた。
- 平均RHAEは32.58%であり,検証駆動型の実行可能なワールドモデルが有望なアプローチであることが示唆された。
プロジェクト型学習における人間とAIの共同指導:金融予測のケーススタディ [cs.LG, cs.CY]目的:プロジェクト型学習における人間とAIの共同指導の経験
- 近年のAI技術の進歩は,教育現場における新たな可能性を拓いている。
- 従来の教育では,AIや金融に関する基礎知識の習得に時間がかかりがちである。
- AIツールを活用することで,学習者はより高度な問題解決に集中できることを検証する。
- 本研究では,高校生と学部生からなるチームが,AIツールと大学院生の研究者による指導の下,金融予測プロジェクトに取り組んだ経験を共有した。
- 参加生徒たちは,AIや金融に関する予備知識が限られていたにも関わらず,技術的な市場分析やETF価格予測に強い意欲を示した。
- AIツールを活用したワークフロー設計により,生徒たちは各自の興味関心分野を深掘りし,夏季を通して大きな進歩を遂げることができた。
実用的な学習型画像圧縮において重要な要素 [cs.CV, cs.AI, cs.LG]目的:学習型画像圧縮における主要なモデル設計選択
- 画像圧縮は,データサイズを削減し,効率的な情報伝送を実現する上で不可欠である。
- 既存の学習型コーデックは,知覚品質と処理速度のバランスを取るのが難しい。
- 知覚品質と処理速度を両立する,実用的な学習型画像コーデックを開発すること。
- 本研究では,知覚品質と処理速度を両立する新しいコーデックを構築した。
- 主観評価試験の結果,AV1,AV2,VVC,ECM,JPEG-AIと比較して,2.3~3倍のビットレート削減を達成した。
- iPhone 17 Pro Max上で,12MP画像のエンコードに230ms,デコードに150msを要し,既存のMLベースコーデックよりも高速である。
重ね合わせは不要:時系列予測のためのTransformer表現に対するメカニズム解釈的分析 [cs.LG, cs.AI]目的:Transformer表現のメカニズム解釈
- Transformerは時系列予測で広く用いられているが,NLPで強力な表現メカニズムが時系列データでも活かされているかは不明である。
- 単純な線形モデル(DLinear等)が依然として高い競争力を持つものの,その理由をメカニズム的に説明するものは存在しない。
- PatchTSTの内部表現を疎な自動エンコーダで解析し,重ね合わせが時系列予測に必須でないことを示す。
- 単層のTransformerが,より深い構成と同等の予測性能を示すことが確認された。
- 疎な自動エンコーダの辞書サイズを拡大しても,予測性能への影響は軽微であり,大部分の潜在変数は不活性のままだった。
- 主要な潜在特徴に対する因果的介入は,予測への影響が小さく,表現が重ね合わせに依存しないことが示された。
Aes3D:3Dガウススプラッティングにおける美的評価 [cs.CV, cs.AI]目的:3Dシーンの美的属性の評価
- 没入型メディアやデジタルコンテンツ制作において,3Dシーンの品質は重要であり,視覚的な魅力が不可欠である。
- 既存の評価手法は再構成の忠実性や知覚的なリアリズムに重点を置いており,構成や調和といった高次の美的属性が軽視されている。
- 3Dガウススプラッティング表現から高レベルな美的特徴を捉え,3Dシーンの美的評価を可能にすること。
- 本研究では,初の3Dシーン美的評価専用データセット「Aesthetic3D」と,軽量な予測モデル「Aes3DGSNet」を提案した。
- Aes3DGSNetは,3Dガウスプリミティブのみを用いて動作し,レンダリングコストを削減しつつ,高レベルな美的特徴を捉えることに成功した。
- 実験結果は,提案手法が軽量性を維持しつつ高い性能を発揮し,3Dシーン美的評価の新たな基準を確立することを示した。
SemEval-2026タスク9におけるPSK:合成データ拡張を用いたアンサンブルGemmaモデルによる多言語偏向検出 [cs.CL, cs.AI, cs.LG]目的:多言語偏向検出におけるシステム性能向上
- 社会における意見の二極化は深刻化しており,その検出と理解が重要である。
- 多言語における偏向検出は,言語資源の不足や言語特性の違いにより困難である。
- 合成データ拡張とアンサンブル学習により,多言語偏向検出の汎化性能を高める。
- 言語ごとにGemmaモデルをLoRAでファインチューニングし,GPT-4o-miniで生成した合成データで拡張した。
- 開発セットでの閾値調整により,F1スコアが2~4%向上し,アンサンブル学習で性能が向上した。
- 22言語全体で平均マクロF1スコア0.811を達成し,参加チーム中2位,3言語で1位,8言語で3位以内となった。
幾何構造を意識した状態空間モデル:全スライド画像表現の新たなパラダイム [cs.CV, cs.AI]目的:全スライド画像を用いた組織病理学的解析の精度向上
- 病理組織診断・治療計画において,高解像度な全スライド画像解析は不可欠である。
- 既存手法は,パッチ表現を均一なユークリッド空間に埋め込み,組織の階層構造や地域異質性を考慮していない。
- 幾何構造を意識した表現学習により,組織の全体構造と微細な細胞形態をより正確に捉えることを目指す。
- 双曲空間とユークリッド空間のハイブリッド表現を用いることで,階層的な組織構造と局所的な形態学的詳細を補完的にモデル化する。
- S4バックボーンとMoEモジュールを組み合わせたBatMILフレームワークは,既存のMILアプローチを上回るスライドレベル分類性能を示す。
- 7つのWSIデータセットにおける実験結果は,幾何構造を意識した表現学習が次世代の病理計算において有望な方向性であることを示唆する。
最初のトークンが示す:幻覚検出のための単一デコード確信度 [cs.IR, cs.CL, cs.AI]目的:幻覚検出のための確信度指標
- 大規模言語モデルの性能向上に伴い,生成される情報の信頼性評価が重要になっている。
- 既存の幻覚検出手法は,計算コストが高いか,わずかな表現の変更で結果が左右される可能性がある。
- 最初のトークンの分布から得られる確信度指標で,効率的に幻覚を検出することを目指す。
- 最初のトークンの確信度(phi_first)は,既存のセマンティック自己整合性と同等以上の性能を示す。
- phi_firstは,複数のモデルとベンチマークにおいて,平均AUROC 0.820を達成した。
- phi_firstは,セマンティック自己整合性の情報をある程度捉えており,組み合わせによる改善は限定的であった。
Design Conductor 2.0:エージェントが80時間でTurboQuant推論アクセラレータを構築 [cs.AR, cs.AI]目的:TurboQuant推論アクセラレータの設計と構築
- LLMエージェントの進化は,ハードウェア設計の自動化に新たな可能性をもたらしている。
- 複雑なハードウェア設計は,専門知識と膨大な時間と労力を必要とする。
- LLMエージェントによるハードウェア設計の自動化による効率化と高品質化を目指す。
- 本研究で開発したDesign Conductor 2.0は,従来のシステムと比較して80倍の規模のタスクを自律的に処理可能。
- 同システムは,TurboQuant arXiv論文を基に,240サイクルパイプラインを持つLLM推論アクセラレータ「VerTQ」を自動設計した。
- VerTQは5129個のFP16/32ユニットを持ち,TSMC 16FFで5.7 mm^2の面積でFPGAに実装された。
人生がBCを与えたら,Q関数を作れ:行動模倣からのQ値抽出によるロボット強化学習 [cs.RO, cs.AI]目的:行動模倣からQ関数を抽出し,ロボットの強化学習を効率化する手法
- ロボットの学習において,人間のデモンストレーションを活用する行動模倣が注目されている。
- 行動模倣はオンラインでの改善が難しく,オフラインデータとオンライン学習の分布のずれが問題となる。
- 行動模倣からQ関数を抽出し,強化学習と組み合わせることで,効率的な学習を実現する。
- 提案手法Q2RLは,D4RLやrobomimicの操作タスクにおいて,既存のオフライン・ツー・オンライン学習手法を上回る性能を示した。
- Q2RLは,パイプの組み立てやキッティングといった接触が多く高精度な操作タスクにおいて,1-2時間のオンライン学習で100%の成功率を達成した。
- Q2RLは,元の行動模倣ポリシーと比較して最大3.75倍の改善を達成し,オンロボット強化学習への応用可能性を示した。
トランスフォーマーによる非線形回帰に対する文脈内学習の理解:注意機構の特徵量化 [cs.LG, cs.NA, math.NA]目的:非線形回帰における文脈内学習の理論的理解
- 機械学習において,少ないデータで汎化性能を高める技術が重要である。
- 文脈内学習の理論的基盤は未だ発展途上であり,特に非線形モデルでの理解が不足している。
- 注意機構を通じて非線形特徴を構築し,文脈内学習の汎化誤差を理論的に評価する。
- 事前学習済みトランスフォーマーが,プロンプト内の例から学習する文脈内学習のメカニズムを分析した。
- 注意機構によって非線形特徴(多項式基底,スプライン基底など)を明示的に構築するフレームワークを確立した。
- 文脈長と学習データサイズに関する有限サンプル汎化誤差の上界を導出した。
広範囲ランダムMLPの期待出力を,サンプリングよりも効率的に推定する [cs.LG, cond-mat.dis-nn, stat.ML]目的:広範囲ランダムMLPの期待出力の推定方法
- 機械学習モデルの性能評価において,期待損失の正確な推定は不可欠である。
- 従来のサンプリングによる期待損失の推定は計算コストが高いという課題がある。
- 本研究では,サンプリングを用いずに効率的に期待出力を推定する手法を提案する。
- 初期化されたMLPにおいて,ガウス入力に対する期待出力を,ネットワーク自体を通さずに推定可能。
- 活性化分布の表現に,キュムラントやエルミート展開を用いることで,モンテカルロサンプリングよりも少ないFLOPsで目標の平均二乗誤差を達成。
- 特に稀な事象の確率推定に優れ,モデルの学習にも応用できることが示された。
LongSeeker:長期間探索エージェントのための弾力的なコンテキストオーケストレーション [cs.NI, cs.AI]目的:長期間の探索エージェントにおけるコンテキスト管理の最適化
- 大規模言語モデルを用いたエージェントの能力向上は,複雑なタスク遂行において不可欠である。
- 従来のコンテキスト管理は固定的であり,情報過多やコスト増大,誤り発生のリスクがある。
- 動的にコンテキストを調整し,関連性の高い情報を維持することで,効率と信頼性を高める。
- 提案手法Context-ReActは,推論,コンテキスト管理,ツール利用を統合し,コンテキストを効率的に整形する。
- LongSeekerはQwen3-30B-A3Bを基にファインチューニングされており,BrowseCompとBrowseComp-ZHでそれぞれ61.5%,62.5%のスコアを達成した。
- 既存モデルTongyi DeepResearchやAgentFoldを大幅に上回り,適応的なコンテキスト管理の有効性を示した。
拡散Transformerにおける外れ値トークンの制御 [cs.CV, cs.AI, cs.LG]目的:拡散Transformerにおける外れ値トークンの現象とその抑制手法
- 画像生成において,Transformerの性能向上は重要であり,その内部メカニズムの理解が不可欠である。
- Vision Transformerにおいて,高ノルムな外れ値トークンが発生し,注意機構を歪める問題が存在する。
- 外れ値トークンが画像生成品質に与える悪影響を軽減し,より安定した生成を可能にすること。
- 拡散Transformerのエンコーダーとデノイザーの両方で外れ値トークンが発生することが示された。
- 単純な外れ値トークンのマスク処理は効果がなく,局所的な意味の崩壊が原因であることが示唆された。
- 提案手法であるDual-Stage Registers (DSR) は,外れ値アーティファクトを削減し,生成品質を向上させた。
ボルツマン機械とファインマン経路積分との類似性 [quant-ph, cs.AI, cs.LG]目的:ボルツマン機械とファインマン経路積分の間の関連性
- 機械学習と量子統計力学は,それぞれ異なる分野ながら,複雑な現象のモデリングにおいて重要である。
- ボルツマン機械のようなニューラルネットワークの解釈可能性が課題となっている。
- ニューラルネットワークの隠れ層を量子力学的な経路積分と関連付け,解釈可能性を高める。
- ボルツマン機械の隠れ層は,ファインマン経路積分における離散的な経路要素と解釈できることが示された。
- この等価性により,機械学習における学習は,適切な「経路」とそれらの重みを組み合わせるプロセスと捉えられる。
- ボルツマン機械とファインマン経路積分記述の両方に適用可能な量子回路モデルが提案された。
高次元分子ポテンシャルエネルギー面のための大規模言語モデル型アーキテクチャ [cs.LG, cs.AI, physics.atm-clus, physics.chem-ph, physics.comp-ph]目的:分子系および材料の高次元ポテンシャルエネルギー面計算手法
- 化学反応速度の予測など,計算化学の根幹を支える重要な課題である。
- 高次元空間におけるポテンシャルエネルギー面の計算は,計算コストが極めて高い。
- 大規模言語モデルのアーキテクチャを応用し,高次元ポテンシャルエネルギー面を効率的に計算する。
- 提案手法は,51核次元系に対して良好な結果を示し,その有効性が確認された。
- さらに,この手法を拡張することで,186核次元系(プロトン化された21水クラスター)のポテンシャルエネルギー面をsub-kcal/molの精度で計算することに成功した。
- 本研究は,全次元ポテンシャルエネルギー面計算に向けた第一歩となる。
システム・オブ・システムズのモデル化と最適化:インターモダールモビリティのための統合フレームワーク [cs.AI, cs.MA, cs.SY, eess.SY, math.OC]目的:システム・オブ・システムズにおけるモデル化と最適化の統合フレームワーク
- 交通システム全体の効率化が求められており,複雑なシステムを扱うための手法が重要である。
- システム・オブ・システムズの最適化は計算コストが高く,最適化アルゴリズムの適用が困難である。
- 代替モデルを用いた最適化により,計算コストを削減し,効率的なシステム設計を目指す。
- ベイズ最適化等の代替モデルに基づく最適化手法が有効であることが示された。
- 物理ベースのシミュレーションと代替モデルを組み合わせることで,計算コストと最適化精度のバランスを取れる。
- 提案フレームワークは,インターモダールモビリティのような複雑なシステム設計に貢献できる。
再生カーネルヒルベルト空間における表現的埋め込み学習:表現者定理によるアプローチ [cs.LG, cs.AI]目的:高次元データの潜在構造を明らかにする表現学習のための再構成に基づく多様体学習アルゴリズム
- 高次元データの解析には,データの構造を効率的に捉える表現学習が不可欠である。
- 従来の多様体学習は,高次元空間での再構成の困難さや計算コストに課題があった。
- 再生カーネルヒルベルト空間と表現者定理を用いて,効率的な再構成と低次元埋め込みを実現する。
- 提案手法は,データの自己再構成性を活用し,高次元の特徴空間の幾何構造を低次元空間に転送する。
- ベクトル値データにも適用可能な分離可能な演算子値カーネルを導入し,汎用性を高めている。
- シミュレーションデータおよび実データに対する実験により,提案手法の有効性が確認された。
IoTトラフィックフローからの多様体とグラフニューラル埋め込みの解釈 [cs.CR, cs.AI, cs.LG, cs.NI]目的:IoTトラフィックフローからの多様体とグラフニューラル埋め込みの解釈
- IoT機器の普及によりネットワークが複雑化しており,その監視・可視化が重要になっている。
- 従来の監視ツールは静的な表現に依存し,IoTネットワークの動的な関係性を捉えきれない。
- GNNの内部表現の解釈性を高め,ネットワーク挙動を人間が理解しやすい形で提示すること。
- 高次元埋め込みを低次元多様体へマッピングする解釈可能なパイプラインを開発した。
- 本手法は侵入検知においてF1スコア0.830を達成し,コンセプトドリフト等の現象を可視化可能にした。
- GNN埋め込みとネットワーク管理者・セキュリティアナリストの理解を繋ぐ架け橋となる。
人間の視線を用いた都市主観的知覚のモデル化 [cs.CV, cs.AI, cs.HC]目的:都市主観的知覚のモデル化
- 都市の経験や理解を左右する都市主観的知覚は,都市計画やデザインにおいて重要である。
- 既存の手法はストリートビュー画像に依存し,人間の知覚過程を無視している。
- 人間の視線データを用いて,より精度の高い都市主観的知覚のモデル化を目指す。
- 視線情報のみでも,都市主観的知覚の予測に有用な信号が含まれることが示された。
- 視線情報とシーン表現を組み合わせることで,予測精度がさらに向上することが確認された。
- 本研究は,都市シーン理解における人間の知覚過程の組み込みの重要性を示唆する。
推論の罠:閉じたシステムにおける多段階LLM推論に関する情報理論的限界 [cs.CL, cs.AI, cs.LG]目的:閉じたシステムにおける多段階LLM推論における推論の劣化現象の理論的解明
- 大規模言語モデルの推論能力向上は,AI研究における重要な課題である。
- 多段階推論において,推論の正確性は維持されつつも,その根拠が失われる問題がある。
- 情報理論に基づき,閉じたシステムにおける推論の限界を定量的に示す。
- 複数の言語モデルを議論させる場合,多様な視点よりも同じ視点の言い換えが生じやすいことが示された。
- 提案手法であるEGSR(Evidence-Grounded Socratic Reasoning)は,SciFactとFEVERのデータセットにおいて,SFS(Supported Faithfulness Score)を98%まで回復させた。
- 人間の評価者間の一致度は低く,信頼性のある評価指標の構築が課題であることが示唆された。
ランク付けの信頼性の異なる複数モデルを用いた集合ベース最適化の一貫性重視アプローチ [cs.CL, cs.IR, stat.ML, cs.LG, math.OC]目的:複数のモデル間の一貫性を利用した最適解の探索
- 複雑な現実世界の問題解決において,様々な精度のモデルが重要となる。
- 通常,最も正確なモデルを基準に他のモデルを評価するが,その正確性は事前には不明である。
- 複数のモデルを前提とし,一貫性に基づき信頼性の高い解を特定することを目指す。
- 提案手法S-BOMMは,最も正確なモデルを仮定せず,複数のモデル間の一貫性に着目する。
- 一貫性に基づく手法の確率的分析により,結果の正誤の可能性が評価されている。
- テスト問題に対する実験結果は,S-BOMMの有効性を示している。
BOOOM:機械学習と統計的推論のための直交行列多様体上の損失関数非依存ブラックボックス最適化 [math.OC, cs.LG, stat.CO, stat.ML]目的:機械学習と統計的推論における直交行列多様体上の最適化手法
- 統計,機械学習,科学計算において,直交行列多様体上での最適化は基盤技術である。
- 非凸,非滑らか,あるいはブラックボックスな目的関数に対する最適化は依然として困難である。
- 既存手法の適用範囲を広げ,より複雑な問題への対応を目指す。
- 提案手法BOOOMは,直交行列多様体を制約なしの角度空間にマッピングし,効率的な探索を実現する。
- 角度空間と多様体上での最適化の等価性,停留性の伝播,確率的グローバル収束が理論的に示された。
- 多様な問題において,特に非滑らかかつ多峰性の状況で,最先端手法と比較して良好な性能を示した。
意識モデルに着想を得た汎用AIの設計図:CTM-AI [q-bio.NC, cs.AI]目的:汎用AIシステムの実現に向けた設計図
- AI技術の進展は目覚ましいが,人間のような柔軟性や適応性には及ばない。
- 現在のAIは特定のタスクに特化しており,汎用性に欠ける点が課題である。
- 意識モデルを応用し,より汎用的なAIシステムを構築することを目指す。
- CTM-AIは,MUStARDで72.28,UR-FUNNYで72.13という最先端の精度を達成した。
- ツール使用やエージェントタスクにおいて,StableToolBenchとWebArena-Liteで10ポイント以上の改善が見られた。
- 意識モデルに触発された汎用AIの原理的かつ検証可能な設計図を提供する。
Meta-LegNet:自己定義吸着環境学習による表面吸着予測のための転移可能かつ解釈可能なフレームワーク [cond-mat.mtrl-sci, cs.AI, cs.LG]目的:表面吸着予測のための,転移性と解釈可能性を備えたフレームワークの構築
- 触媒反応設計において,吸着構造の特定は反応経路や触媒性能に直接影響するため重要である。
- 従来の計算手法は計算コストが高く,複雑な表面や多吸着系への適用が困難である。
- 吸着環境の転移学習により,未知の表面に対する効率的な吸着サイトの予測を目指す。
- Meta-LegNetは,SE(3)不変なメッセージパッシングと,ボクセルベースの多重スケール集約,ドメイン間メタ学習を組み合わせている。
- 局所化学環境を不変な動径特徴と等変な方向情報でエンコードし,座標系ボクセルプーリング等を用いて構造的文脈を組み込む。
- 学習された表現に基づき,吸着環境データベースを構築し,網羅的なサイト列挙なしに吸着サイトを提案する。
ProtDBench:タンパク質結合体設計と評価のための統一されたベンチマーク [q-bio.QM, cs.AI]目的:タンパク質結合体設計と評価のための標準化されたフレームワーク
- タンパク質結合体設計は,創薬やバイオテクノロジーにおいて重要な役割を果たす。
- 評価プロトコルの標準化がなされておらず,研究間の比較が困難である。
- 評価設計が性能に与える影響を系統的に分析し,公平な比較を可能にする。
- ProtDBenchは,統一されたベンチマークタスク,評価プロトコル,成功基準を定義した。
- 構造予測モデルの検証者としてのバイアスを明らかにし,評価設計の影響を定量化した。
- 生成的な結合体設計手法を10のターゲットタンパク質に対して評価し,効率,成功率,構造的多様性の関係を分析した。
系統樹条件付き編集フローによる祖先配列再構築 [q-bio.QM, cs.LG, q-bio.PE]目的:祖先配列再構築のモデル
- タンパク質の進化を理解するには,過去の配列を推定することが重要である。
- 既存手法は挿入・欠失の扱いが弱く,配列の相関を無視しがちである。
- 挿入・欠失を含む配列に対して,より正確な祖先配列を再構築すること。
- 提案手法は実験的に進化させた配列に対し,既存手法ほどの精度はないものの,妥当な性能を示した。
- 自然相同配列のデータセットにおいて,進化的な変化の局在化において最も高い精度を達成した。
- 系統樹の情報を編集フローに組み込むことで,可変長の配列に対応した再構築を実現した。
AI支援STEM教育における多角的誤りの修正のための対話型フレームワーク [physics.ed-ph, cs.AI, cs.CY]目的:AI支援STEM教育における多角的誤り修正のためのフレームワーク
- STEM教育の質向上と公平なアクセス確保が重要視される中,AIによる個別指導の可能性が広がっている。
- LLMは多角的コンテンツの処理に課題があり,画像を含むSTEM分野での支援能力が限定されている。
- LLMの多角的コンテンツ処理能力の限界を克服し,AIによるSTEM教育の信頼性を高めることを目指す。
- 大規模言語モデル(LLM)はテキストのみの問題では高い精度(96%)を示したが,多角的問題では精度が大幅に低下した。
- エラー分析の結果,視覚的処理エラー,文脈の誤解釈,計算ミス,複合エラーの4つのエラーモードが特定された。
- 構造化された多角的対話介入により,全体の82%のエラーが修正され,視覚的処理エラーは100%修正された。
ベイジアン非パラメトリック複雑度発見による異質序数構造学習 [stat.ML, cs.CY, cs.LG]目的:人工知能に対する国民の態度の異質性,序数尺度,および依存グラフによる不十分な表現
- 社会調査において,個人の意見や態度を正確に把握することは重要である。
- 既存の手法では,個人間の意見の多様性を考慮した序数構造の学習が困難である。
- 本研究は,個人ごとの意見の多様性を捉え,より精度の高い序数構造を学習することを目的とする。
- 提案手法は,モノトーンガウススコア埋め込み,ベイジアン非パラメトリック複雑度発見,およびクラスタ固有の疎DAG学習を組み合わせる。
- 2024年のPewアメリカントレンドパネル調査において,提案手法は単一グラフベースラインよりもMSEを25.8%削減した。
- 制御された半合成ベンチマークにより,困難な条件下での復元と失敗モードが検証された。
ガウス分布に対する不均衡最適輸送と密度制御の包括的解法 [math.CO, cs.CY, math.OC, math.OC, cs.LG, cs.RO, cs.SY, eess.SY]目的:ガウス分布を対象とした不均衡最適輸送と密度制御の理論的拡張
- 最適輸送理論は,確率分布間の距離を測る上で重要であり,機械学習などへの応用が期待される。
- 不均衡最適輸送は,輸送量の制約がないため,解法が複雑になる場合がある。
- ガウス分布に特化した解法を導出することで,計算効率と最適性の保証を目指す。
- 不均衡最適輸送問題は,ガウス分布に対する場合に,質量の合計,平均,共分散に関する有限次元最適化問題として定式化できる。
- 不均衡密度制御問題においても,初期状態と制御政策をガウス分布で近似することで,同様の有限次元化が可能となる。
- 提案手法は,不均衡最適輸送と不均衡密度制御の両方に対し,グローバルな最適解を提供する。
エントロピーリーマンニューラル最適輸送 [stat.ML, cs.LG, stat.ME]目的:曲面上のデータに対する最適輸送問題の効率的な解決策
- 機械学習において,球面や双曲空間など,曲面上のデータは重要性が増している。
- ユークリッド幾何学では距離や平均が歪むため,曲面上の最適輸送は困難である。
- リーマン多様体上での効率的な最適輸送を実現し,計算コストを削減することを目指す。
- 提案手法Entropic RNOTは,エントロピー正則化とアモルタイズド評価を統合した統一的なフレームワークである。
- 実験的に,球面,回転群,SPD,SE(3),双曲空間などのベンチマークにおいて,既存手法と同等またはそれ以上の性能を示した。
- タンパク質・リガンドドッキングへの応用では,再学習やインスタンスごとの最適化なしに,SE(3)上でのポーズを改善した。
非定常最適化におけるAdamとSGDのトレードオフ:証明可能な考察 [stat.ML, cs.LG]目的:非定常確率的目標関数下でのAdamの理論的分析
- 機械学習における最適化は,モデルの性能に不可欠であり,より効率的な手法が求められている。
- Adamのような適応的最適化手法は不安定性を示すことがあり,その原因の解明が課題である。
- AdamとSGDの性能差を理論的に明らかにし,Adamの適用条件を明確化すること。
- 非定常環境下では,Adamの性能はノイズとドリフトのバランスに依存し,SGDよりも優位性を持つ場合と劣る場合がある。
- Adamの初期化,目的関数の変動,第一モーメントの追跡誤差,プレコンディショナーの摂動が,性能に影響する主要な要因である。
- $\beta_1$と$\beta_2$のパラメータがAdamの性能を左右し,分布シフトに対する安定性を理論的に説明できる。
脳科学のための視覚,聴覚,言語の基盤モデル [q-bio.NC, cs.LG]目的:人間の脳活動予測能力を有するトリモーダル基盤モデル
- 認知神経科学は脳機能解明の根幹であり,その進展は精神疾患の理解や治療に不可欠である。
- 既存研究は実験パラダイムごとにモデルが分断され,脳全体の統合的理解が困難であった。
- 多様な条件下で脳活動を予測し,脳機能の統合的理解と新たな実験的アプローチを可能とする。
- TRIBE v2は,1,000時間以上のfMRIデータを用いて,多様な刺激・課題・対象に対して高精度な脳活動予測を実現した。
- 従来の線形符号化モデルを凌駕し,確立された視覚・神経言語学的パラダイムにおける結果を再現することに成功した。
- 抽出された潜在的特徴から,多感覚統合の微細な地形が明らかになり,AIが脳機能探求の統一的枠組みとなりうることを示した。
言語モデルの拡張のための摂動だけで十分である [stat.ML, cs.LG, math.ST, stat.TH]目的:言語モデルの拡張性
- 大規模言語モデルは自然言語処理において不可欠であり,その性能向上は重要な課題である。
- 既存の言語モデルは,学習データに含まれない系列への予測性能が低いという課題がある。
- 学習データに存在しない系列に対する予測性能を向上させることを目指す。
- 提案手法は,従来の自己回帰的な予測とは異なり,摂動を用いた予測を行うことで,データ外の系列に対する予測性能を向上させる。
- 理論的な考察により,モデルクラスの拡張性について厳密な定義を与えた。
- 合成データおよび実データを用いた実験により,提案手法がデータ内およびデータ外の予測性能において優れていることを示した。
平均独立性と線形性下での因果探索 [math.CO, cs.DM, stat.ME, cs.LG, math.ST, stat.ML, stat.TH]目的:因果構造の特定
- 観察データから因果関係を明らかにする研究の重要性
- 従来の因果探索手法は,擾乱の独立性という仮定に弱点がある
- 従属した擾乱下でも因果構造を正しく推定する手法の開発
- LiMIAMは,完全な独立性よりも弱い,一方的な平均独立性の制約を用いる
- LiMIAMの下では,ソースノードが識別可能であり,再帰的に因果順序を回復可能
- シミュレーションと実証研究により,LiNGAMよりも優れた性能が示された
ニューラルに誘導された深層畳み込みニューラルネットワークにおける空間周波数依存性と敵対的頑健性の優位性の分離 [quant-ph, cs.ET, q-bio.NC, cs.AI]目的:深層畳み込みニューラルネットワークにおける敵対的頑健性のメカニズム解明
- 深層学習は画像認識で高い性能を示すが,敵対的攻撃に脆弱である点が課題。
- ニューラルネットワークの頑健性を高める方法が模索されている。
- 脳の視覚皮質との整合性が頑健性に寄与するメカニズムを特定する。
- ニューラルに整合されたDCNNは,低空間周波数とヒトの視覚チャネルへの依存性を高める。
- 空間周波数やヒトの視覚チャネルへの誘導は,頑健性の向上に繋がらず,むしろ低下させる場合がある。
- 空間周波数依存性の変化は,人間らしい表現学習の結果であり,頑健性の主要なメカニズムではないと考えられる。
JASTIN:自然言語指示によるゼロショット音声・言語評価のためのLLMのアライメント [eess.AS, cs.AI, cs.SD]目的:音声・言語評価のための汎用的な指示駆動型フレームワーク
- 生成AIの急速な発展に伴い,客観的な評価手法の確立が不可欠となっている。
- 既存の評価指標や汎用的なマルチモーダルLLMは,ドメイン汎化性能が課題である。
- 指示に基づいた評価能力を持つフレームワークを構築し,ゼロショット性能を向上させる。
- JASTINは,人間の主観評価と高い相関を示す最先端の結果を達成した。
- タスク固有の再学習を必要とせず,音声,音響,音楽,そして未知のドメインにおける評価で,汎用的なMLLMを上回る性能を示した。
- 凍結された高性能な音声エンコーダと,ファインチューニングされたLLMをアダプターで繋ぐことで実現した。
山火事抑制の最適化に向けた予測・処方型AI [math.OC, cs.AI, cs.LG]目的:山火事抑制のための乗組員配置と抑制活動の共同最適化
- 深刻化する山火事被害に対し,限られた資源を効率的に配分する重要性が高まっている。
- 山火事の発生場所や延焼予測が困難であり,最適な資源配分が課題となっている。
- AIを活用し,山火事の延焼予測と資源配分を同時に最適化することで,被害を最小限に抑える。
- 提案手法は,複雑な山火事の状況下でも現実的な規模の問題に対応可能であることが示された。
- 最適化アルゴリズムを用いることで,山火事の延焼面積を大幅に削減できることが実験的に確認された。
- 本手法は,異なる管轄区域間での資源共有を促進し,山火事抑制の有効性を高めることが期待される。
多スケールユークリッドネットワーク軌跡:第2モーメント幾何,帰属,変化点 [stat.ML, cs.LG, math.ST, stat.TH]目的:動的ネットワークの時間的進化の表現と統計的識別
- ネットワークの時間変化を捉えることは,複雑系の理解に不可欠である。
- 既存手法では,ノード埋め込みの曖昧性が幾何構造を歪める可能性がある。
- 第2モーメント幾何に基づく軌跡表現で,時間変化の歪みを抑制すること。
- MENTフレームワークは,異方性正規化により,幾何構造の歪みを防ぐ。
- 得られた軌跡は,モード分解,ノードへの帰属,変化点検出を可能にする。
- シミュレーションと実データで,時間構造の安定的な復元と高い検出性能を示した。
生成量子インスパイアード・コルモゴロフ・アーノルド固有値ソルバー [quant-ph, cs.LG]目的:量子化学ワークフローにおける効率的な固有値計算手法
- 大規模な分子系の計算において,高性能計算の重要性が増している。
- 従来の量子化学計算では,計算コストが課題となっている。
- 量子インスパイアードな手法を用いて計算コストを削減し,スケーラビリティを向上させる。
- GQKAEは,GPTベースのGQEと同等の化学的精度を達成しながら,学習パラメータとメモリ使用量を約66%削減した。
- GQKAEは,N2やLiHといった強相関系において,収束性と最終的なエネルギー誤差を改善した。
- 量子インスパイアードなコルモゴロフ・アーノルドネットワークが,古典側オーバーヘッドを削減し,近未来の量子プラットフォームにおけるHPC-量子共同設計の道を開く。
PAIR-CI:不完全データにおける因果探索のための較正された条件付き独立性検定 [stat.ME, cs.LG, stat.ML]目的:不完全データ下での因果探索のための,較正された条件付き独立性検定手法
- 因果推論は,データから因果関係を明らかにし,介入の効果を予測するために不可欠である。
- 不完全データ下では,欠損値の処理が課題であり,既存手法では誤った結論を導く可能性がある。
- 欠損値の影響を受けにくい,信頼性の高い条件付き独立性検定手法を開発すること。
- PAIR-CIは,多重代入を推論手続きに統合することで,検定の較正を回復する。
- シミュレーションの結果,既存手法と比較して偽陽性率が大幅に低下することが示された。
- 実データへの適用により,構造的ハミング距離が大幅に減少することが確認された。
Strichartz不等式の極値解のニューラルネットワークによる探索 [math.AP, cs.LG, cs.NA, math.NA]目的:Strichartz不等式の極値解の発見
- 分散偏微分方程式の理論において,Strichartz不等式は重要な役割を担う。
- 極値解が解析的に知られているのは限られた場合のみであり,探索が困難である。
- ニューラルネットワークを用いて極値解を探索し,未解決問題に迫る。
- Schrödinger群において,FoschiとHundertmark--Zharnitskyのガウス型極値解を10⁻³の相対誤差内で再現した。
- d=1における59組のアドミッシブルペアにおいて,一貫してガウス型解が得られ,普遍的な極値解であるという推測を支持した。
- γ=1/qにおけるAiry--Strichartz不等式では,mKdV呼吸子として解が組織化され,Frank--Sabinの下限に近づく様子が確認された。
共変量ドリフト下における展開リスクに対するヤコビアン・速度境界 [eess.SP, cs.SY, eess.SY, stat.ML, cs.LG]目的:共変量シフトの動的な変化下における,固定された予測モデルの長期的な展開リスク
- 機械学習モデルの展開は実世界での応用において重要であり,その安定性と信頼性が求められる。
- 共変量ドリフトは,訓練データと実データ間の分布のずれを引き起こし,モデルの性能劣化を招く。
- ドリフトに沿ったヤコビアンエネルギーを制御することで,展開時のリスクを軽減し,モデルのロバスト性を向上させる。
- 時間領域ポアンカレ不等式により,時間的リスク変動を導関数エネルギーに帰着させることが示された。
- 低ランクドリフト下では,ドリフト部分空間におけるヤコビアンエネルギーが支配的であり,ドリフトに合わせた正則化手法(DTR)が有効であることが確認された。
- UCI Air QualityおよびTetouan電力消費データセットでの実験により,DTRがリスク変動を低減し,実データにおいて性能向上をもたらすことが示された。
時系列データからの空間領域および時間的特徴の効率的な推論 [eess.SP, cs.SY, eess.SY, math.CO, cs.DM, stat.ML, cs.LG, cs.SI, physics.soc-ph]目的:空間領域の分割と代表的な時系列パターン(ドライバー)の推定
- 空間分析,政策決定,資源管理において,空間的な特性を共有する領域への分割が重要である
- 既存手法は静的な空間スナップショットに依存し,時間変化や空間構造を考慮していない
- 時系列データの空間分割を,事前に領域数を指定せずに効率的に行う
- 提案手法は,最小記述長原理に基づき,時空間データの圧縮に最適な空間分割とドライバーを推定する。
- 合成データを用いた実験で,空間構造とドライバーを高精度に復元できることが示された。
- 大規模な大気質データや植生指標データからも,意味のある構造的規則性を抽出できた。
構造化確率拡散によるハイパーグラフ生成 [stat.ML, cs.LG, stat.CO, stat.ME]目的:ハイパーグラフ生成手法
- 複雑な関係性を捉える必要性から,ハイパーグラフの応用が広がっている。
- 既存手法では,ハイパーグラフ特有の構造や多様性を正確に再現できていない。
- ハイパーグラフの構造を考慮した生成モデルを構築し,より現実的なハイパーグラフを生成すること。
- 提案手法HEDGEは,リラックスされたインシデンス行列を用いて,構造化確率拡散に基づく生成モデルを実現している。
- 前方過程は,ハイパーグラフ特有の熱演算とオルンシュタイン-ウーレンベック成分を組み合わせることで,データ近傍での構造を維持しつつ,ガウス型の終端則を得る。
- 実験結果から,既存手法と比較して,より高品質なハイパーグラフ生成が可能であることが示された。
思考発話データが行動データを超えた認知モデル自動発見に与える影響 [q-bio.NC, cs.AI]目的:認知モデルの自動発見における思考発話データの利用
- 人間の認知プロセス理解は,教育やメンタルヘルスなど,様々な分野に応用可能である。
- 行動データのみでは,認知モデルが曖昧になり,真のメカニズムを特定できない場合がある。
- 思考発話データを用いて,行動データだけでは捉えきれない認知メカニズムを明らかにすること。
- 思考発話データを用いることで,従来のモデルよりも予測性能が大幅に向上した。
- 発見されたモデルの構造は,行動データのみを用いた場合とは異なるクラスに分類されることが多かった(69.4%)。
- 思考発話データは,明示的比較モデルから統合的効用モデルへの構造変化をもたらした。
二重スパース正則化モデルにおける近接射影 [stat.ML, cs.LG, stat.CO, stat.ME]目的:高次元回帰におけるスパースモデル生成
- 高次元データでは,計算資源の節約と重要な予測因子の特定が課題となる。
- 予測因子間の構造(ガウスグラフモデル)を活かした正則化手法が求められている。
- 潜在変数分解による効率的な正則化と計算資源の節約を目指す。
- 提案手法は,L1およびL2ペナルティ間のトレードオフを明確に制御可能である。
- 近接射影演算子の効率的な計算により,特に高次元データにおいて計算コストを削減する。
- シミュレーションおよび実データ分析の結果,既存のスパースグラフ回帰モデルと同等以上の性能を示す。
標的とする目的を超えた情報的な材料データセットの構築 [cond-mat.mtrl-sci, cs.AI, cs.DB, cs.LG, stat.AP]目的:材料データセットの網羅性と有用性の最大化
- 材料科学研究において,実験データの収集はコストがかかるため,既存データセットの再利用が重要である。
- 研究者は興味のある特性に焦点を当てがちで,データセットが将来の学習タスクに適さない可能性がある。
- 標的特性の性能を維持しつつ,未標的特性の性能低下を防ぎ,データセットの有用性を高める。
- 多様性を考慮したデータセット構築により,未標的特性の予測性能がランダムサンプリングと比較して最大10%向上した。
- 標的特性に関しても,多様性を考慮することでランダムサンプリングを上回る最大25%の性能向上が確認された。
- 本手法は,考慮された特性と未考慮の特性の両方において,データセットの広範な情報性を維持し,その後のモデリングと発見キャンペーンにおけるバイアスを軽減する。
