arXiv雑要約
AI - 2025/10/14 公開
Combo-Gait: マルチモーダル歩行認識と属性分析のための統一Transformerフレームワーク [cs.CV, cs.AI, cs.LG]目的:マルチモーダル歩行認識と人間属性推定の同時実行
- 歩行は遠距離からの個人識別における重要な生体認証技術である。セキュリティや監視への応用が期待される。
- 単一の表現形式(2Dまたは3D)では,歩行パターンの複雑な幾何学的・動的特徴を捉えきれないという課題がある。
- 2Dと3Dの歩行情報を統合し,よりロバストな分析と高精度な属性推定を実現することを目指す。
- 提案手法は,大規模歩行データセットにおいて最先端の手法を上回り,歩行認識性能を向上させた。
- 年齢,BMI,性別などの人間属性推定においても高い精度を示し,実用的な可能性を提示した。
- マルチモーダル・マルチタスク学習が,歩行に基づく人間理解を深める上で有効であることが示された。
ソフトマックス ≥ 線形:Transformer はカーネル勾配降下法により文脈内で分類を学習する可能性 [cs.LG]目的:Transformer における文脈内学習の学習アルゴリズムの解明
- Transformer は高度な自然言語処理能力を示し,AI研究において中心的役割を担っている。
- 文脈内学習の理論的理解は十分ではなく,特に離散的かつ複雑なタスクにおける学習メカニズムが不明である。
- ソフトマックス活性化関数を用いた分類タスクにおける文脈内学習の勾配降下法による学習メカニズムを明らかにする。
- Transformer は文脈内で勾配降下法を用いて学習することが明らかになった。
- 学習はカーネル特徴空間上の関数に対して行われ,ソフトマックスTransformer では文脈適応学習率が用いられる。
- ソフトマックスアテンションは文脈への適応性が高く,実験的に検証された。
人間らしい読み方で画像を読み取るための検索フレームワーク:MLLMの生成能力向上 [cs.CV, cs.AI]目的:画像に対する人間らしい読み取りを行う検索フレームワークの制御
- MLLMは画像とテキストの情報を統合し,高度な質問応答を可能にする重要な技術である。
- 既存のMLLMは,視覚的な詳細な情報を捉えきれず,幻覚を起こしやすいという課題がある。
- 人間らしい視覚情報の処理に基づいた検索・生成フレームワークを開発し,幻覚を抑制すること。
- 提案手法HuLiRAGは,「何を」「どこで」「再重み付け」という段階的な処理を行うことで,視覚的な根拠に基づいた推論を可能にする。
- HuLiRAGは,空間情報を活用したファインチューニングにより,生成時に空間的制約を課し,回答の信頼性を高める。
- 実験の結果,HuLiRAGは,既存手法と比較して,視覚的な根拠の正確性,事実の一貫性,および幻覚の抑制において優れた性能を示した。
効率的なCTRモデルのスケーリングに向けた階層型LoRA MoE [cs.LG, cs.AI, cs.IR]目的:CTRモデルのスケーリングにおける効率性と性能の向上
- 推薦システムの精度向上には,高度なCTR予測が不可欠である。
- モデルのスケーリングには計算コストが伴い,効率的な手法が求められている。
- 階層構造とパラメータ効率の良いMoEによるスケーリングを実現する。
- 提案手法HiLoMoEは,パラメータ効率の良いLoRAと階層型MoEを組み合わせている。
- HiLoMoEは,従来のモデルと比較して,AUCが平均0.20%向上し,FLOPsは18.5%削減された。
- 各層が並列実行可能なルーティング機構により,効率的な計算を実現している。
特徴類似性のラプラシアングラフを用いた多タスク学習によるアルツハイマー病の進行予測 [cs.LG, cs.AI]目的:アルツハイマー病の進行予測
- 高齢化社会においてアルツハイマー病は患者が増加しており,医療への負担が大きくなっている。
- 既存の多タスク学習フレームワークは,特徴量の相関が時間とともに変化することを考慮していない。
- 時間変化する特徴量の相関を明示的にモデル化することで,予測精度と解釈性を向上させる。
- 提案手法MTL-FSLは,ADNIデータセットにおいて最先端の性能を達成した。
- 特徴類似性のラプラシアンペナルティが,時間とともに変化する特徴量間の関係性を捉える上で有効であることが示された。
- ADMMアルゴリズムを用いることで,提案手法の最適化問題を効率的に解くことができた。
重み付けはレコメンダーシステムにおける行列分解を改善するか? [cs.IR, cs.LG, stat.ML]目的:レコメンダーシステムにおける行列分解の性能向上
- 推薦システムは,現代の情報過多社会において,ユーザーに最適な情報を提供する上で不可欠である。
- 暗黙的なフィードバックデータにおける行列分解では,観測されたインタラクションに重み付けを行うことが一般的だが,その効果は十分に解明されていない。
- 重み付けが必ずしも性能向上に繋がらない場合があることを示し,最適な重み付け戦略を特定すること。
- 大規模モデルにおいては,重み付けを行わない場合でも,重み付けを行う場合と同程度の,あるいはそれ以上の性能が期待できることが示された。
- モデルの容量が小さく,特定の正則化手法を用いる場合には,重み付けが有効である可能性が示唆された。
- これまで計算困難とされていたいくつかの重み付け目的関数を正確に最小化するための効率的なアルゴリズムが開発された。
オーディオLLMは本当に「聞く」のか,それとも単に書き起こすだけなのか? 感情の語彙的 vs 音響的手がかりへの依存度測定 [eess.SY, cs.SY, cs.CL, cs.AI]目的:感情理解における語彙的及び音響的手がかりの依存度
- 音声からの感情理解は,人間と機械のコミュニケーションにおいて不可欠であり,その精度向上が求められている。
- 大規模な音声言語モデルは語彙情報に強く依存し,音響的特徴の利用が不十分である可能性が指摘されている。
- 本研究は,音響情報と語彙情報のどちらに重点を置いているかを明らかにし,より高度な感情理解を目指す。
- 最新の音声言語モデル6つを評価した結果,一貫して語彙への依存性が高いことが示された。
- モデルは,語彙的手がかりが中立または欠如している場合に「中立」と予測し,手がかりの一致による改善は限定的であった。
- 手がかりの競合下では異なる感情を分類できず,パラ言語的設定ではランダムに近いパフォーマンスしか示さなかった。
大規模な逆指導:指数探索とアノテーションの経済学 [cs.LG, cs.AI]目的:大規模な未ラベルデータセットにおけるラベル探索による,小規模なラベルデータセット上の誤差最小化
- 機械学習において,ラベル付きデータの不足は性能向上を阻む大きな要因である。
- ラベル付けはコストと時間がかかるため,大規模なデータセットへの適用が困難である。
- AIによるラベル生成を活用し,人間によるアノテーションコストを削減し,学習を効率化する。
- 指数探索の計算量は依然として指数関数的であり,計算速度の向上だけでは根本的な課題は解決しない。
- 生成AIは,人間が指定した目的,シードスーパービジョン,検証によって品質が担保されれば,ラベルアンプリファイアーとして機能する。
- 人間の初期入力は依然として必要であり,システムを意図したタスクに結び付けるための基盤となる。
未知の力学系を持つ多動物行動のデータ駆動型シミュレータ:オフラインおよびオンライン強化学習によるアプローチ [cs.CL, eess.SY, cs.SY, cs.LG, cs.AI]目的:多動物行動のシミュレーション技術の開発
- 動物行動研究において,シミュレーションは重要な役割を果たす。複雑な行動の理解に不可欠である。
- 現実世界の遷移モデルが不明な場合,シミュレーションの精度が低下する。数学モデルだけでは限界がある。
- 現実の軌跡を再現しつつ,報酬に基づいた最適化を可能にするシミュレータを構築すること。
- 深層強化学習と反実仮想シミュレーションに基づくデータ駆動型シミュレータを提案した。
- 人工エージェント,ハエ,サンショウウオ,カイコを用いて検証し,標準的な模倣学習や強化学習法と比較して,より高い再現性と報酬獲得率を達成した。
- 新規な実験設定における反実仮想行動予測や,柔軟な軌跡生成が可能となり,複雑な多動物行動のシミュレーションと解明への可能性を示唆した。
Traj-CoA:肺がんリスク予測のためのChain-of-Agentsによる患者経過モデリング [cs.CL, cs.CL, cs.AI]目的:患者経過のモデリング
- 医療データは,疾患リスクの予測や個別化医療の実現に不可欠である。
- 電子カルテデータは長文でノイズが多く,時間的な推論が困難である。
- 電子カルテデータのノイズを低減し,時間軸に沿った患者経過を正確に捉えることを目指す。
- Traj-CoAは,複数のエージェントが連携し,電子カルテデータを段階的に処理することで,ノイズを低減し,重要なイベントを抽出する。
- 抽出された情報は共有メモリEHRMemに保存され,最終的なマネージャーエージェントが予測を行う。
- 5年間の電子カルテデータを用いた1年後の肺がんリスク予測において,既存手法を上回る性能を示した。
LLM評価の再考:200分の1のデータ量でLLMを評価できるか [cs.CL, cs.LG]目的:LLM評価におけるデータ量の削減
- LLMの能力評価は重要であり,その需要は増加の一途を辿っている。
- 既存のベンチマークは規模が大きく,効率的な評価が課題となっている。
- ベンチマークの冗長性を解消し,データ量を削減することで評価効率を高める。
- 本研究では,ベンチマークの冗長性を分析し,類似サンプルを削除することで圧縮を実現した。
- 提案手法EssenceBenchは,遺伝的アルゴリズムを用いて効率的にデータ量を削減する。
- HellaSwagベンチマークにおいて,5%以内のランキング変動を維持しつつ,データ量を200分の1に削減することに成功した。
包括的コミュニケーションのための神経記号表意文字メタ言語:NIM [cs.CL, cs.AI]目的:低学歴者向け普遍的なコミュニケーションフレームワーク
- 現代社会において,デジタルコミュニケーションは不可欠であり,情報格差の解消が課題である。
- 学力に差のある人々はデジタルコミュニケーションにおいて障壁に直面し,情報格差を拡大している。
- 学力や言語,文化の壁を超えた,誰もが理解できるコミュニケーション手段を提供する。
- 本研究で開発されたNIMは,80%以上の意味理解度を示すことが確認された。
- NIMは,学習コストが低く,様々な背景を持つ人々への適応性も高い。
- NIMは,教育機会が限られた人々にとって効果的なコミュニケーションツールとなりうる。
マルチエージェントシステムによる堅牢なコード生成のテストと強化 [cs.SE, cs.AI]目的:マルチエージェントシステムによるコード生成の堅牢性評価と改善
- コード生成自動化はソフトウェア開発の効率化に不可欠であり,その重要性は増している。
- 既存のマルチエージェントシステムは性能が向上する一方,現実環境での堅牢性が検証されていない。
- マルチエージェントシステムにおける脆弱性を特定し,その堅牢性を高めるための手法を開発する。
- ファジングテストの結果,主要なマルチエージェントシステムの7.9%-83.3%が,わずかな変更で解決できなくなることが判明した。
- 計画立案エージェントとコーディングエージェント間のコミュニケーション不足が,堅牢性の問題の主要な原因であることが明らかになった。
- マルチプロンプト生成と監視エージェントの導入による修復手法は,特定された問題の40.0%-88.9%を解決し,堅牢性を大幅に向上させた。
MedCoAct:信頼度を考慮した臨床意思決定のためのマルチエージェント協調 [cs.AI]目的:臨床意思決定におけるマルチエージェント協調の実現
- 医療現場では,診断と投薬決定を連携させるチーム医療が重要である。
- 既存の医療AIは単独でタスクを処理し,臨床チームの相互検証や知識統合が不足している。
- AIによるチーム医療を模倣し,診断と治療のワークフローを改善すること。
- 提案手法MedCoActは,診断精度と投薬推奨精度において,単一エージェントの枠組みをそれぞれ7.04%,7.08%上回る67.58%を達成した。
- この協調的アプローチは,遠隔医療や日常臨床など多様な医療分野で有効であることが示された。
- 意思決定の過程が解釈可能である点が特徴である。
意見の不一致から学ぶ:堅牢な医用画像セグメンテーションのためのグループ意思決定シミュレーションフレームワーク [cs.CV, cs.AI]目的:医用画像セグメンテーションにおけるグループ意思決定シミュレーションフレームワーク
- 医用画像解析は,診断精度向上に不可欠であり,臨床応用への期待が高い分野である。
- 専門家間での意見の相違が大きく,単純な平均化では不確実性を考慮できないという課題がある。
- 専門家の意見の不一致を有効活用し,より堅牢で信頼性の高いAIシステムを構築することを目指す。
- 提案手法は,CBCTデータセットにおいて最先端の性能(Diceスコア92.11%)を達成した。
- MRIデータセットにおいても高い性能(Diceスコア90.72%)を示し,有効性が確認された。
- 専門家の意見の不一致を有益な信号として捉えることで,医療AIシステムの信頼性向上に貢献する。
LightSAE:IoT多変量時系列予測のためのパラメータ効率的かつ異質性を考慮した埋め込み [cs.LG, cs.AI]目的:IoT多変量時系列データの予測精度向上
- IoT機器の普及により,多変量時系列データが大量に生成され,その予測は様々な応用において重要である。
- 既存手法は全てのチャネルを同一に処理する共有埋め込み層を使用しており,チャネル固有の情報が失われるという課題がある。
- チャネル固有のパターンと共通パターンを分離し,効率的な埋め込み表現を学習することで,予測精度を向上させる。
- 提案手法LightSAEは,共有基盤とチャネル固有の補助成分に埋め込みを分解することで,パラメータ効率と予測精度を両立している。
- 補助成分は低ランク性とクラスタリング特性を示し,LightSAEはこの構造的パターンを活用している。
- 9つのIoT関連データセットと4つのバックボーンアーキテクチャにおいて,MSEを最大22.8%改善し,パラメータ増加はわずか4.0%であった。
AnyBCQ:マルチ精度LLMのための効率的な柔軟な二値符号化量子化 [cs.LG, cs.AI]目的:マルチ精度LLMの効率的な展開
- 大規模言語モデルの利用拡大に伴い,メモリとレイテンシが課題となっている。
- 精度と効率のバランスを柔軟に調整する量子化技術の必要性が高まっている。
- AnyBCQは,ハードウェア効率を重視し,多様な精度要件に対応する。
- AnyBCQは,二値符号化量子化を拡張し,ビットプレーンレベルでの直接演算を可能にする。
- 低ビット数(例:2ビット)での精度低下を抑制し,高い精度でも競争力のある性能を示す。
- 半精度と比較して最大3.0倍,最先端のマルチ精度手法と比較して1.2倍のスループット向上を達成する。
DAGLFNet:深層注意誘導型グローバル・ローカル特徴融合による疑似画像点群セグメンテーション [cs.RO, cs.SY, eess.SY, cs.CV, cs.LG]目的:疑似画像点群セグメンテーションのための深層学習フレームワーク
- 高精度マッピングや自律走行において,環境認識は不可欠であり,LiDARは重要な役割を担う。
- 点群データの構造的・意味的情報を効率的に抽出することが課題であり,既存手法では特徴融合が不十分な場合がある。
- 点群の構造と意味を考慮し,特徴融合と識別能力を向上させることでセグメンテーション精度を高める。
- DAGLFNetは,SemanticKITTIの検証セットで69.83%,nuScenesで78.65%の精度を達成した。
- グローバル・ローカル特徴融合モジュールにより,点群の局所特徴間の相関と大域的な文脈情報を強化した。
- 深層特徴誘導型注意機構により,チャンネル間特徴融合の精度を向上させ,リアルタイム性能と高精度を両立した。
FML-bench:探索の幅の重要性を示す自動機械学習研究エージェントのベンチマーク [cs.CL, cs.AI]目的:自動機械学習研究エージェントの評価基準
- 機械学習研究の自動化は,科学的進歩を加速する上で重要である。
- 既存のベンチマークは,エンジニアリングに偏り,科学的能力の評価が困難である。
- 多様な問題設定で,エージェントの科学的探求能力を評価すること。
- FML-benchは,8つの多様な機械学習研究問題に対応したベンチマークである。
- 幅広い探索戦略を用いるエージェントは,狭く深い探索に焦点を当てるエージェントよりも良い結果を示した。
- 探索の幅を重視することが,より効果的な研究成果につながる可能性が示唆された。
構造化された医療指示抽出のための大規模言語モデルの評価 [cs.CL, cs.CY, cs.CL, cs.AI]目的:医療指示の構造化抽出
- 医療現場における情報活用を促進し,意思決定支援や業務効率化に貢献する重要な課題である。
- 医療指示は多様な形式で記録され,その抽出・構造化は困難を伴う。
- 大規模言語モデルを用いた医療指示抽出の基盤確立を目指す。
- 汎用的なLLaMA-4 17Bモデルと,わずかな例を用いたプロンプトエンジニアリングで良好な結果を得た。
- MEDIQA-OE 2025共有タスクにおいて,17チーム中5位の成績を収めた(F1スコア37.76)。
- 特に,指示理由と由来の精度向上に貢献した。
アンカーに基づく最大不一致法による相対的類似性検定 [cs.LG]目的:分布PおよびQがアンカー分布Uにどれだけ近いかを判定する手法
- 分布間の類似性評価は,機械学習や統計学において重要な役割を担う。
- 既存のカーネル法では,仮説を事前に固定する必要があり,適切なカーネル選択が困難である。
- 仮説とカーネルを同時に学習することで,カーネル選択の問題を解決することを目的とする。
- 提案手法AMDは,アンカー分布からの距離の不一致を最大化することで相対的類似性を定義する。
- AMDに基づき,深層カーネル空間における不一致を推定し,仮説を推論する2段階の検定を行う。
- 理論的な検証とベンチマークデータセットを用いた実験により,提案手法の有効性が確認された。
交差ドメインタンパク質結合体の潜在的検索拡張生成 [cs.LG, cs.AI]目的:交差ドメインタンパク質結合体の設計
- 創薬において,特定の部位を標的とするタンパク質結合子設計は不可欠であり,その実現には現実的かつ機能的な相互作用パターンの生成が求められる。
- 既存の構造ベース生成モデルは,合理性と解釈可能性を備えたインターフェース生成に限界がある。
- 既知のインターフェースを活用し,新規結合子設計を誘導することで,この課題を解決することを目指す。
- RADiAnceは,結合親和性,形状,相互作用の再現性といった複数の指標において,ベースラインモデルを大きく上回る性能を示した。
- 異なるドメイン(ペプチド,抗体,タンパク質フラグメント等)からのインターフェース検索が,他のドメインにおける結合子生成性能を向上させることを実験的に検証した。
- 本研究は,検索ベースの知識と生成AIを架橋する新たなタンパク質結合子設計パラダイムを確立し,創薬の可能性を広げる。
拡散大規模言語モデルのコンテキスト長を128Kへ:UltraLLaDA [cs.CL, cs.AI]目的:拡散大規模言語モデルのコンテキスト長拡張手法の開発
- 大規模言語モデルは多様な分野で応用が期待され,その性能向上が重要視されている。
- 拡散大規模言語モデルの長文コンテキストにおける挙動は未解明な点が多かった。
- 追加学習なしで拡散大規模言語モデルのコンテキスト長を効率的に拡張すること。
- 本研究では,RoPE(回転位置埋め込み)の改良により,拡散過程の確率的モデリングに適応し,安定した長文コンテキストへの拡張を実現した。
- マスク戦略の比較検討から,最適化の安定性と長距離の想起能力に与える影響を分析した。
- UltraLLaDAは128Kトークンのコンテキスト長を持ち,長文コンテキストタスクにおいて既存手法を大幅に上回る性能を示した。
勾配強化型自己教師あり物理情報ニューラルネットワーク(gST-PINN)による非線形偏微分方程式の解法 [cs.LG, physics.comp-ph]目的:非線形偏微分方程式の解法
- 物理科学や工学の複雑な現象をシミュレーションする上で,偏微分方程式は数学的基礎として不可欠である。
- 従来のPINNは,精度,学習速度,ラベル付きデータ不足,多物理現象の扱いに課題がある。
- 本研究は,PINNの課題を克服し,精度向上と汎化性能の向上を目指す。
- 提案手法gST-PINNは,Burgers方程式においてMSEを10⁻⁵オーダーまで低減し,従来のPINNを凌駕した。
- 拡散・吸着方程式においてもgST-PINNは,反復回数増加に伴いMSEが減少し続け,高い精度を示した。
- ラベル付きデータが不足する状況下でも,gST-PINNは標準的なPINNよりも優れた性能を発揮することが示された。
SASER:オープンソースLLMに対する隠蔽攻撃 [cs.PF, cs.CR, cs.AI]目的:オープンソースLLMに対する隠蔽攻撃の体系的な定式化と,その実現
- オープンソースLLMは,その透明性から広く利用されているが,その安全性は十分に検証されていない。
- オープンソースLLMは,ソースコードやパラメータが公開されているため,悪意のある攻撃者に悪用されるリスクがある。
- 本研究は,オープンソースLLMに対する新たな隠蔽攻撃手法を提案し,その有効性と対策の必要性を訴える。
- 提案手法SASERは,既存の隠蔽攻撃手法と比較して,ステルス性を大幅に向上させ,攻撃成功率を100%に維持する。
- 特に,量子化されたモデルにおいては,攻撃成功率を0%から100%に改善し,実用的な脅威となることを示す。
- SASERは,モデルの性能劣化を最小限に抑えつつ,攻撃を成功させるためのパラメータ選択メカニズムを備えている。
視覚言語モデルの三角整合性に基づく自己洗練 [cs.CV, cs.AI]目的:視覚言語モデルの自己洗練能力の検証
- 視覚と言語の統合は,AIの高度な理解と推論能力を実現する上で不可欠である。
- 教師ありデータへの依存度が高く,教師なし学習による潜在能力が十分に活用されていない。
- 視覚言語モデルが外部からの入力なしに,自己で高品質な学習データ生成と改善を可能にする。
- 提案手法は,三角整合性という原理に基づき,モデル自身が指示生成とデータフィルタリングを行うことで,自己洗練を実現する。
- LLaVA-1.5を用いた実験により,外部の教師データなしで,複数のベンチマークにおいて一貫した性能向上が確認された。
- この研究は,視覚言語モデルの学習メカニズムに関する新たな知見をもたらし,今後の研究を促進することが期待される。
LLM生成JavaScriptの隠れたDNA:構造的パターンによる高精度な著作者特定 [cs.CL, cs.CR, cs.LG]目的:大規模言語モデル(LLM)が生成したJavaScriptコードの著作者特定
- AI生成コードが急速に普及し,脆弱性検出や悪意のあるコンテンツの特定,説明責任の確保が重要になっている。
- AI生成コードの著者を特定する手法が確立されておらず,AIを単一のカテゴリとして扱う研究が多い。
- LLM個体が持つ独自のスタイル特性を捉え,高精度な著作者特定を実現すること。
- LLM-NodeJSという5万件のNode.jsプログラムからなるデータセットを構築し,20種類のLLMによるコード生成の特徴を分析した。
- CodeT5-JSAというカスタムモデルを開発し,5クラス,10クラス,20クラスの著作者特定において,95.8%,94.6%,88.5%という高い精度を達成した。
- 分類器はコードの表面的な特徴だけでなく,プログラムのデータフローや構造における深いスタイル規則を捉えていることが示された。
痕跡の追跡:効率的かつ正確な推論のための潜在的時間信号 [cs.AI]目的:推論時の成功可能性の高い経路の特定
- 複雑な問題解決において,推論能力の向上が不可欠であるため。
- 推論過程における計算資源の浪費と非効率性が課題となっている。
- 潜在的時間信号を用いて,計算効率と精度を改善すること。
- 潜在的軌跡信号は,レイヤー間メトリクスや出力に基づく信頼度よりも,解答の正確性をより確実に予測できることが示された。
- テスト時スケーリングにおいて,潜在的軌跡信号は多数決よりも効果的かつ効率的であり,トークン使用量を最大70%削減しつつ,精度を維持または2.6%向上させた。
- これらの予測信号は,推論過程の初期段階で出現することが多く,有望な候補の早期選択と計算資源の割り当てを可能にする。
アスリート中心型コーチングのための個別化動作ガイダンスフレームワーク [cs.HC, cs.AI]目的:アスリート個々の運動パターンに合わせた個別化された動作改善ガイダンスの生成
- スポーツ科学において,集団レベルの知見と,個々の選手に最適化されたコーチングとの乖離が課題である
- 選手の多様な運動パターンに対応した,個別化された効果的なガイダンス手法が不足している
- 生成AIを用いて,選手のパフォーマンス向上に繋がる個別化された動作改善ガイダンスを提供すること
- PMGFは,異なる選手間の動作パターンを滑らかに遷移させることに成功した。
- PMGFによる操作で変化した特徴量は,球速向上と関連するストライド長や膝関節の伸展など,パフォーマンス向上に寄与する特性を示した。
- 本研究は,より現実的で多様なスポーツに対応可能なgeneral-PMGFの拡張を提案する。
Align2Act:人間らしさに合致した自律運転のための命令チューニングモデル [cs.LG, cs.AI, cs.RO]目的:人間らしい運転行動と整合した自律運転計画手法の開発
- 複雑な環境下での経路計画は,自律運転の実現における重要な課題である。
- 既存手法では,人間特有の運転判断を十分に捉えられていないという課題がある。
- 大規模言語モデルを用いて,人間らしい運転行動を反映した安全な経路計画を可能にする。
- 本研究で提案するAlign2Actは,命令チューニングされた大規模言語モデルを解釈可能な計画立案者へと変換する。
- 人間が持つ推論パターンや交通ルールに基づいた構造化された運転指示を用いることで,安全な経路を生成する。
- nuPlanデータセットを用いた実験により,既存手法と比較して計画品質と人間らしさにおいて優れた性能が確認された。
MARS-Sep:マルチモーダルアラインメント強化学習による音源分離 [cs.SD, cs.AI]目的:マルチモーダルアラインメント強化学習フレームワークMARS-Sep
- 音源分離は,音声認識やコミュニケーションにおいて重要な技術であり,実用性が高い。
- 従来の音源分離は,信号レベルの評価指標と知覚的な品質との間に乖離が生じやすい。
- 知覚的に妥当な音源分離を実現するため,マルチモーダル報酬を用いた強化学習を適用する。
- MARS-Sepは,音源分離を意思決定問題として再定義し,強化学習フレームワークを導入した。
- 提示された実験結果から,テキスト,音声,画像を用いたクエリ分離において,性能が向上することが示された。
- マルチモーダル報酬により,意味的な一貫性を高め,信号レベルの評価指標と知覚的な品質のバランスを取ることができた。
f-INE:学習のランダム性を考慮した影響度推定の仮説検定フレームワーク [cs.LG, cs.AI]目的:機械学習モデルに対する個々のサンプルの影響度の推定
- 機械学習モデルの解釈可能性やデバッグは,モデルの信頼性と改善に不可欠である。
- 既存の影響度推定手法は学習のランダム性の影響を受けやすく,結果の安定性に課題がある。
- 学習のランダム性を考慮し,信頼性の高い影響度推定を可能にすること。
- 本研究では,仮説検定に基づいた新たな影響度推定フレームワークf-influenceを提案した。
- f-INEは単一の学習実行でf-influenceを効率的に計算するアルゴリズムである。
- Llama-3.1-8Bを用いた実験で,f-INEが有害なサンプルを検出し,モデルの挙動を説明できることを示した。
臨床テーブルデータセットのための,事後キャリブレーションを用いたハイブリッド機械学習アプローチによる合成データ生成 [cs.IR, cs.LG]目的:臨床テーブルデータセットにおける高品質な合成データ生成手法
- 医療分野では,データ不足と厳格なプライバシー規制が課題であり,AI開発の遅延を招いている。
- 既存の合成データ生成手法では,実データとの分布の乖離やプライバシー保護の不足が問題となっている。
- 本研究は,実データに匹敵する高品質かつプライバシー保護された合成データを生成することを目的とする。
- 提案手法は,ノイズ注入,補間,GMMサンプリング,CVAEサンプリング,SMOTE等の複数の拡張手法を組み合わせたハイブリッドなフレームワークである。
- キャリブレーション技術により,周辺分布の一致度を高め,特徴量間の依存関係を維持することで,実データとの分布の乖離を最小限に抑えることができた。
- 合成データで訓練した分類器は,最大94%の精度と93%以上のF1スコアを達成し,実データで訓練したモデルと同等の性能を示した。
高次元ロボット制御のための集団符号化スパイクニューラルネットワーク [cs.RO, cs.AI, cs.LG]目的:高次元ロボット制御におけるエネルギー効率と高性能な動作制御
- ロボット工学において,エネルギー効率と高性能な動作制御は,特に限られたオンボード資源での高次元連続制御タスクにおいて重要な課題である。
- 深層強化学習は目覚ましい成果を上げてきたが,計算量と消費電力の大きさは,リソース制約のある環境での展開を妨げる。
- 集団符号化スパイクニューラルネットワークと深層強化学習を組み合わせることで,これらの課題を克服し,エネルギー効率と制御性能のバランスを実現することを目指す。
- 提案手法であるPopulation-coded Spiking Actor Network(PopSAN)は,高次元の観測データをニューロン集団活動に符号化し,勾配ベースの更新による最適な方策学習を可能にする。
- Frankaロボットアームを用いた実験により,従来の人工ニューラルネットワークと比較して最大96.10%の省エネルギー化を達成し,同等の制御性能を維持できることが示された。
- 学習されたスパイクニューラルネットワークの方策は,指令された軌道からの偏差を最小限に抑えたロバストな指の位置追跡と,ピッキング&プレース操作中の安定した目標高さ維持を実現した。
ECO:コード大規模言語モデルの性能向上を目指した性能を意識したプロンプトによるコード最適化 [cs.PL, cs.AI, cs.SE]目的:コード大規模言語モデルによるコード最適化能力の向上
- コードの実行時間最適化は,アルゴリズムや構造選択に関する性能トレードオフの理解が必要であり,重要な課題である。
- 従来のコードペアを用いた方法は,性能向上要因が不明瞭で,表面的な模倣に陥りやすいという問題点がある。
- 性能を意識したプロンプトを通じて,コード大規模言語モデルに具体的な最適化ガイダンスを提供し,効率的なコード生成を促す。
- ECOは,遅いコードと速いコードのペアから,非効率性の根本原因と改善理由を記述したランタイム最適化指示(ROI)を抽出する。
- 入力コードに対し,ボトルネック診断を行うシンボリックアドバイザーと,関連するROIを検索するROIリトリーバーを並行して利用し,性能を意識したプロンプトを生成する。
- 実験の結果,ECOによるプロンプトは,コード大規模言語モデルのコード生成効率を大幅に改善し,最大7.81倍の高速化を達成した。
LLMにおける効率的な推論を,ブラックボックス敵対的プロンプティングにより実現 [cs.CL, cs.LG]目的:大規模言語モデルにおける過剰な思考を抑制し,効率性を高める手法
- 複雑な推論タスクにおいて,大規模言語モデルは高い性能を示す。実用化には計算コストと遅延の削減が不可欠である。
- 大規模言語モデルの段階的な思考プロセスは計算資源を大量に消費し,実用上の展開を妨げるという課題がある。
- ブラックボックス敵対的プロンプティングにより,精度を損なわずに簡潔な応答を引き出すことを目指す。
- AdvPromptは,様々なベンチマークにおいてトークン使用量を一貫して削減しつつ,性能を維持することを示した。
- Qwen3モデル系列において,簡単なGSM8K問題で平均応答長を3倍削減し,4つのベンチマークで平均約40%のトークン削減を実現した。
- Claude-3.7とGemini-2.5といったクローズドソースAPIにおいても,MATH-500問題でそれぞれ35%,47%のトークン削減を達成した。
継続的ドメイン適応のための強化学習によるドメイン選択 [cs.LG]目的:継続的ドメイン適応におけるドメイン選択の最適化
- 現実世界のデータ分布は変化しやすく,ドメイン適応技術は機械学習の汎化性能向上に不可欠である。
- 中間ドメインのメタデータがない場合,効果的なドメイン選択が困難であり,適応性能が低下する。
- 強化学習と特徴分離を用いて,教師なし環境下で最適なドメインパスを自動的に選択することを目指す。
- 提案手法は,潜在的なドメイン埋め込み間の距離を利用した新しい教師なし報酬メカニズムを導入し,最適な転送パスの特定を可能にした。
- 特徴分離により,ドメイン固有の特徴を用いた報酬計算と,ドメイン不変特徴の適応を促進することで,ドメイン適応の効率を向上させた。
- Rotated MNISTおよびADNIデータセットにおける実験により,予測精度とドメイン選択効率の両方において,従来手法を上回る性能が示された。
欠損率の不均衡下におけるモダリティの取り扱いに関する汎用的なフレームワーク:MCE [cs.CV, cs.LG, cs.MM]目的:不均衡な欠損率下におけるモダリティの取り扱い
- マルチモーダル学習は多様なパターン認識応用に進展しているが,欠損モダリティへの対応は課題である。
- 欠損率の高いモダリティは学習が進まず,表現力が低下し,貢献度が減少するという悪循環に陥りがちである。
- モダリティの有用性のサンプルレベルでの変動や,特徴量の質の低下といった問題を解決する。
- MCEは,マルチレベルの因子を導入し,モダリティごとの学習進捗を動的に調整する学習能力向上(LCE)と,部分集合予測とクロスモーダル補完タスクを通じて特徴量の意味と堅牢性を向上させる表現能力向上(RCE)の2つの相乗効果的なコンポーネントを含む。
- 4つのマルチモーダルベンチマークにおける包括的な評価により,MCEは様々な欠損構成下で最先端の方法を一貫して上回ることが示された。
- 本研究のコードは公開されており,論文のプレプリント版も利用可能である。
RL評価の再考:ベンチマークはRL手法の失敗を真に明らかにできるか [cs.LG, cs.AI]目的:強化学習手法の評価におけるベンチマークの信頼性に関する検討
- LLMへのRL適用は,LLMの能力を向上させる鍵となり得る分野である。
- 既存のベンチマークは,手法の進歩を正確に反映していない可能性がある。
- より信頼性の高いベンチマーク設計の原則を提示し,汎化性能評価の改善を目指す。
- 現在のベンチマークでは,訓練データで学習した場合とテストデータで学習した場合の性能差が小さく,進歩を区別できない。
- 既存のRL手法は,分布シフト,難易度変化,反実仮想的な状況への対応で課題を抱えており,ベンチマークでは評価できない。
- 信頼性の高いベンチマークには,十分な難易度,バランスの取れた評価,分布の頑健性が必要である。
PAC-ベイズ強化学習による汎化性能の高い方策の学習 [cs.LG, cs.AI, stat.ML]目的:強化学習における汎化性能の理論的保証
- 強化学習は,ロボット制御など多様な分野に応用が期待される重要な技術である。
- 従来の汎化性能保証は,データの独立性を仮定しており,強化学習のような系列データには適用が困難であった。
- マルコフ連鎖の混合時間に着目し,データの依存性を考慮した汎化性能保証を与えることを目指す。
- 本研究で導出したPAC-ベイズ汎化性能保証は,オフポリシーアルゴリズムに適用可能である。
- 提案手法PB-SACは,学習中に汎化性能保証を最適化することで,探索を促進する。
- 連続制御タスクにおいて,PB-SACは競合性能を維持しつつ,信頼性のある性能保証を提供する。
GLOFNet:GLOFモニタリングと予測のためのマルチモーダルデータセット [cs.RO, cs.SY, eess.SY, cs.CV, cs.AI]目的:GLOFモニタリングと予測のためのマルチモーダルデータセット
- 高山地域におけるGLOFは甚大な被害をもたらすため,その予測研究は重要である。
- 既存研究は事後的なマッピングに偏っており,予測に必要な多角的なデータ統合が不足している。
- 視覚的指標と物理的前兆を組み合わせた調和のとれたデータセットを提供し,予測精度向上を目指す。
- GLOFNetは,Sentinel-2画像,NASA ITS_LIVE速度データ,MODIS LSTデータを統合した。
- 過去20年以上のデータを用いて,季節的な氷河速度サイクルや約0.8K/decadeの長期的な温暖化が確認された。
- データセットは公開されており,マルチモーダル深層学習による希少災害予測研究のベンチマークとして活用可能である。
ELAIPBench:専門家レベルのAI論文理解のためのベンチマーク [cs.AI]目的:AI研究論文の理解度評価
- AI技術の発展に伴い,研究論文の効率的な理解が重要となっている。
- 既存のベンチマークは,論文の深い理解や推論能力を十分に評価できていない。
- AI論文の理解度をより正確に評価できるベンチマークの構築を試みる。
- ELAIPBenchは,専門家が作成したAI研究論文の理解度を測るベンチマークである。
- 最先端のLLMでも,人間のパフォーマンスには及ばず,正答率は約40%にとどまる。
- 思考モードやRAGシステムを導入しても,必ずしも性能向上には繋がらず,場合によっては精度が低下する。
ウェアラブルセンサを用いたパーキンソン病評価のための多スケール周波数認識敵対的ネットワーク [cs.IR, cs.LG]目的:パーキンソン病の重症度評価手法
- パーキンソン病は高齢化社会において患者が増加しており,客観的な評価方法が求められている。
- 従来の時系列モデルでは,パーキンソン病特有の微細な信号を捉えきれない場合がある。
- 症状の希薄性により,重要な特徴が埋没しやすく,正確な重症度評価が困難である。
- 提案手法MFAMは,医療知識に基づいた周波数分解モジュールにより,特徴の特異性を向上させている。
- アテンション機構を用いた多インスタンス学習により,診断に有用な希薄なセグメントに焦点を当てている。
- 公開データセットとプライベートデータセットの両方で,MFAMは既存手法を上回り,パーキンソン病の重症度評価の自動化に貢献する可能性を示した。
BitMar:エピソード記憶を用いた低ビットマルチモーダル融合によるエッジデバイス向けモデル [cs.CL, cs.AI, cs.CV]目的:エッジデバイスにおける効率的な画像テキスト生成
- マルチモーダルモデルは画像とテキストの理解に優れるが,計算コストが高い。
- 大規模モデルの推論は,リソース制約のあるエッジデバイスでは困難である。
- 低ビット量子化とエピソード記憶を活用し,エッジデバイスでの実用化を目指す。
- BitMarは,テキストと画像のエンコーダにそれぞれ1.58ビットの量子化を用いることで,コンパクトな埋め込み表現を実現した。
- 固定サイズのキーバリュー型エピソード記憶をクエリすることで,限られたリソース下で効果的な画像テキスト生成を可能にした。
- レイヤーごとの条件付けとスライディングウィンドウ型アテンション機構により,高品質かつ低遅延な性能を両立した。
学習されたタスク間の関係を用いたマルチタスク学習 [cs.LG, cs.DC, cs.MA]目的:分散学習におけるタスク間の関係性の学習
- データの偏りが存在する分散環境下での効率的な学習が重要視されている。
- 従来の合意形成に基づく手法は,データやタスクの異質性により性能が低下する。
- タスク間の関係性を学習することで,より柔軟かつ効果的な分散学習を実現する。
- タスク間の関係性をガウスマルコフ確率場としてモデル化する新しいフレームワークを提案した。
- このフレームワークは,タスク関係性とローカルモデルを同時に学習し,自己組織化を可能にする。
- 理論的解析により,学習された関係性の質が定量的に評価され,数値実験で実用的な有効性が示された。
教師あり目的関数による自己教師ありコントラスト学習の理解 [cs.LG]目的:自己教師あり表現学習の理論的理解
- 表現学習は,画像認識など多くの分野で性能向上に不可欠である。
- 自己教師あり学習は成功を収めるものの,その理論的基盤は未解明な点が多い。
- 自己教師あり学習の原理を明らかにし,性能改善に貢献すること。
- 自己教師あり学習を教師あり学習の近似として捉えることで,InfoNCEなどのコントラスト損失の理論的根拠が明らかになった。
- プロトタイプ表現バイアスやバランスの取れたコントラスト損失といった概念が導入され,自己教師あり学習の挙動説明と改善に役立つ。
- 正負ペア間の相互作用のバランス調整が重要であることが実験的に示された。
一貫性正則化と類似度学習に基づく深層半教師あり学習による雑草分類 [cs.CV, cs.LG]目的:雑草分類のための深層半教師あり学習手法
- 精密農業の発展には,雑草の正確な識別が不可欠であり,収量損失の抑制に貢献する。
- 雑草と作物の外観の類似性や環境条件の変化により,雑草の識別は困難な課題である。
- ラベル付きデータの不足を補い,ロバストで高性能な分類を実現することを目的とする。
- 提案手法は,DeepWeedsデータセットを用いた実験とノイズ条件下での推論により,最先端の完全教師あり深層学習モデルと比較して有効性とロバスト性が実証された。
- 一貫性正則化と類似度学習を組み合わせた深層オートエンコーダアーキテクチャが,ラベルなしデータの活用に貢献する。
- 提案手法の共同学習戦略に関する詳細な分析のために,アブレーションスタディを実施した。
構成的対称性:圧縮としてのアルゴリズム的エージェントにおける擬群構造 [cs.LG, cs.AI, cs.IT, math.IT, q-bio.NC]目的:アルゴリズム的エージェントにおける構成的対称性に基づく圧縮の枠組み
- 知覚情報の効率的な処理は,人工知能やロボティクスにおける重要な課題である。
- 既存の手法では,複雑な知覚データを効率的に表現・圧縮することが困難である。
- 低次元多様体上の作用を通じて,知覚データの構造的制約と力学的制約を明らかにする。
- エージェントの構成方程式と読み出しは,対称性に対して不変性を持つ構造的制約を受ける。
- 静的な入力下では,対称性により保存量が誘導され,軌跡は低次元不変多様体に限定される。
- この枠組みは,深層モデルにおける構成性の利点を幾何学的に説明し,予測符号化の新しい定式化を提供する。
階層的直感 - LLM推論のためのスコープ拡張モデル [cs.CY, cs.AI, cs.CL]目的:LLMの推論能力向上のための,直感・手法の階層モデルとスコープ拡張
- LLMの性能向上は,現実世界の問題解決において不可欠である。
- 既存手法では,未知の問題への適応性と汎用性に課題が残る。
- 時間的・空間的な拡張を含む,より体系的な推論能力の獲得を目指す。
- 本研究では,直感と手法を組み合わせた階層モデルを提案し,LLMの推論能力を体系的に向上させた。
- スコープ拡張により,原因分析や問題の一般化に加え,時間・空間的推論も可能にした。
- 手法拡張のエントロピーという指標を導入し,未知の問題解決能力を定量的に評価する枠組みを構築した。
ランダム順列集合の距離尺度:第2層信念構造の視点から [cs.AI, cs.IT, math.IT]目的:ランダム順列集合間の距離の測定
- 不確実な情報を扱う上での順序構造の表現が重要視されている。
- ランダム順列集合理論における順列質量関数の距離測定は未解決の課題である。
- 累積ジャカード指数の行列に基づき,新たな距離尺度を提案し,その特性を評価する。
- 提案手法は既存手法の欠点を克服し,Jousselme距離と両立する。
- 累積ジャカード指数行列の正定値性分析と補正スキームを提示した。
- 順位の高い要素間の不一致は,より大きな距離値をもたらす傾向がある。