arXiv雑要約
AI - 2025/10/13 公開
ストリーミングVLM:無限ビデオストリームのリアルタイム理解 [cs.CV, cs.AI, cs.CL]目的:無限ビデオストリームのリアルタイムかつ安定的な理解
- ビジョン言語モデルはリアルタイムアシスタントや自律エージェントの基盤となり得るが,計算資源が課題である。
- 従来のVLMは,長い動画を処理する際に計算コストが増大し,遅延が発生しやすい。
- 効率的な状態再利用により,リアルタイムかつ安定的な動画理解を実現する。
- StreamingVLMは,アテンションシンクの状態再利用により,コンパクトなKVキャッシュを維持する。
- Inf-Streams-Evalベンチマークにおいて,GPT-4O miniに対して66.18%の勝率を達成し,最大8FPSで安定したリアルタイム性能を示した。
- 短いオーバーラップ動画チャンクに対するSFT戦略は,VQA能力も向上させ,LongVideoBenchで+4.30,OVOBench Realtimeで+5.96の改善が見られた。
深層多次元空間クラスタリングネットワーク [cs.LG, cs.AI, cs.CV, stat.ML]目的:多次元空間クラスタリング手法
- 近年,画像やテキストなど複数のモダリティデータを統合的に扱う研究が重要視されている。
- 既存手法では,複数のモダリティ間の関係性を十分に活用できていない場合がある。
- 本研究では,深層学習を用いて多次元空間におけるクラスタリング精度を向上させる。
- 提案手法では,多次元データをエンコーダで潜在空間に変換し,自己表現層で類似度行列を学習する。
- 異なる融合手法(early, late, intermediate)を検討し,空間融合に基づく3種類のエンコーダを提案している。
- 3つのデータセットによる実験の結果,提案手法は既存の最先端手法を大幅に上回る性能を示した。
単一モダリティ動的手話認識の性能を,マルチモーダル学習によって向上させる [cs.CV, cs.AI, cs.HC, cs.LG, stat.ML]目的:単一モダリティ3D畳み込みニューラルネットワークの動的手話認識における性能向上
- 人機インタフェースの発展において,自然な手話認識は重要な役割を担う。
- 既存手法では,マルチモーダル情報を明示的に組み合わせるため,計算コストが高い。
- 異なるモダリティ間の知識を個々のネットワークに埋め込み,単一モダリティでの認識精度向上を目指す。
- 提案手法は,各モダリティのネットワーク間で共通のセマンティクスを学習させ,特徴表現を改善する。
- 新たに「時空間セマンティックアライメント」損失関数と「焦点正則化パラメータ」を導入し,負の知識伝達を抑制。
- 実験結果から,提案手法が単一モダリティネットワークの認識精度を向上させ,最先端の性能を達成することが示された。
深層スパース表現に基づく分類 [cs.CV, cs.AI, cs.LG, stat.ML]目的:スパース表現に基づく分類手法の深層学習化
- 画像認識などの分野で,特徴抽出の重要性が増しており,高性能な特徴表現が求められている。
- 従来のスパース表現に基づく分類法は,特徴表現の学習能力に限界があった。
- 深層学習を用いてロバストな特徴表現を獲得し,分類性能の向上を目指す。
- 提案手法は,畳み込みオートエンコーダと全結合層を組み合わせたネットワーク構成である。
- 実験の結果,提案手法は既存のスパース表現に基づく分類法よりも高い分類性能を達成した。
- 深層特徴表現とスパース表現を組み合わせることで,分類精度が向上することが示された。
注意機構における正規化の限界 [cs.LG, cs.AI, cs.CL]目的:注意機構における正規化の限界の特定
- 近年,自然言語処理において注意機構は重要な役割を果たしており,その理解はモデル改善に不可欠である。
- 注意機構の正規化は学習の安定化に寄与する一方,その影響は十分に解明されていない。
- 本研究は,注意機構における正規化がモデルの選択能力に及ぼす影響を明らかにすることを目指す。
- 本研究では,ソフトマックス正規化下でのトークンベクトルの距離と分離基準に関する理論的な上限を導出した。
- GPT-2を用いた実験により,選択トークン数が増加すると,モデルが有益なトークンを区別する能力が低下し,均一な選択パターンに収束することが示された。
- また,ソフトマックス正規化における勾配の感度は,特に低温設定下で学習の課題を引き起こすことが明らかになった。
PyNoetic:ノンコーディングによる脳波脳コンピュータインタフェース開発のためのモジュール式Pythonフレームワーク [eess.SP, cs.AI, cs.HC, cs.LG, q-bio.NC]目的:脳波(EEG)に基づく脳コンピュータインタフェース(BCI)研究の多様なニーズに対応するモジュール式BCIフレームワーク
- 脳波BCIは,ロボット工学,VR,医療,リハビリなど広範な応用分野を持つ革新的な技術であるため,その重要性が高まっている。
- 既存のBCIフレームワークは,実験研究に必要な段階的な柔軟性,プログラミング未経験の研究者への学習コスト,ソフトウェアの費用が課題となっている。
- 本研究は,プログラミング経験の少ない研究者でもBCIを設計できるように,ノンコーディングによるBCI設計を可能にすることを目指している。
- PyNoeticは,刺激提示からデータ収集,フィルタリング,特徴抽出,アーチファクト除去,シミュレーション,可視化まで,BCI設計パイプライン全体を網羅するPythonフレームワークである。
- 直感的でエンドツーエンドのGUIと,ユニークなフローチャートにより,ノンコーディングでのBCI設計を実現し,アクセス性を向上させている。
- オフラインとリアルタイムのBCI開発の両方をサポートしており,研究者はBCI開発のより複雑な側面に集中できるようになる。
MIMO検出のためのソフトグラフTransformer [cs.LG, cs.IT, eess.SP, math.IT]目的:MIMO検出における高性能なニューラルアーキテクチャの開発
- 無線通信において,MIMO技術は容量と信頼性を向上させる重要な技術である。
- 最大尤度検出は最適だが計算量が膨大であり,既存手法は現実的な次元での仮定に依存する。
- MIMOファクターグラフ構造を考慮し,事前情報を活用することで,高性能かつ効率的な検出を実現する。
- 提案手法SGTは,最大尤度検出に匹敵する性能を達成する。
- SGTは,自己注意機構とグラフ認識型クロス注意機構を組み合わせることで,文脈依存性と構造的なメッセージパッシングを効果的に行う。
- SGTは,柔軟性と解釈可能性に優れた受信システムを提供し,事前情報を活用する。
発音器官情報を活用した自動音声認識:補助的な音声逆変換とクロスアテンション融合によるアプローチ [eess.AS, cs.AI, cs.CL, cs.SD]目的:発音器官情報の自動音声認識への統合
- 音声認識の性能向上には,音声信号以外の付加情報の活用が重要となる。
- 従来の音声認識では,発音器官情報の活用が浅い層でのモデルに限られていた。
- 深層学習アーキテクチャにおいて,発音器官情報を効果的に活用する手法を開発する。
- 提案手法は,強力なTransformerベースのベースラインと比較して一貫した性能向上を示した。
- 特に,低リソース環境下においてその効果が顕著であった。
- 発音器官情報は,現代的なアーキテクチャと組み合わせることで,音声認識に有益な情報を提供することが示唆された。
動的ストレス検出:音声におけるストレスの時間的進行モデリングの研究 [eess.AS, cs.AI, cs.CL, cs.SD]目的:音声におけるストレスの時間的進行のモデリング
- 高圧環境下での心理的ストレスの検出は重要であり,人の健康や安全に直結するから。
- 既存研究では,ストレスを静的なラベルとして扱うことが多く,時間的な変化が考慮されていない。
- ストレスの時間的な進行を捉え,より正確なストレス検出を実現すること。
- 提案手法は,MuSEデータセットで5%,StressIDデータセットで18%の精度向上を達成した。
- クロスアテンションに基づくシーケンスモデルが,ストレスの時間的進行を効果的に捉えていることが示された。
- 本研究は,ストレスを動的な構成要素としてモデリングすることの価値を強調する。
BaldWhisper:ヘッドシェアリングとレイヤーマージによる高速Whisper [eess.AS, cs.AI, cs.CL, cs.SD]目的:低リソース言語向けTransformerの軽量化・高速化
- 音声認識技術は,多様な言語でのコミュニケーションを可能にする重要な技術である。
- 低リソース言語では,十分な再学習データがないため,モデルの軽量化が困難である。
- 少ないデータでWhisperモデルを軽量化し,エッジデバイスでの利用を可能にすること。
- Bambara語(32時間データ)において,埋め込み層の低ランク分解と特徴蒸留,レイヤーマージを適用した。
- 元の性能の90%を維持しつつ,モデルサイズを48%削減,MacBook Air M1上で2.15倍高速化した。
- 語彙プルーニングではなく,コードスイッチングに対応可能な手法を選択した。
QuIRK:量子に着想を得た再アップロードKAN [quant-ph, cs.LG]目的:量子データ再アップロードに基づくKANの改良
- 科学分野の回帰問題において,古典的な深層学習ネットワークを超える可能性を秘めている。
- 従来のKANはパラメータ数が多い場合があり,特に周期関数への対応に課題があった。
- パラメータ数を削減しつつ,周期関数への対応能力を高めることを目指す。
- QuIRKは,従来のKANと同等以上の性能を発揮しつつ,より少ないパラメータで学習可能であることが示された。
- 単一量子ビットのデータ再アップロードモデルを使用することで,特に周期関数において効果が認められた。
- QuIRKは,解釈可能性を維持し,閉形式解を得る能力も備えている。
系統樹誘導グラフ注意モデルによる結核菌における陽性選択の解読 [q-bio.PE, cs.LG]目的:結核菌における陽性選択の検出
- 結核菌の薬剤耐性や病原性進化を理解するためには,適応変異の特定が不可欠である。
- 従来の陽性選択検出法は,系統関係を十分に考慮できていない場合がある。
- 系統樹構造を組み込んだ新しい手法で,適応変異の検出精度を向上させる。
- 系統樹をグラフ構造に変換する手法と,グラフ注意ネットワーク(GAT)を組み合わせることで,陽性選択変異の検出が可能となった。
- モデルの精度は0.88に達し,WHO分類「不確実」とされた変異候補41個を特定した。
- 本研究は,系統樹をGNN互換構造に変換することの実現可能性を示し,ゲノムサーベイランスと変異優先度付けに貢献する。
テキストを用いた因果推論に対するデザインに基づく解決策:言語モデルは大きすぎることがあるか? [stat.ME, cs.CL, cs.LG, stat.AP]目的:テキストにおける言語的特徴が聴衆の態度や行動に及ぼす因果効果の特定
- 社会科学では,言語が態度や行動に与える影響を理解することが重要である。
- テキストの特性は相互に関連しており,潜在的な交絡因子を制御する必要がある。
- 言語モデルのオーバーラップバイアスを回避し,より正確な因果効果を推定すること。
- 新たな実験デザインを導入し,潜在的交絡因子を制御し,バイアスを排除した。
- 大規模言語モデルを用いた手法は,単純なBag-of-Wordsモデルよりも劣ることを示した。
- 政治的コミュニケーションにおける謙虚さの表現が,説得力に及ぼす因果効果を特定した。
系外惑星の居住可能性の理解:大気吸収スペクトルの予測のためのベイズ機械学習フレームワーク [astro-ph.EP, astro-ph.IM, cs.LG]目的:系外惑星の大気吸収スペクトル予測モデルの構築
- 宇宙探査技術の進歩により,系外惑星研究が活発化しており,その居住可能性評価が重要課題となっている。
- 系外惑星大気組成の観測データは限られており,理論モデルとの比較が困難である。
- ベイズ機械学習を用いて,効率的なデータ収集と惑星パラメータ推定を目指す。
- スプライン曲線を用いて,惑星パラメータと大気吸収スペクトルの関係をモデル化した。
- ベイズ適応探索により,モデル改善のために必要なデータ探索領域を特定した。
- 本研究は,系外惑星の特性解明と居住可能性評価への貢献が期待される。
勾配誘導最遠点サンプリングによるロバストなトレーニングセット選択 [math.OC, cs.CE, math.OC, cs.SY, eess.SY, stat.ML, cs.LG, physics.chem-ph]目的:ロバストなトレーニングセット選択のための手法
- 化学分野における機械学習において,データ量を削減し予測のロバスト性を向上させることは重要である。
- 従来のトレーニングセット選択手法では,効率的なサンプリングが困難であり,偏った学習結果となる場合がある。
- 分子構造の配置空間を効率的にサンプリングし,予測精度とロバスト性を向上させることを目指す。
- 提案手法GGFPSは,FPSと比較してデータ効率とロバスト性に優れていることが数値的に示された。
- MD17データセットの分布分析から,FPSが平衡構造を過小評価することが示され,GGFPSはこの問題を解決する。
- GGFPSは,トレーニングコストを削減しつつ,MD17における予測誤差を体系的に低減し,予測誤差の分散を減少させる。
罰則付き最小二乗法による Hawkes 過程の表現定理 [stat.ML, cs.LG]目的:線形多変量 Hawkes 過程における潜在的なトリガーカーネルの推定
- Hawkes 過程は,自己励起点過程として,金融,神経科学など幅広い分野で応用が拡大している。
- 従来のノンパラメトリック手法では,大規模データに対する計算コストが課題となっていた。
- 罰則付き最小二乗法に基づき,効率的なカーネル推定手法を開発し,計算コストの削減を目指す。
- 表現定理から,変換されたカーネルの線形結合として最適なトリガーカーネル推定値が得られることが示された。
- 二重係数は解析的に 1 に固定されるため,コストのかかる最適化問題を回避できる。
- 合成データセットでの実験により,提案手法が予測精度を維持しつつ,計算効率が大幅に向上することが確認された。
凸領域における生成モデリングのための重裾事前分布を用いたミラーフローマッチング [stat.ML, cs.LG]目的:凸領域における生成モデリング
- 生成モデリングは,データ分布を学習し,新たなサンプルを生成する上で重要な技術である。
- 従来のミラーマップは重裾の二重分布を引き起こし,ダイナミクスが不安定になるという問題がある。
- 重裾分布を持つターゲットに適合し,学習を安定化させることを目指す。
- 提案手法では,二重分布の裾を制御する正則化ミラーマップと,重裾ターゲットに適合するStudent-t事前分布を導入した。
- 理論的に,速度場の空間リプシッツ性や時間的規則性,Student-t事前分布を用いたフローマッチングのWasserstein収束率を保証した。
- 実験的に,合成凸領域シミュレーションと実世界の制約付き生成タスクにおいて,ベースラインよりも優れた性能を示した。
ガウス・ザイデル投影による物理的に妥当な生体分子相互作用モデリング [physics.med-ph, cs.SY, eess.SY, physics.app-ph, physics.bio-ph, q-bio.BM, cs.LG]目的:生体分子相互作用の物理的妥当性
- 創薬や生命現象の解明において,生体分子の相互作用を正確に予測することは不可欠である。
- 既存のモデリング手法では,立体的な妥当性に欠ける構造が生成される場合がある。
- ガウス・ザイデル投影を用いて,物理的に妥当な構造を効率的に生成することを目指す。
- 本研究では,拡散モデルで生成された原子座標を,物理的に妥当な配置に投影するモジュールを開発した。
- ガウス・ザイデル法を用いることで,大規模な計算においても安定かつ高速な収束を実現した。
- 提案手法は,従来の200ステップの拡散モデルと同等の精度をわずか2ステップで達成し,計算時間を大幅に短縮した。
ニューラルネットワークの分布ロバスト近似特性 [math.CO, cs.CC, cs.DC, stat.ML, cs.LG, math.FA, math.PR]目的:ニューラルネットワークにおける分布ロバスト近似特性の確立
- 機械学習において,モデルの汎化性能向上は重要な課題である。
- 従来の近似定理は,確率測度の広範なクラスに対して一様には成立しない。
- 様々なニューラルネットワークアーキテクチャに対する近似特性を拡張すること。
- 本研究では,弱コンパクト測度の族に関して,ニューラルネットワークの普遍近似特性が確立された。
- これらのネットワークはOrlicz空間において稠密であることが示され,従来の近似定理を超えた範囲で結果が得られた。
- 対象となるアーキテクチャには,一般的なフィードフォワードネットワークやReLU活性化関数を持つ深層狭幅ネットワークが含まれる。
深層強化学習によるS&P500アットザマネーオプションのヘッジへの応用 [q-fin.CP, cs.LG, q-fin.PR]目的:S&P500アットザマネーオプションのヘッジ戦略
- 金融市場におけるオプション取引は,リスク管理と収益機会の確保に不可欠である。
- 伝統的なヘッジ戦略は,市場の変動や取引コストへの対応が難しい場合がある。
- 深層強化学習を用いて,よりロバストで柔軟なヘッジ戦略を開発すること。
- 深層強化学習エージェントは,ブラック・ショールズ・デルタヘッジ戦略と比較して,高いパフォーマンスを示した。
- 特にボラティリティが高く,取引コストがかかる環境において,その優位性が顕著であった。
- リスク回避パラメータが高い場合,エージェントのパフォーマンスは低下する傾向が見られた。
重心調整による重力滑空機の賢い航行 [physics.flu-dyn, cs.LG]目的:重力滑空機の航行戦略
- 流体中での拡散体の制御は,薬剤送達や環境モニタリングに応用が期待される。
- 滑空機の目標地点への正確な到達には,精密な航行制御が不可欠である。
- 流体との相互作用を考慮した,重心調整による最適航行戦略の解明。
- 粘性流体中では,滑空機のReynolds数に応じて最適な航行戦略が異なることが示された。
- Reynolds数が大きい場合,滑空機は重心移動による高速回転により,大きな慣性揚力を生み出し,遠くまで移動する。
- Reynolds数が小さい場合,滑空機は安定した傾斜姿勢を保ち,粘性による水平方向の力を利用して移動する。
敵対的頑健性に対する統一的なベイジアンフレームワーク [stat.ML, cs.LG]目的:敵対的攻撃に対する機械学習モデルの頑健性の向上
- 機械学習の応用が拡大する中で,セキュリティリスクの軽減は重要課題である。
- 既存の防御手法は,攻撃者の不確実性を考慮せず,汎化性能が課題となる場合がある。
- 攻撃者の不確実性を確率的にモデル化し,より堅牢な防御戦略を開発すること。
- 本研究では,攻撃者の不確実性を確率チャネルとしてモデル化するベイジアンフレームワークを提案した。
- このフレームワークは,訓練時と運用時の両方で堅牢性を高める戦略を導き出す。
- 実験結果は,敵対的攻撃に対する不確実性の明示的なモデリングが有効であることを示唆する。
応答勾配を用いた信頼性感度 [stat.ME, cs.LG, stat.ML]目的:システムパラメータ変化に対する信頼性感度評価手法
- 工学的リスク管理において,故障確率とその発生シナリオ把握が不可欠である。
- 故障確率の算出自体が困難な上に,感度評価は更に高度な計算を要する。
- 一般的なシステムに対し,応答値と勾配を用いた感度評価理論を提案する。
- 提案手法は,応答閾値に対する感度を,閾値条件付き応答勾配の期待値として表現する。
- 期待値の算出は,確率ゼロの閾値条件付けという課題をカーネル平滑化で解決する。
- 単一のモンテカルロシミュレーションで,全応答閾値に対する感度評価が可能となる。
deep-REMAP:正則化マルチタスク学習による恒星スペクトルの確率的パラメータ化 [astro-ph.IM, astro-ph.SR, cs.AI]目的:恒星スペクトルからの恒星大気パラメータ予測
- 観測データ量の増大に伴い,恒星の特性評価の効率化が重要となっている。
- 従来の分光分析法は,大量のデータに対応する能力に限界がある。
- 深層学習を用いて,効率的かつ高精度な恒星パラメータ推定を目指す。
- deep-REMAPは,有効温度,表面重力,金属量などの恒星パラメータを高精度に復元できる。
- 不均衡なパラメータに対してもロバストであり,非ガウス分布の不確かさを捉えられる。
- MARVELSサーベイだけでなく,他のサーベイや合成スペクトルライブラリにも応用可能である。
生体物理学的条件付き3D脳腫瘍MRI合成の生成フレームワーク [eess.IV, cs.CV, cs.LG]目的:3D脳腫瘍MRI合成のための生成モデル
- 脳腫瘍の診断や治療効果の評価において,MRI画像は不可欠な役割を果たす。
- MRI画像の欠損部分の補完は困難であり,高画質で自然な画像を生成する技術が求められる。
- 腫瘍濃度を条件として,高忠実度な脳腫瘍MRI画像を合成することで,臨床応用を目指す。
- ボクセルレベルの連続的な腫瘍濃度に基づいて条件付けられた潜在拡散モデルを開発した。
- 脳腫瘍合成と健常組織のインペインティングの両方において,空間的に一貫性があり,解剖学的に整合性の高い画像を生成できることを示した。
- 健常組織のインペインティングではPSNR 18.5,腫瘍インペインティングではPSNR 17.4を達成した。
中小企業信用スコアリングにおける取引と所有権ネットワーク統合の多角的アプローチ [quant-ph, cs.PF, q-fin.GN, cs.LG]目的:中小企業信用リスクの評価モデル
- 経済成長,雇用,イノベーションにおいて中小企業は重要な役割を担うため,適切な信用供与が不可欠である。
- 中小企業は信用履歴の不足や担保の制約から,信用アクセスが困難であり,リスク評価が課題となっている。
- 企業間のネットワーク構造を考慮した信用リスクモデルを構築し,より正確なリスク評価を目指す。
- グラフニューラルネットワークを用いて,所有権と取引関係のネットワークデータと従来の構造化データを組み合わせることで,信用スコアリングの精度が向上した。
- 企業間の繋がりを通じて伝播するデフォルトリスクを明示的にモデル化し,連鎖倒産リスクの予測が可能になった。
- ネットワークの方向性と強度が金融リスクの伝播に与える影響を分析し,サプライチェーンネットワークにおける相関デフォルトリスクを明らかにした。
自然主義的MEG-fMRIエンコーディングモデルを用いた高空間・時間分解能での脳活動推定 [q-bio.NC, cs.CL, cs.LG, cs.NE]目的:高空間・時間分解能を持つ脳活動推定手法の開発
- 脳機能の解明には,空間分解能と時間分解能を両立した計測が不可欠である。
- 既存の脳波計(MEG)や機能的磁気共鳴画像法(fMRI)は,どちらか一方の分解能を優先せざるを得ない。
- 自然な刺激に対する一過性データにおいても,両方の分解能を維持した脳活動推定を目指す。
- 開発されたトランスフォーマーベースのエンコーディングモデルは,既存の単一モダリティのモデルよりもMEGデータを高精度に予測できた。
- シミュレーション実験では,古典的な最小ノルム解よりも高い空間的・時間的な忠実度を持つソース推定が実現された。
- 推定された潜在的な皮質ソースは,未知の被験者やモダリティに対して高い汎化性能を示し,皮質脳波(ECoG)との比較でも優れた予測性能を発揮した。
マウスの視覚課題における階層的ニューラル情報勾配を用いた適応的復号 [q-bio.NC, cs.NE]目的:視覚刺激に対する動的ニューラル応答の符号化・復号メカニズムの解明
- 脳がどのように視覚情報を表現するか理解することは,神経科学における重要な課題である。
- 既存手法では,脳構造内の動的なニューラルデータ生成過程が十分に考慮されていない。
- 脳領域間の適応的トポロジカル復号を通じて,脳の階層構造における情報処理を明らかにする。
- 提案手法AT-ViTは,視覚課題における階層的ネットワークの重要性を示すことが実験的に確認された。
- 視覚系の脳領域における階層的情報内容は,復号結果によって定量化されうるという仮説が検証された。
- 海馬で収集されたニューラルデータはランダムな復号性能を示すが,その影響は科学的に重要な知見を提供する。
Transformer確率モデルにおける効率的な自己回帰推論 [stat.ML, cs.LG]目的:Transformer確率モデルにおける効率的な自己回帰推論手法
- Transformerモデルは確率的推論において高い性能を示すが,計算コストが課題となる場面も多い。
- 複数の予測間の依存関係を捉えた共同分布の生成は,計算負荷が高く,実用上のボトルネックとなっている。
- Transformerモデルの柔軟性を維持しつつ,効率的な共同分布の生成を可能にすることを目標とする。
- 提案手法は,文脈エンコーディングと条件付け集合の更新を分離することで,計算効率を大幅に向上させている。
- 動的なバッファを用いることで,ターゲット間の依存関係を効率的に捉え,高速な共同サンプリングを実現している。
- 様々なデータセットにおいて,既存手法と同等の予測精度を維持しつつ,最大20倍の高速化を達成している。
単一の二軸試験からの直交異方性超弾性体の無教師型全場ベイズ推定:心筋の事例研究 [q-bio.TO, cs.CE, cs.LG]目的:直交異方性超弾性体のパラメータ同定
- 生体組織の力学特性把握は,医療技術開発や疾患理解に不可欠である。
- 従来の組織試験では,複数の変形モードが必要で,サンプルのばらつきや損傷が問題となる。
- 単一の二軸試験から高精度なパラメータ推定と不確実性評価を実現することを目指す。
- 提案手法は,ノイズを含む合成心筋組織データから,パラメータを高精度に推定できることを示した。
- 推定されたパラメータは,真の値との良好な一致を示し,信頼区間も妥当であった。
- 本研究は,単一の二軸試験による高非線形かつ直交異方性材料モデルの特性評価の可能性を示唆する。
マルチモーダルおよび不完全な臨床データに対する解釈可能な生成・識別的学習 [cond-mat.soft, cs.RO, physics.app-ph, stat.ML, cs.LG]目的:マルチモーダルおよび不完全な臨床データに対する解釈可能な機械学習手法
- 臨床データは多様な形式を持ち,医療の質の向上に不可欠である。
- 臨床データは欠損が多く,サンプルサイズも限られるため,機械学習の適用が困難である。
- 欠損データの補完と,多様なデータソースからのロバストな推論を可能にすること。
- 本研究では,ベイズアプローチを用いて,マルチモーダルかつ不完全な臨床データを効率的に処理し,解釈可能な解を提供する。
- 生成モデルと識別モデルを組み合わせることで,データ間の関連性を捉えつつ,特定の目的に応じた関連情報を特定する。
- 臨床データへの適用により,生物学的,心理的,社会人口統計学的モダリティ間の複雑な相互作用を捉え,解明することができた。
条件付きフローマッチングによるベイズ事後推論 [stat.ML, cs.LG]目的:ベイズ事後分布の生成サンプラー
- ベイズ推論は不確実性の定量化に不可欠であり,様々な分野で活用されている。
- 従来のサンプリング手法は,計算コストが高い場合や,複雑な事後分布に対応できないことがある。
- 効率的かつ高精度なベイズ事後推論手法の開発が求められている。
- フローマッチングにより,尤度評価を必要としない新しい事後分布サンプラーを提案した。
- 提案手法は,データとパラメータの結合空間におけるブロック三角状の速度場を学習し,安定した事後分布の生成を実現する。
- モンジュ・カントロビッチデータ深さに基づいたベイズ信頼区間の高速生成が可能であり,GANや拡散モデルよりも計算コストが低い。
一石三鳥:Nestを用いた性能,収束性,システムスループットの向上 [quant-ph, cs.ET, cs.LG]目的:変分量子アルゴリズムにおける性能,収束性,システムスループットの同時最適化
- 近年の量子コンピュータの発展は目覚ましいが,実用的な問題を解くには工夫が必要である。
- 変分量子アルゴリズムはノイズの影響を受けやすく,高性能な量子ビットに限定され,スループットが低い。
- Nestを用いることで,低品質量子ビットから高品質量子ビットへの移行を最適化し,これらの課題を解決する。
- 提案手法Nestは,変分量子アルゴリズムの性能向上に貢献し,最適な結果に近い値を得ることを可能にする。
- Nestは,アルゴリズムの収束を加速させ,より迅速な計算結果を導き出す。
- 複数の変分量子アルゴリズムを同時に実行することで,システムスループットを向上させる。
K-ASTRO:コード脆弱性検出のための構造を意識したLLMの適応 [cs.NI, eess.SP, cs.NI, eess.SP, cs.SE, cs.LG]目的:コード脆弱性検出における効率と精度向上
- ソフトウェアセキュリティにおいて,コード脆弱性の検出は極めて重要であり,その自動化が求められている。
- 既存手法は,計算資源を大量に消費するか,複雑なグラフ構造に依存し,実用性に課題がある。
- LLMの利点とASTの構造的特徴を組み合わせ,効率的かつ高精度な脆弱性検出を実現することを目指す。
- K-ASTROは,LLMのセマンティック埋め込みとASTの構造的特徴を組み合わせた軽量なTransformerモデルである。
- ASTを基盤としたデータ拡張,構造を意識した注意機構,そしてコードのセマンティクスと構文を統合する適応パイプラインを導入した。
- BigVul,DiverseVul,PrimeVulの3つの大規模データセットで最先端の性能を示し,CPU上での高速な推論を可能にした。
文脈データからニュースベンダー決定へ:データ駆動型アルゴリズムの実際の性能について [cs.LG, math.OC, stat.ME]目的:文脈的ニュースベンダー問題におけるデータ関連性・品質・量の性能への影響
- 需要予測はサプライチェーン管理において不可欠であり,適切な在庫レベルの決定に影響する。
- 過去のデータが限られている場合や,状況が変化する場合,従来のアルゴリズムは最適でない可能性がある。
- 文脈に応じた最悪の場合の期待後悔を分析し,データ駆動型アルゴリズムの性能保証を明らかにすること。
- 重み付き経験リスク最小化(WERM)ポリシーの最悪の場合のリグレットを正確に特徴付けた。
- 文脈とアルゴリズムの学習曲線に関する詳細な洞察を明らかにした。
- 最適化アプローチにより,無限次元の問題を単純な探索に帰着させ,厳密な性能保証を導出した。
画像キャプションの記述性をランキングとLLMベースの融合により改善 [cs.CV, cs.AI, cs.CL, cs.DB, cs.LG]目的:画像キャプションの記述性向上
- 画像とテキストの理解は,AI分野において重要な課題であり,多様な応用が期待される。
- 既存の画像キャプションモデルは,詳細な情報を捉えきれず,平均的な記述に偏りがちな点が課題である。
- 多様なモデルの強みを組み合わせ,人間が生成するような質の高いキャプション生成を目指す。
- 異なるSoTAキャプションモデルの出力をランキングし,上位2つのキャプションをLLMで融合させることで,より詳細な説明を生成する。
- MS-COCOおよびFlickr30kデータセットでの実験により,キャプションと画像の整合性向上と,幻覚の低減が確認された。
- 主観評価においても,本モデルが生成するキャプションは人間による判断と一致していると評価された。
敵対的欠損プロセス下における公平なグラフ機械学習 [cs.RO, cs.LG]目的:公平性を考慮したグラフ機械学習モデルの性能向上
- グラフ構造データは,社会における影響力評価など,様々な場面で活用されている。
- 機密属性の欠損がランダムでない場合,公平性の評価が誤っている可能性がある。
- 敵対的な欠損プロセス下でも,公平性と精度のバランスを保つモデルを開発する。
- 提案手法BFtSは,欠損値補完において公平性を重視し,最悪のシナリオを想定することで,既存手法よりも優れた性能を示す。
- 実験結果から,BFtSは合成データおよび実データにおいて,敵対的欠損プロセス下で公平性と精度のトレードオフを改善する。
- 2人の敵対者とGNN分類器による3者ゲーム構造を用いて,分類器の最大バイアスを最小化する。
確率微分方程式に基づく子母システムに対するY演算子を用いた強化学習の性能向上手法 [cs.AI, math.OC]目的:確率微分方程式に基づく子母システムの制御性能向上
- 近年,確率微分方程式で記述されるシステムを対象とした制御問題が重要視されている。
- 強化学習の適用において,状態価値関数の偏微分方程式の解法が課題となっている。
- Y演算子により,状態価値関数の求解を効率化し,強化学習の性能向上を目指す。
- 本研究で提案するY演算子は,Criticネットワークの損失関数にシステムの確率性を組み込むことで,制御性能を大幅に向上させる。
- Y演算子を用いることで,状態価値関数の偏微分方程式の求解問題が,ドリフト関数と拡散関数の並列問題へと変換される。
- 数値実験の結果,提案手法YORLは,既存手法と比較して,収束後の性能が優れていることが示された。
FREE:環境生態系モデリングのための基礎的な意味認識 [cs.LG, q-bio.PE]目的:環境変数の複雑な関係性のモデリングに関する汎用的なフレームワーク
- 地球の持続可能性にとって不可欠だが,多数の物理変数間の相互作用により,そのモデリングは極めて困難である。
- 大規模な測定が困難な変数が多く,特定の地域と期間に限定されたモデル構築が主流である。
- 多様な環境変数間の時空間的な関係性のモデリングを可能にする汎用的なフレームワークを構築すること。
- 本研究で提案するFREEは,様々な特徴量と利用可能な情報を活用し,汎用的なモデルを学習可能にする。
- 環境データをテキスト空間にマッピングすることで,予測モデリングタスクを意味認識問題へと変換する。
- 水温予測と作物収量予測という2つの実世界アプリケーションにおいて,データが少ない状況下でも既存手法を上回る性能を示した。
ConjNorm:分布外検出のための扱いやすい密度推定 [eess.SY, cs.SY, cs.LG, cs.AI]目的:分布外検出における密度推定手法の確立
- 機械学習の信頼性確保は重要であり,未知のデータへの対応が不可欠である。
- 既存手法は,真のデータ密度を正確に反映できない,または制約が厳しすぎる場合がある。
- Bregman divergenceに基づく理論的枠組みにより,密度設計の最適化を目指す。
- 提案手法ConjNormは,CIFAR-100において既存最良手法を最大13.25%上回る性能を示した。
- ImageNet-1Kにおいても,既存最良手法を最大28.19%(FPR95)上回る性能を達成した。
- 指数型分布族を考慮した新たな密度設計の可能性を示唆している。
意味的シフト補償を用いた継続的アダプターチューニング:クラス増分学習 [cs.CV, cs.AI, cs.LG]目的:クラス増分学習における継続的な学習能力向上
- 機械学習モデルの継続学習は,新しいタスクへの適応と知識の維持が求められるため重要である。
- クラス増分学習では,過去の知識を忘却することなく新しいクラスを学習することが課題である。
- 本研究は,アダプターチューニングにおける意味的シフトを補償し,継続学習の性能を向上させることを目指す。
- アダプターチューニングがプロンプトベースの手法よりも優れていることが示された。
- 過去のプロトタイプの意味的シフトを推定し,プロトタイプを更新することで性能が向上した。
- モデルの拡張や過去の画像サンプルの保持を必要とせず,最先端の性能を達成した。
自然な機械的アンラーニングに向けて [cs.LG]目的:機械的アンラーニングの実現
- データプライバシー保護の重要性が高まり,学習済みモデルからのデータ削除が求められている。
- 既存のアンラーニング手法は,誤ったラベルを用いた再学習により,過剰な忘却や性能劣化を引き起こす。
- 忘却対象データに対し,残りの正しいデータ情報を付加することで,自然な忘却を促す。
- 提案手法は,忘却対象データに正しい情報を注入することで,過剰な忘却を大幅に低減することを示した。
- 実験結果から,提案手法は既存の最先端手法を凌駕し,ハイパーパラメータに対するロバスト性も高いことが示された。
- 本研究は,より実用的な機械的アンラーニングの実現に向けた第一歩となる。
ロボ・インストラクト:コードLLMのファインチューニングのためのシミュレーター拡張命令アラインメント [cs.CL, cs.AI, cs.RO]目的:コードLLMのファインチューニングにおける命令とプログラムのアラインメント
- ロボットサービスにおける自然言語タスクのプログラム変換において,コードLLMの活用が期待されている。
- 各ロボット固有のタスク・プログラムペアのデータセット収集には,時間とコストがかかる。
- 物理世界やロボットの制約を考慮したプログラム生成を,シミュレーターを活用して実現する。
- ROBO-INSTRUCTは,タスクプログラムの実行中に動的にシミュレーション環境を合成する。
- エンティティの特性を推論し,タスクプログラムにおける利用状況に基づいて制約を適用する。
- ファインチューニングされたモデルは,既存手法や大規模モデルと同等以上の性能を示す。
プロトタイプ理論の観点からのきめ細やかな感情認識の強化:E-ICL [cs.LG, cs.AI]目的:きめ細やかな感情認識における性能向上
- 感情認識は,人間と機械の円滑なコミュニケーションに不可欠な技術であり,その精度向上が求められている。
- 大規模言語モデルによるインコンテキストラーニングは感情認識タスクで性能が低下し,その原因が不明確である。
- プロトタイプ理論に基づき,インコンテキストラーニングの課題を解決し,感情認識の精度と堅牢性を向上させる。
- 提案手法E-ICLは,感情的に正確なプロトタイプを用いることで,より適切な感情予測を可能にする。
- E-ICLは,無関係なカテゴリからの干渉を排除する戦略を採用し,予測の精度とロバスト性を向上させる。
- 複数の感情データセットで,E-ICLは既存手法を上回る感情予測性能を示し,少量の補助モデルでも効果を発揮する。
追尾・ロック・発射ミッションのための模倣強化学習フレームワーク [cs.LG, cs.RO]目的:無人戦闘航空機(UCAV)近接格闘における成功戦略の学習
- 航空戦において,UCAV同士の近接格闘は重要な役割を担うため,その自動化が求められている。
- 従来の強化学習では,探索能力の低さや学習効率の悪さ,現実離れしたシミュレーション環境が課題であった。
- 本研究は,専門家のデータと自律的な探索を組み合わせることで,これらの課題を克服し,効果的な学習を可能とする。
- 提案するフレームワークは,専門家の模倣学習と強化学習による自律探索を組み合わせることで,学習効率と環境適応性を向上させる。
- Harfang3D環境を用いた実験結果から,提案手法が既存の強化学習や模倣学習手法を大きく上回ることが示された。
- 本フレームワークは,複雑な航空戦闘タスクにおいて,高い成功率(最大100%)と優れた頑健性を実現する。
人間と機械の判断の信頼度に基づく統合による意思決定の高度化 [cs.CL, cs.FL, cs.HC, cs.AI, q-bio.NC]目的:人間と機械の判断を統合する手法の開発
- 複雑な意思決定において,人間と機械の能力を組み合わせることの重要性が高まっている。
- 人間の判断は機械に劣る場合があり,単純な組み合わせでは性能向上が見込めないことがある。
- 判断の信頼度と多様性を考慮した統合により,人間と機械のチーム全体の性能を最大化すること。
- 人間と機械の判断を信頼度に基づいて統合するロジスティック回帰モデルを提案した。
- 画像分類および神経科学予測のタスクにおいて,提案手法がチーム全体の性能向上に貢献することが示された。
- 機械との連携により,人間の判断がより有効に活用される可能性が示唆された。
心エコー用プローブ移動ガイダンスのためのシーケンス認識型事前学習:UltraSeP [cs.CV, cs.AI]目的:心エコーにおけるプローブ移動ガイダンスアルゴリズムの開発
- 心血管疾患の診断に不可欠な心エコー検査の熟練者不足が課題となっている。
- 既存手法は,患者ごとの心臓構造の個人差を考慮できていない点が課題である。
- 患者の過去スキャンシーケンスを考慮し,個人に最適化された心臓構造の理解を目指す。
- 提案手法は,大規模な心エコーデータセットにおいて,他の最先端手法と比較してプローブ移動誤差を効果的に削減できることを示した。
- シーケンス認識型事前学習により,個人化された三次元心臓構造の特徴を学習することが可能になった。
- スキャンシーケンス中のマスクされた画像特徴とプローブ移動アクションを予測することで,心臓構造の理解度を高める。
医療画像解析のためのMambaアーキテクチャに関する包括的サーベイ:分類,セグメンテーション,復元そしてそれ以降 [cs.CV, cs.AI]目的:医療画像解析におけるMambaアーキテクチャの現状と可能性
- 医療画像解析は,疾患の早期発見や正確な診断に不可欠であり,医療の質向上に大きく貢献する。
- Transformerは強力だが,計算コストが高く,長距離依存関係の処理に課題がある。
- Mambaアーキテクチャを用いて,医療画像解析における既存の課題を克服し,新たな進歩を促す。
- Mambaは,Transformerと比較して計算量が線形であり,医療画像の解析において高速かつ効率的な処理が可能となる。
- Mambaは,マルチモーダルデータの統合に優れており,診断精度と患者アウトカムの向上に貢献する。
- 本サーベイは,Mambaアーキテクチャが医療画像解析の分野にもたらす変革の可能性を示すことを目的とする。
複雑なQ関数の決定論的方策勾配の劣最適性軽減 [cs.LG, cs.AI, cs.RO, stat.ML]目的:複雑なQ関数における決定論的方策勾配の劣最適性軽減策
- 強化学習は,ロボット制御やゲームなど,幅広い分野で活用されており,その重要性は増している。
- 複雑なタスクでは,Q関数に多くの局所最適解が存在し,方策の改善が停滞しやすいという課題がある。
- Q関数の局所最適解を効果的に除去し,より安定した方策の勾配上昇を実現することを目指す。
- 提案手法SAVOは,複数の行動候補を生成し,Q値が最も高い行動を選択することで,局所最適解への陥りを抑制する。
- Q関数を反復的に近似し,劣った局所最適解を打ち切ることで,より効果的な勾配上昇を誘導する。
- 制限された移動,器用な操作,大規模な離散行動空間を持つ推薦システムにおいて,従来のactor構造よりも優れた性能を示す。
RAGDiffusion:外部知識の取り込みによる忠実な衣服生成 [cs.CV, cs.AI, cs.GR, cs.LG]目的:衣服生成における忠実性の向上
- 衣服生成は,ファッション業界やバーチャル試着等に応用が期待され,重要性が高まっている。
- 既存手法では,衣服の構造やテクスチャの歪みが生じやすく,リアルな表現が困難であった。
- 本研究は,外部知識を取り込むことで,衣服の構造とテクスチャの忠実性を高めることを目指す。
- RAGDiffusionは,Retrieval-Augmented Generation(RAG)フレームワークを用いて,構造の決定性を高め,幻覚を抑制する。
- 構造の集約には,コントラスト学習とStructure Locally Linear Embedding(SLLE)を活用し,グローバルな構造と空間的なランドマークを抽出する。
- 粗い段階から細かい段階へとテクスチャを整合させることで,パターンやディテールの忠実性を確保する。