arXiv雑要約
AI - 2026/03/09 公開
我々とは何か,我々はどこにいるのか:人物,状況,大規模言語モデルにおけるメンタルヘルス [cs.CL, cs.AI, cs.HC, cs.LG]目的:メンタルヘルスの評価
- メンタルヘルスは個人の特性だけでなく,状況との相互作用で変化するため,その理解が重要である。
- 既存研究では,心理学的理論と計算モデリングの統合が十分ではない。
- 状況と個人の特性を考慮した,解釈可能なメンタルヘルスの評価方法を開発する。
- 心理学的特性と状況特徴を組み合わせたモデルが,既存の手法と同等の性能を示した。
- 特にメンタルヘルス予測に寄与する特徴は,心理学的に一貫性のある内容であった。
- 計算モデリングと心理学的理論の統合が,状況に依存したメンタルヘルスの理解に有効であることが示された。
ドメイン適応モデルのマージ:非接続モードにおけるアプローチ [cs.DC, cs.AI]目的:分散環境下におけるドメイン適応モデルのマージ手法
- プライバシー保護やデータ異質性が課題となり,集中学習が困難な状況が増加している。
- 既存のマージ手法では,モデル間の乖離が大きい場合に安定性や性能が低下しやすい。
- モデル間の乖離が大きい場合でも,知識を効果的に統合し,安定したマージを実現すること。
- 提案手法DMMは,ドメイン固有モデルを個別に学習後,類似モデルをマージする。
- 次に,正規化統計量から擬似データを生成し,それを用いて知識蒸留による軽量な改良を行う。
- 実験結果から,DMMは既存手法と比較して最先端の性能を達成することが示された。
全マスク勾配降下法:マスク走査によるメモリ効率最適化と改善された収束 [cs.LG]目的:メモリ効率最適化
- 大規模言語モデルの学習には巨大なメモリが必要であり,GPUメモリの制約が課題となっている。
- 既存手法は収束保証が不明確,または非凸設定で標準的な反復計算量しか達成できない。
- 本研究は,より効率的なメモリ使用量で,より高速な収束を実現する手法を提案する。
- 提案手法OMGDは,マスク走査に基づくメモリ効率最適化手法であり,非凸設定において厳密に改善された反復計算量$\tilde{\mathcal{O}}(\epsilon^{-3})$を達成する。
- OMGDは軽量で,既存の最適化手法に容易に組み込むことができ,ファインチューニングおよび事前学習の両タスクで競争力のあるベースラインに対して一貫した改善を示す。
- この手法は,GPUメモリの制約下で大規模言語モデルの学習を効率的に行うための新しいアプローチを提供する。
スケルトン-画像エンコーディング:ビジョン事前学習モデルによるスケルトン表現学習の実現 [cs.CV, cs.AI]目的:スケルトン表現学習
- 人間行動認識の精度向上に不可欠であり,近年,その重要性が増している。
- 大規模なスケルトンデータセットが不足しており,異質なデータ形式への対応が課題である。
- 大規模なビジョン事前学習モデルをスケルトンデータに適用し,表現学習を可能にすること。
- 提案手法S2Iは,スケルトン系列を画像のようなデータに変換することで,強力なビジョン事前学習モデルの利用を可能にする。
- S2Iは,多様なデータソースからの異質なスケルトンデータに対しても統一的な形式を提供し,汎用性が高い。
- NTU-60, NTU-120, PKU-MMDにおける実験により,自己教師ありスケルトン表現学習における有効性が示された。
変化の仕方を想像する:変化キャプションのための明示的な手順モデリング [cs.CV, cs.AI, cs.CL]目的:変化キャプション生成
- 画像間のわずかな違いを説明する技術は,画像検索や自動注釈など様々な応用において重要である。
- 既存手法は静止画像ペアに焦点を当てており,変化の過程における時間的な変化を捉えられていない。
- 時間的な変化を考慮した手順モデリングにより,変化の内容と発生方法をより深く理解することを目指す。
- ProCapは,静的画像比較から動的な手順モデリングへの転換を試みる新しいフレームワークである。
- ProCapは,スパースなキーフレームから変化の手順を学習する手順エンコーダを導入し,キャプションに条件付けられたマスク再構成タスクによって潜在的な動的特徴を捉える。
- 学習可能な手順クエリを用いてエンコーダをプロンプトし,潜在的な手順表現を推論することで,計算コストを削減し,視覚ノイズへの耐性を高める。
新製品コンセプト評価のためのインタラクティブなマルチエージェントシステム [cs.AI]目的:新製品コンセプト評価の自動化
- 企業における戦略的な資源配分とプロジェクト成功を左右する重要な段階である。
- 従来の専門家主導型のアプローチは,主観的な偏りや時間・コストがかかるという課題がある。
- LLMベースのマルチエージェントシステムを用いて,客観的かつ効率的な評価を目指す。
- 提案システムによる評価ランキングは,業界の専門家の評価と一致することが実証された。
- RAGとリアルタイム検索ツールを活用し,客観的な根拠に基づいた構造的な議論を行う。
- 専門家の製品レビューデータでファインチューニングすることで,判断精度を向上させている。
手術器具の自動光学検査に関する技術報告 [cs.DL, cs.CV, cs.AI, eess.IV]目的:手術器具の製造欠陥の特定と修正
- 現代医療において,手術器具の品質は患者の安全に直結するため,最高水準の維持が不可欠である。
- わずかな欠陥でも重大な結果を招き得るため,製造における精密性が求められるが,品質管理には課題が多い。
- 深層学習を用いて自動欠陥検出の精度を高め,手術器具の品質向上に貢献することを目的とする。
- パキスタン製の4,414枚の高解像度画像データセットを用いて,様々な手術器具の欠陥を分析した。
- YOLOv8,ResNet-152,EfficientNet-b4等の深層学習アーキテクチャを統合した自動光学検査(AOI)手法を開発した。
- 製造業者,医療従事者,規制当局が品質保証を強化し,より安全な医療環境を実現するための情報を提供する。
TADPO:強化学習によるオフロード走行 [cs.RO, cs.RO, cs.RO, cs.AI, cs.LG]目的:オフロード走行における強化学習の適用
- 自動運転技術は,移動の効率化や安全性向上に不可欠である。特にオフロード走行は困難度が高く,研究の進展が求められる。
- オフロード環境は変化に富み,マッピングが困難なため,従来の自動運転技術の適用が難しいという課題がある。
- 長時間の計画と適応的な制御を可能にする強化学習を用いて,オフロード走行の自動化を目指す。
- TADPOは,PPOを拡張した新たな方策勾配法であり,オフポリシー軌跡による教師あり学習とオンポリシー軌跡による探索を組み合わせる。
- このシステムは,急勾配や障害物が多い地形を含むオフロード環境において,高速走行を可能にする。
- シミュレーションに加え,実車でのゼロショットSim2Real転移に成功し,オフロードプラットフォームにおける強化学習の有効性を示した。
MM-ISTS:マルチモーダルVision-Text LLMによる不規則サンプリング時系列予測の協調 [cs.CL, cs.CV, cs.AI]目的:不規則サンプリング時系列予測のためのマルチモーダルフレームワーク
- 現実世界では不規則サンプリング時系列データが広く存在し,正確な予測は重要である。
- 既存手法は文脈や微細な時間パターンを捉えきれていない点が課題である。
- 時間,視覚,テキスト情報を統合し,より高度な予測モデルを構築することを目指す。
- MM-ISTSは,視覚-テキストエンコーディングモジュールと時系列エンコーディングモジュールを組み合わせることで,多様な情報を効果的に活用する。
- マルチモーダルLLMと適応的なクエリベースの特徴抽出器により,計算コストを削減しつつ,有益な知識を抽出する。
- モダリティ間ギャップを軽減するモダリティ認識ゲート付きマルチモーダルアライメントモジュールを導入した。
VLAモデルにおける訓練不要な注意再調整による言語的根拠の回復 [cs.RO, cs.AI, cs.CV]目的:VLAモデルにおける言語と行動の関連性の回復
- ロボットの汎用的なタスク遂行能力向上には,自然言語指示に基づいた行動計画が不可欠である。
- VLAモデルは,指示と状況の矛盾に対する頑健性が低く,視覚情報に過度に依存する傾向がある。
- 言語と状況の矛盾が生じた際に,正しい行動選択を行うためのメカニズムを開発すること。
- VLAモデルは,矛盾した指示を与えられても視覚的に妥当な行動を継続する「言語的盲目性」を示すことが明らかになった。
- 新たに開発したICBenchベンチマークを用いて,VLAモデルが論理的に不可能な指示に対しても高い成功率を示す視覚的偏向が確認された。
- 訓練不要な注意再調整機構IGARを導入することで,矛盾した指示による誤実行を大幅に削減し,既存のタスク性能を維持することに成功した。
視覚タスクのためのKANの解明:RepKANアプローチ [cs.CV, cs.AI]目的:地球観測におけるリモートセンシング画像分類の性能向上
- 地球観測は,環境変化の監視や資源管理において不可欠な役割を担う。
- 標準的なCNNやTransformerは解釈可能性が低く,ブラックボックスとなりやすい。
- RepKANは,モデルの解釈性を高めつつ,分類精度を向上させることを目指す。
- RepKANは,CNNの構造的効率性とKANsの非線形表現力を統合した新しいアーキテクチャである。
- EuroSATとNWPU-RESISC45データセットを用いた実験により,RepKANは最先端モデルを上回り,物理的に解釈可能な推論能力を持つことが示された。
- RepKANは,将来の解釈可能な視覚基盤モデルのバックボーンとして有望である。
EvoESAP:スパースMoEのための非一様エキスパートプルーニング [cs.LG]目的:スパースMoE言語モデルにおける非一様レイヤーごとのスパース性割り当ての最適化
- 大規模言語モデルの性能向上には計算資源が不可欠だが,その規模は増大の一途を辿っている。
- MoEモデルは効率的だが,全エキスパートプールを保持する必要があり,メモリとスループットがボトルネックとなる。
- EvoESAPは,固定されたグローバル予算内で,非一様なレイヤーごとのスパース性割り当てを最適化する。
- EvoESAPは,7B~30BのSMoE LLMにおいて,一様プルーニングと比較して,オープンエンド生成性能を最大19.6%向上させた。
- EvoESAPは,固定された計算コストで,複数のエキスパートプルーニング基準(Frequency,EAN,SEER,REAPなど)と組み合わせて使用できる。
- EvoESAPは,複数の選択問題の精度を維持しつつ,スパース性を高めることで,効率的なモデル運用に貢献する。
MASFactory:LLMベースのマルチエージェントシステムをVibe Graphingでオーケストレーションするためのグラフ中心フレームワーク [cs.HC, cs.CL, cs.AI, cs.MA]目的:LLMベースのマルチエージェントシステムのオーケストレーション
- LLMの進化により,役割分担と協調による問題解決能力向上が期待される。
- 既存のフレームワークでは,複雑なワークフローの実装に手間がかかり,再利用性が低い。
- 自然言語による意図を編集可能なワークフローに変換し,実行可能なグラフを生成する。
- MASFactoryは,LLMベースのマルチエージェントシステムのワークフローをグラフ構造で表現・実行する。
- Vibe Graphingにより,自然言語による指示をワークフロー仕様に変換し,人間が介入可能な形で編集できる。
- 7つの公開ベンチマークで,再現性とVibe Graphingの効果が検証された。
PPOにおける学習停滞の防止:100万並列環境へのスケール [cs.LG]目的:深層強化学習におけるPPOの学習停滞問題の解決
- 深層強化学習は,複雑なタスクの自動学習を可能にする重要な技術である。
- 強化学習において,エージェントの性能が局所最適解で停滞する現象が頻発する。
- 本研究は,並列環境数を増やすことでPPOの学習停滞を回避することを試みる。
- PPOにおける学習停滞は,損失関数の推定精度低下が原因であることが示された。
- 並列環境数を増やすことで,ステップサイズとノイズを低減し,学習停滞を防ぐことができる。
- 100万以上の並列環境にスケールすることで,複雑な環境下で従来法を大幅に上回る性能を達成した。
感度を考慮した検索拡張型意図明確化 [cs.IR, cs.AI]目的:対話型検索システムにおける複雑なクエリの意図を明確化すること
- 対話型検索システムの重要な要素であり,ユーザーのニーズを形式化する過程を支援する。
- 特に医療,法律等の分野では,検索データベースに機密情報が含まれるリスクがある。
- 機密情報を保護しながら,意図明確化の性能を向上させることを目指す。
- 攻撃モデルを定義し,検索レベルでの感度を考慮した防御策を設計した。
- 保護レベルとシステム有用性のトレードオフを測定するための評価方法を開発した。
- LLMの知識不足を補い,特に機密性の高いドメインにおいて意図明確化の性能を向上させる可能性を示した。
ガウス面積による(ほぼ)最適な時間での無知識学習 [cs.LG, cs.DS, stat.ML]目的:ガウス周辺下における概念クラスの学習複雑性
- 機械学習の理論において,学習可能性と計算量の関係を明らかにすることは重要である。
- 既存手法では,近似の精度と多項式次数との間にトレードオフが存在し,効率的な学習が困難である。
- ガウス面積に基づく学習複雑性のより正確な上限を導き出し,学習効率の向上を目指す。
- 本研究により,既存の結果を改善し,近似精度εに対する多項式次数dを $\tilde O (\Gamma^2 / \varepsilon^2)$ に削減できた。
- この結果は,統計的クエリモデルにおける多項式閾値関数の無知識学習の複雑性に関する(ほぼ)最適な上限を与える。
- Feldmanらの構成の直接的な類似を用いて,この結果を証明した。
ランジェバン動力学と確率的重み平均による高次元推定の改善 [cs.LG]目的:高次元設定における隠れた植え付け方向の回復
- 機械学習において,高次元データからの効率的な情報抽出は重要な課題である。
- 勾配降下法による高次元推定では,サンプル数と次元数の関係がボトルネックとなる場合がある。
- ランジェバン動力学と確率的重み平均を用いることで,サンプル数を削減し,推定精度を向上させることを目指す。
- ランジェバン動力学において,平均イテレートを用いることで,サンプル数が $n \gtrsim d^{k^\star/2}$ で十分であることが示された。
- これは,明示的な平滑化なしで,より少ないサンプル数で隠れた方向を回復できることを意味する。
- 本研究の結果は,テンソルPCAや単一指数モデルなどの設定に適用可能である。
自動運転のための軽量な視覚言語モデルにおける視覚概念の探求 [cs.CV, cs.AI]目的:自動運転における視覚言語モデルの視覚概念のエンコード特性の解明
- 自動運転には,複雑な状況への対応能力が不可欠であり,視覚情報と自然言語処理の統合が重要となる。
- 既存の視覚言語モデルは,自動運転に重要な単純な視覚質問に誤答することが多く,その原因が不明である。
- 視覚言語モデルの活性化を分析し,視覚情報のエンコードのボトルネックを特定することで,その性能向上を目指す。
- 物体やエージェントの存在といった概念は明示的に線形にエンコードされる一方,姿勢のような空間概念は暗黙的にエンコードされることが示された。
- 線形にエンコードされた情報が存在していても,言語の意味との整合性の欠如により正答に至らない「認知的な失敗」の様相が確認された。
- 対象物体の距離が離れるにつれて,対応する視覚概念の線形分離性が低下することが示され,モデルの限界が明らかになった。
TempoSyncDiff:蒸留による一時的整合性拡散を用いた低遅延な音声駆動対話頭部生成 [cs.CV, cs.AI, cs.LG, cs.SD]目的:低遅延な音声駆動対話頭部生成のための手法
- リアルな人間合成技術は進歩したが,実用的な対話頭部生成には課題が多い。
- 既存手法では,推論遅延が大きい,時間的な不安定さがある,音声と映像の同期が不完全などの問題がある。
- 拡散モデルの蒸留により,低遅延かつ安定した対話頭部生成を実現することを目指す。
- 蒸留された拡散モデルは,より強力な教師モデルの再構成性能を維持しつつ,大幅な低遅延推論を可能にする。
- TempoSyncDiffは,アイデンティティアンカーと時間的正則化により,アイデンティティのずれやフレーム間のちらつきを軽減する。
- CPUやエッジコンピューティング環境での遅延評価も行われ,エッジデバイスへの展開の実現可能性が示唆された。
段階的PDDLシミュレーションによるエージェント型LLMプランニング:実証的特性評価 [cs.AI]目的:タスクプランニングにおけるLLMの有効性に関する実証的評価
- 自律型ロボットシステムにおいて,目標達成のための行動系列決定は不可欠な能力である。
- LLMが古典的な記号的プランニング手法に匹敵するかどうかは未だ明確ではない。
- LLMがPDDLシミュレーションを通して,段階的に行動を選択・評価するプランニング手法を検証する。
- 古典的なプランナーFast Downwardは85.3%の成功率を達成した。
- 直接的なLLMプランニングとエージェント型LLMプランニングはそれぞれ63.7%と66.7%の成功率であり,エージェント型の方がわずかに優れていた。
- LLMはseq-sat-lama-2011よりも短いプランを生成する傾向があるが,その性能は学習データに依存する可能性が示唆された。
大規模言語モデルによるオーストリア高校ドイツ語作文の自動評価 [cs.IR, cs.CL, cs.AI]目的:オーストリア高校ドイツ語作文の自動評価
- 教育評価において,客観性と効率性が求められるため,自動評価技術の重要性が高まっている。
- 従来の自動採点システムは,特徴量設計や統計モデルに依存し,柔軟性に欠けるという課題があった。
- 大規模言語モデルを活用し,より柔軟で正確なドイツ語作文の自動評価を目指す。
- 大規模言語モデルを用いてオーストリア高校のドイツ語作文を評価した結果,ルーブリックのサブ次元において最大40.6%の一致率が得られた。
- しかし,最終的な評価において,人間の専門家との一致率は32.8%にとどまり,実用的な採点環境での利用には不十分であることが示唆された。
- 小規模モデルは標準化されたルーブリックを使用できるものの,ドイツ語作文の採点において十分な精度を達成するには至らなかった。
定量二極論証フレームワークのための集約的意味論 [cs.AI]目的:定量二極論証フレームワークにおける新規な段階的意味論の提案
- AI分野において,矛盾する情報を扱うための有効な手法として,論証の形式化が重要視されている。
- 従来の二極論証フレームワークでは,攻撃と支持の関係性が十分に考慮されていない場合がある。
- 攻撃者と支持者を分離して集約することで,より柔軟で解釈性の高い意味論を構築し,その特性を評価する。
- 本研究では,攻撃者と支持者を個別に集約する「集約的意味論」という新しい段階的意味論を提案した。
- 提案手法は,計算を3つの明確な段階に分解することで,パラメータ調整を容易にし,解釈性を向上させる。
- 500種類の集約的意味論をテストした結果,多様な振る舞いが確認され,二極性構造の維持に貢献することが示唆された。
テキスト駆動型感情連続生成談話顔 [cs.CV, cs.AI]目的:感情連続生成談話顔の実現
- 人間との自然なコミュニケーションにおいて,表情は重要な役割を担うため。
- 既存の談話顔生成技術では,固定された感情表現に限られ,自然な感情変化の再現が困難である。
- テキストと感情記述に基づき,自然な感情変化を伴う談話顔動画を生成すること。
- 提案手法は,時間変化に強い感情変動モデリングにより,入力テキストに対応した連続的な表情変化を実現した。
- 多様な感情状態において,滑らかな感情遷移と高品質な映像・動きの自然さを両立している。
- 感情の連続的な変化を反映した,よりリアルな談話顔動画の生成に貢献する。
生涯にわたる身体化ナビゲーション学習 [cs.RO, cs.AI]目的:生涯にわたる身体化ナビゲーション学習における課題解決
- ロボットナビゲーションは,現実世界での自律的な行動を実現する上で不可欠な技術である。
- 大規模言語モデルを用いたナビゲーションエージェントは,継続的な学習が難しく,過去の知識を忘れてしまう。
- 複数のタスクと環境において,ナビゲーション能力を維持しつつ,新たなスキルを獲得することを目指す。
- Uni-Walkerは,ナビゲーション知識を共有知識と固有知識に分離するフレームワークである。
- 知識継承戦略と専門家共同活性化戦略により,複数タスク間での知識伝達と改良を促進する。
- 専門家部分空間直交制約とナビゲーション特化型思考連鎖機構により,固有知識の獲得と指示理解の向上を実現した。
クリックフローマーによるオフライン材料最適化 [cs.AI, cs.CE]目的:材料特性の最適化
- 材料探索の効率化が重要であり,計算資源の節約に繋がる。
- 生成モデルは有望な領域の探索が不十分な場合がある。
- オフラインモデルベース最適化と生成モデルを融合し,探索効率を高める。
- 提案手法クリックフローマーは,既存の生成モデルを上回る性能を示す。
- 直接的な特性最適化を生成プロセスに組み込むことで,効率的な材料探索を実現。
- コードを公開し,専門分野の研究や学際的な研究を支援する。
経験が人格を形成する:LLMの人格の言語的起源と機能的影響 [cs.RO, cs.CL, cs.AI]目的:LLMの人格形成と問題解決への影響
- 人間は多様な性格特性によって問題解決を行うため,AIにも同様の多様性が重要である。
- LLMの開発は,特定の行動傾向を重視した均一な性能評価に偏っている。
- 多様な経験がLLMの人格に与える影響を定量的に評価し,性能向上に役立てる。
- モデルの能力は,「表現力豊かな一般論者」と「抑制された専門家」の二峰性を示すことが明らかになった。
- 社会性特性を抑制することで,複雑な推論能力が向上する「抑制優位性」が確認された。
- 訓練データの言語的特徴と語彙の多様性の間に因果関係があり,「人格エンジニアリング」の道筋が示された。
振動スペクトルからの潜在拡散に基づく3次元分子構造復元 [cs.LG, physics.chem-ph]目的:振動スペクトルに対応する3次元分子構造分布の復元
- 分子構造解析において,赤外分光法は重要な役割を担う。分子の構造情報を決定する上で不可欠である。
- 既存手法では,スペクトルの特徴と3次元構造の複雑な関係性を捉えきれていない。
- 単一の赤外スペクトルに対応する3次元分子構造分布を推定することを目的とする。
- IR-GeoDiffは,分子構造のノードとエッジ表現にスペクトル情報を統合することで,3次元分子構造を復元する。
- スペクトルと構造の両面から評価した結果,与えられた赤外スペクトルに対応する分子分布の復元が可能であることが示された。
- 注意機構の分析により,モデルが赤外スペクトルの特徴的な官能基領域に焦点を当てていることが確認された。
含意された前提の明示化:エントーメームの論理的理解において [cs.CL, cs.AI]目的:エントーメームの論理的理解のための体系的な手法
- 現実世界の議論は,前提や結論が暗黙のままなエントーメームの形で現れることが多く,理解が困難である。
- 自然言語処理はエントーメームの特定が可能だが,論理構造の解明には至らない。論理的アプローチは知識ベースに依存する。
- テキストから論理的議論への変換と,論理的推論に必要な数式の生成を可能にすること。
- 大規模言語モデルを活用し,明示された前提と結論から暗黙の前提を生成するパイプラインを提案した。
- 生成された自然言語を論理式に変換し,SATソルバーによる神経記号推論によって論理的帰結を検証する。
- エントーメームのデータセットを用いた評価で,暗黙の前提の選択において有望な性能を示した。
オンライン勾配学習における動的モーメンタム再調整 [cs.LG]目的:深層学習最適化における勾配挙動の理解と,それに基づく最適化手法の提案
- 深層学習は,画像認識や自然言語処理など幅広い分野で重要な役割を果たしているため。
- 従来のモーメンタム法では,固定された係数がバイアスと分散のバランスを歪める問題がある。
- 最適なバイアス・分散のトレードオフを実現し,パラメータ更新の精度を向上させることを目指す。
- 提案手法SGDFは,最適な線形フィルタリングの原理に基づき,時間変化するゲインをオンラインで計算する。
- SGDFは,平均二乗誤差を最小化することで,ノイズの抑制と信号の保持の最適なバランスを実現する。
- 多様なアーキテクチャとベンチマークにおける実験により,SGDFは従来のモーメンタム法を上回り,最先端の最適化手法と同等以上の性能を示す。
拡散言語モデルは本質的に長さに対応している [cs.CL, cs.LG]目的:必要な応答長さを推定することによる計算効率の向上
- 大規模言語モデルは様々なタスクで利用され,その効率化が重要である。
- 拡散言語モデルは固定長のコンテキストウィンドウを使用するため,短い応答生成時に無駄が生じる。
- 潜在的なプロンプト表現から応答長さを推定し,計算資源の浪費を削減すること。
- 提案手法は,コンテキストウィンドウを動的に調整することで拡散ステップ数を削減し,計算効率を向上させる。
- GSM8K,HumanEval,IfEval,LongFormQAの4つのベンチマークで,性能劣化はほとんどなく,大幅なFLOPs削減を達成した。
- タスクの4分の2で性能が向上し,大規模言語モデルの効率的な運用に貢献する。
ロボティクスにおける物理的安全のためのハザード情報パイプライン [cs.RO, cs.AI]目的:ロボティクス物理的安全のためのフレームワーク
- ロボットの普及に伴い,人との協働や自律動作における安全性の確保が重要である。
- 従来の安全工学と最新の機械学習パイプラインの連携が不十分である。
- ハザードに基づいた合成データ生成により,安全性の高いロボット制御を実現する。
- 本研究では,アセット宣言,脆弱性列挙,ハザード駆動型合成データ生成に基づく構造化されたフレームワークを提案する。
- 古典的なリスクエンジニアリングと機械学習パイプラインを統合し,ハザードオントロジーに基づいた安全領域学習を可能にする。
- 安全工学,デジタルツインシミュレーション,合成データ生成,機械学習モデル訓練を整合させることを目指す。
時系列異常検知のための意味論的認識評価指標DQE [cs.LG]目的:時系列異常検知の評価
- 時系列データ分析は,様々な分野で重要性を増しており,異常検知はその応用において不可欠である。
- 既存の評価指標は,検出精度や閾値設定に依存し,客観的な評価が困難であるという課題があった。
- 検出の意味論に基づいた新たな評価指標を提案し,より信頼性の高い評価を目指す。
- 提案手法DQEは,異常の局所的な時間領域を機能的に3つのサブ領域に分割し,各サブ領域に対するスコアリングを行う。
- 閾値選択による評価の偏りを解消するため,閾値の全範囲にわたって検出品質を集計する手法を採用した。
- 合成データおよび実データを用いた実験により,DQEが安定した,識別力のある,解釈可能な評価を提供することが示された。
対立的物語分析への因果グラフアプローチ [cs.CL, cs.AI]目的:対立的物語とその根底にある要素の検出,分析,分類
- 物語分析は,社会現象や人間心理の理解に不可欠である。
- 既存手法は,事前定義された知識に依存し,モデルに人間の偏りが入りやすい。
- 物語間の構造的な相互作用をモデル化し,因果関係を明確にすること。
- 本研究では,物語をエンティティ間の相互作用グラフとして表現する新しいフレームワークを提案した。
- ノードレベルでの因果推定を取り入れ,最終的な分類への各要素の貢献度を明確化した。
- 提案手法は,既存の対立的思考分類アプローチを上回る性能を示した。
大規模言語モデルにおける強化学習のための部分方策勾配 [cs.LG, cs.AI]目的:方策勾配における方策構造のモデリング
- 未知環境における逐次的な行動学習の枠組みとして強化学習は重要である。
- 複雑な方策では勾配推定の精度が低下し,学習の安定性が損なわれる場合がある。
- より信頼性の高い学習を実現するため,より単純な方策クラスを評価・比較する。
- 部分方策勾配を用いることで,フルプランニング,貪欲法,Kステップ先読みなど,異なる方策クラスを比較することが可能となった。
- 特定の課題においては,異なる方策クラスが異なる性能を示すことが確認された。
- これは,方策クラスの特性が課題に適応することを示唆しており,本研究の重要性を裏付けている。
Place-it-R1:動画オブジェクト挿入のためのMLLMの環境認識推論能力の解放 [cs.CV, cs.AI]目的:動画オブジェクト挿入における,環境を意識した推論能力の活用
- 動画編集技術は高度化の一途を辿るが,物理的な因果関係の考慮が課題である。
- 既存手法は視覚的な忠実度を優先し,物理的に不整合な編集が生じやすい。
- 本研究は,物理的に妥当な動画オブジェクト挿入を実現することを目的とする。
- Place-it-R1は,大規模マルチモーダル言語モデル(MLLM)の思考連鎖(CoT)を活用し,動画拡散を制御する「Think-then-Place」というフレームワークである。
- MLLMによる物理シーン理解と相互作用推論により,拡散モデルへの誘導を改善し,自然な挿入を実現する。
- ユーザーは,物理的妥当性を重視する柔軟モードと,シーンの整合性を重視する標準モードを選択できる。
予測符号化グラフはフィードフォワードニューラルネットワークの包含関係にある [cs.LG, cond-mat.dis-nn, cs.AI, cs.NE, stat.ML]目的:予測符号化グラフとフィードフォワードニューラルネットワークの関係性の数学的証明
- 脳科学に着想を得たモデルである予測符号化は,機械学習の新たな方向性を示唆している。
- 予測符号化ネットワークの理論的基盤が確立されておらず,機械学習への応用が限定的である。
- 予測符号化グラフの数学的性質を明らかにすることで,機械学習への応用可能性を広げる。
- 予測符号化グラフがフィードフォワードニューラルネットワークを包含する数学的関係が証明された。
- この結果は,予測符号化ネットワークを現代の機械学習研究に位置づける上で重要である。
- 非階層型ニューラルネットワークの機械学習タスクへの活用を促進する可能性を示唆する。
VLM-RobustBench:ビジョン言語モデルの頑健性に関する包括的なベンチマーク [cs.CV, cs.AI]目的:ビジョン言語モデルの現実世界の画像歪みに対する性能評価
- ビジョン言語モデルは急速に発展しているが,実用化には頑健性の検証が不可欠である。
- 高品質なデータセットでの性能は高いものの,現実的な歪みに対する性能は不明な点が多い。
- 現在のビジョン言語モデルの空間的な脆弱性を明らかにし,頑健性評価プロトコルの改善を目指す。
- ビジョン言語モデルは,視覚的な重度の歪みよりも,軽度の空間的な歪みに弱い傾向が見られた。
- 特に,軽度のガラスぼかしはMMBenchの精度を平均8pp低下させる。
- リサンプリングや幾何学的歪みが最も大きな性能低下を引き起こし,最大34ppに達した。
入力摂動による確率的海洋表面温度予測のためのアンサンブルグラフニューラルネットワーク [cs.LG, cs.AI, physics.geo-ph]目的:海洋表面温度予測のためのアンサンブル学習戦略
- 地域海洋予測の精度向上は,気候変動や海洋資源管理において重要である。
- 既存の予測モデルは,計算コストと予測不確実性の表現に課題がある。
- 入力摂動の設計により,計算コストを抑えつつ予測の信頼性向上を目指す。
- アンサンブル学習により,単一モデル予測と同程度の決定論的予測精度を維持した。
- 入力摂動の種類と構造が,特に予測期間が長い場合に不確実性の表現に大きく影響する。
- 空間的にコヒーレントな摂動(低解像度ペルリンノイズなど)は,より良い較正と低いCRPSを実現した。
実世界の効率的なベクトル検索:複数Kクエリのための単一モデル [cs.DB, cs.IR, cs.LG]目的:複数Kクエリに対するベクトル検索の効率化
- 大規模データにおける類似検索の重要性が増しており,高速かつ高精度な検索手法が求められている。
- 既存の学習型top-K検索モデルは特定のK値に最適化されており,異なるK値に対する汎化性能が課題である。
- 本研究は,様々なK値に対応可能な汎用的な学習型top-K検索手法を開発し,実用的な性能を達成することを目指す。
- 提案手法OMEGAは,既存手法と同程度の検索精度を維持しつつ,平均待ち時間を6-33%削減することに成功した。
- OMEGAは,既存手法の最適平均待ち時間の1.01-1.28倍を,16-30%の事前処理時間で達成した。
- K=1で学習した基本モデルと,軌跡ベースの特徴量を用いることで,動的な精度向上と性能維持を実現している。
コンパクトなSSLバックボーンはオーディオディープフェイク検出に重要か?RAPTORを用いた統制された研究 [cs.RO, cs.SD, cs.AI, cs.CL]目的:オーディオディープフェイク検出におけるコンパクトな自己教師あり学習バックボーンの性能評価
- オーディオディープフェイクは社会問題となっており,その検出技術の重要性が高まっている。
- 既存研究ではwav2vec2-XLSRが中心で,コンパクトなモデルの効果が十分に検討されていない。
- 異なるSSLバックボーンの性能を比較し,信頼性の高い検出手法を確立することを目指す。
- 多言語HuBERT事前学習が,異なるドメイン間でのロバスト性の主要な要因であることが示された。
- 100Mモデルが大規模モデルや商用システムと同等の性能を発揮することが確認された。
- WavLMは摂動下で過信した誤校正を示す一方,mHuBERTは安定性を保つことがわかった。
反射フローサンプリングの強化 [cs.CV, cs.AI]目的:テキスト画像生成における生成品質およびプロンプト整合性の向上
- テキストから画像を生成する技術は,その需要増加に伴い急速に発展している。
- 既存の推論時改善手法は,主に従来の拡散モデルに適用され,フローモデルでは効果を発揮しない。
- フローモデル,特にCFG蒸留モデル(FLUX等)における推論時改善手法の提供。
- 提案手法であるRF-Samplingは,テキスト画像整合性スコアに対する勾配上昇を暗黙的に実行することが理論的に証明された。
- RF-Samplingは,テキスト表現の線形結合を利用し,フロー反転と統合することで,入力プロンプトと整合性の高いノイズ空間を探索する。
- 複数のベンチマークにおいて,RF-Samplingは生成品質とプロンプト整合性を一貫して向上させ,FLUXにおいてある程度のテスト時スケーリング能力を示すことが示された。
コントラスト学習と自己教師あり学習:筆跡類似度学習のための二段階フレームワーク [cs.CV, cs.AI, cs.CL, cs.LG]目的:筆跡の類似度指標学習
- 文字や文字体系の類似度学習は,歴史的な関係性が不明確な場合に困難が生じる。
- 既存の手法では,文字体系間の歴史的関係性の不確実性に対処できない。
- 本研究は,教師あり学習と自己教師あり学習を組み合わせることで,この課題を解決する。
- まず,ラベル付きの人工文字体系でコントラスト損失を用いてエンコーダーを訓練し,教師モデルを確立した。
- 次に,教師モデルの知識を活用しつつ,歴史的に実証された文字体系に対して自己教師あり学習を行い,潜在的な文字体系間の類似性を発見した。
- 多様な文字体系を用いた実験により,少ないサンプルでの文字認識と,意味のある文字体系のクラスタリングが実現された。
CRIMSON:臨床に基づいたLLMによる放射線レポート評価指標 [cs.CL, cs.AI, cs.CV]目的:胸部X線レポート生成における評価指標の臨床的妥当性
- 医療現場では,放射線レポートの品質が診断精度や患者安全に直結するため,客観的な評価が不可欠である。
- 既存の評価指標は,臨床的文脈を十分に考慮しておらず,些細な誤りが過大評価される可能性がある。
- 臨床的意義に基づいた重み付けにより,重大な誤りを優先的に評価する指標を開発すること。
- CRIMSONは,臨床的コンテキストを考慮し,誤りの種類を詳細に分類することで,既存の指標よりも高い精度でレポートを評価できる。
- 臨床医による評価との相関が強く,特に臨床的に重要な誤りの検出において高い一致度を示した(Kendall's tau = 0.61-0.71)。
- 新たに作成したRadJudgeやRadPrefといったベンチマークにおいても,専門家の判断と一貫性のある結果が得られた。
Whisper-CD:多重負の対照的デコーディングを用いた高精度な長尺音声認識 [cs.RO, cs.SD, cs.AI, eess.AS]目的:長尺音声認識における幻覚,繰り返し,内容の省略
- 音声認識技術は,人間と機械のコミュニケーションを円滑にする上で不可欠である。
- 大規模モデルでは幻覚や繰り返しが発生しやすく,長尺音声認識の精度を著しく低下させる。
- 既存のWhisperシステムを再学習なしで改善し,長尺音声認識の精度向上を目指す。
- Whisper-CDは,CORAALベンチマークにおいてWERを最大24.3pp削減した。
- Whisper-CDは,ビームサーチと比較して48%高速なトークン生成スループットを実現した。
- 推論時に適用可能なため,既存のWhisperシステムへの組み込みが容易である。
長期間多段階対話のための混合的優位性方策最適化 (MAPO) [cs.CL, cs.AI]目的:感情サポート等の主観的な多段階対話における会話方策の最適化
- 人間らしい対話システムの実現には,ユーザーの状態変化に適応し,長期的な対話の質を最適化する技術が不可欠である。
- 強化学習では,信頼性の高いプロセス監視の欠如により,長期的な対話の学習が困難である。
- プロセスフィードバックとモンテカルロリターンを活用し,より安定した効率的な強化学習を目指す。
- 提案手法MAPOは,EMPA,EmoBench,EQ-Bench等のベンチマークにおいて,既存手法と比較して学習の安定性と最終的な性能を向上させた。
- EMPAにおいては,7Bモデルで最大9ポイントの改善率,対話スコアで最大+43.2の増加を達成した。
- EMPA様式の環境で学習した本手法は,未知の感情知能ベンチマーク(EmoBench,EQ-Bench)においても一貫した改善が見られた。
フラッシュプリフィル:超高速長文コンテキストプリフィルのための即時パターン発見と閾値処理 [cs.CL, cs.CL, cs.CL, cs.AI]目的:長文コンテキストモデリングの効率化
- 大規模言語モデルにおいて,長文コンテキストの処理能力は重要である。
- アテンション機構の計算量が二乗で増加するため,特にプリフィル段階がボトルネックとなる。
- 高速なパターン発見と閾値処理により,プリフィル段階の効率を飛躍的に向上させる。
- フラッシュプリフィルは,動的なパターン探索と閾値処理により,従来の方式を大幅に高速化する。
- 256Kのシーケンスにおいて,最大27.78倍の速度向上を達成した。
- 4Kの短いシーケンスでも1.71倍の速度向上を維持し,幅広いシーケンス長で有効であることが示された。
パーキンソン症候群の鑑別診断における足のクリアランス歩行ダイナミクスのトポロジカル記述子の有用性 [cs.LG, stat.AP]目的:パーキンソン症候群の鑑別診断精度向上
- パーキンソン症候群は症状が類似しており,正確な診断が治療計画と予後に重要である。
- 従来の歩行分析では,足のクリアランスパターンに隠された非線形構造が捉えきれない。
- トポロジカルデータ解析を用いて,足のクリアランスパターンから特徴を抽出し,鑑別診断を支援する。
- 足のクリアランスに関するトポロジカル記述子は,パーキンソン病と血管性パーキンソン病の鑑別に83%の精度を示した。
- 薬剤投与時(On状態)では性能が向上し,レボドパの影響に対する感受性が示唆された。
- トポロジカルデータ解析と機械学習の組み合わせが,臨床歩行分析の改善に貢献すると考えられる。
事象の連鎖による訓練不要なマルチモーダル要約 [cs.CV, cs.AI]目的:マルチモーダル要約の実現
- 動画,テキスト,画像などの情報を統合し,簡潔な要約を生成する技術は,情報過多な現代社会において重要である。
- 既存手法は,特定のドメインへの依存,弱いクロスモーダルな関連付け,時間的な遷移の考慮不足といった課題を抱えている。
- 階層的な事象グラフを用いて,クロスモーダルな関連付けと時間的な推論を強化し,ドメインに依存しない要約を可能とする。
- 提案手法CoEは,8つの多様なデータセットにおいて,既存の最先端手法を平均してROUGEで+3.04,CIDErで+9.51,BERTScoreで+1.88上回る性能を示した。
- CoEは,事象の連鎖に基づいて構造的な推論を行い,重要な視覚的手がかりを特定し,事象の進化と因果関係をモデル化する。
- 軽量なスタイル適応により,ドメイン間の整合性を高め,堅牢性,解釈可能性,クロスドメイン汎化性能を実現する。
会話型デマンドレスポンス:エージェントAIによる双方向アグリゲーター・プロシューマー連携 [cs.AI, cs.MA, cs.SY, eess.SY]目的:アグリゲーターとプロシューマー間の双方向な自然言語による連携メカニズム
- 電力系統の安定化に不可欠であり,再生可能エネルギーの導入拡大を支える重要な技術である。
- 既存のデマンドレスポンスは自動化されすぎているか,一方的な指示に終始し,プロシューマーの意思決定を阻害している。
- エージェントAIを活用し,透明性・説明可能性・ユーザーの主体性を確保した持続可能なプロシューマー参加を促進する。
- 会話型デマンドレスポンス(CDR)のプロトタイプを開発し,連携処理が12秒以内に完了することを示した。
- エージェントAIがアグリゲーター・プロシューマー間の連携ギャップを埋め,自動化されたDRの拡張性とユーザーエンゲージメントの両立が可能であることを示した。
- システムコンポーネントをオープンソースとして公開し,再現性とさらなる開発を促進する。
FedSCS-XGB:継続的健康モニタリングのための連合サーバー中心型代理XGBoost [cs.CL, cs.CY, cs.LG]目的:ウェアラブルセンサーデータを用いたヒト活動認識のための分散機械学習プロトコル
- ウェアラブルセンサーは早期の健康リスク検知,記録の向上,個別化治療を支援し,健康管理に不可欠である。
- 脊髄損傷のような疾患では,データが分散しており,プライバシー保護の観点から中央集権的な学習が困難である。
- 分散環境下でも中央集権的な学習と同等の性能を達成し,プライバシーを保護しながら効率的な学習を実現することを目指す。
- 提案手法は,理論上,適切な条件のもとで中央集権型XGBoostと同等の解に収束することが示された。
- 実証実験の結果,提案手法は中央集権型XGBoostの性能を最大1%以内の差で再現することが確認された。
- 分散ウェアラブルベースのヒト活動認識において,XGBoostの構造的利点を維持しつつ,高性能な学習を実現する可能性が示された。
