arXiv雑要約
AI - 2026/03/06 公開
SPIRIT:深層学習の不確実性下における堅牢なロボット操作のための知覚的共有自律性 [cs.RO, cs.AI]目的:深層学習に基づく知覚の不確実性推定を用いた自律レベルの制御
- ロボット技術は,製造業や医療など多様な分野で活用が期待されており,自動化の進展に不可欠である。
- 深層学習は認識精度向上に貢献する一方,その頑健性や解釈可能性の課題が実用化の妨げとなっている。
- 深層学習の不確実性を考慮し,状況に応じて自律レベルを調整することで,安全かつ効率的なロボット操作を実現する。
- 本研究で提案する「知覚的共有自律性」は,深層学習の認識精度が高い場合は半自律操作を,低い場合は遠隔操作に切り替えることで,システム全体の信頼性を向上させる。
- ニューラルタンジェントカーネルに基づく不確実性認識型点群登録手法を開発し,複雑な空中操作タスクにおいて有効性を示すユーザースタディを実施した。
- その結果,深層学習の認識エラーが発生した場合でも,堅牢なロボット操作が可能となり,SPIRITは主要な産業イノベーション賞のファイナリストに選出された。
タスクと行動の分離:ロボティクスにおける強化学習のための二段階報酬カリキュラム [cs.LG, cs.RO]目的:ロボット制御のための強化学習における報酬設計の難しさに対する解決策
- ロボット制御において,強化学習は有効な手法であり,実用化が期待されている。
- 複数の目的を同時に最適化する必要があり,報酬の重み付け調整が困難である。
- タスク特有の目的と行動に関する目的を分離することで学習を改善する。
- 本研究では,まず簡略化されたタスクのみの報酬関数で学習させ,効果的な探索を促す。
- 次に,エネルギー効率などの行動に関する項を含む完全な報酬を導入する。
- 提案手法は,完全な報酬で直接学習させたベースラインよりも大幅に性能が向上し,報酬の重み付けに対するロバスト性も高い。
歩行者属性認識のための統一的フレームワーク UniPAR [cs.CV, cs.AI]目的:歩行者属性認識の統一的フレームワーク
- 歩行者属性認識は,監視映像における人物検索や小売分析など,様々な応用を支える重要なコンピュータビジョン技術である。
- 既存研究は,データセットごとにモデルを構築する傾向があり,モダリティ,属性定義,環境などのドメイン間の差異に対応できていない。
- UniPARは,多様なデータセットとモダリティを統合し,ドメイン間の汎化性能とロバスト性を向上させることを目指す。
- UniPARは,RGB画像,動画,イベントストリームといった異種モダリティのデータを同時に処理できる統一的なTransformerベースのフレームワークである。
- MSP60K,DukeMTMC,EventPARなどのベンチマークデータセットで,UniPARは専門的な最先端手法と同等の性能を達成した。
- 複数のデータセットを用いた共同学習により,モデルのドメイン間の汎化性能と,低照度やモーションブラーなどの極限環境における認識ロバスト性が大幅に向上した。
連合学習のための通信効率の高い加速ブロック座標勾配降下法:FedBCD [eess.SY, cs.SY, cs.LG, cs.AI]目的:連合学習における通信効率の向上
- 近年の深層学習モデルの大型化に伴い,連合学習における通信コストが課題となっている。
- 既存の連合学習手法では,大規模モデルの学習に多大な通信オーバーヘッドが生じる。
- モデルパラメータをブロックに分割し,必要なブロックのみを通信することで,通信量を削減する。
- 提案手法FedBCDは,既存手法と比較して通信複雑性を1/N削減できる。
- クライアントドリフト制御と確率的分散削減を導入したFedBCGD+は,より高速な収束を実現する。
- 実験結果は,提案手法が最先端の手法よりも優れていることを示している。
双方向カリキュラム生成:データ効率的な数学的推論のためのマルチエージェントフレームワーク [cs.RO, cs.DC, cs.AI]目的:データ効率的な数学的推論
- 大規模言語モデルの数学的推論能力向上は重要だが,大量のデータが必要となる。
- 従来のカリキュラム学習は,基礎的な理解不足を無視して問題の複雑化を進めがちである。
- 効果的なデータのみを用いて学習を進めることで,データ効率を最大化すること。
- 提案手法は,問題を複雑化または単純化することで,モデルの学習を最適化する。
- 最適な学習ペースに基づき,既存手法よりも少ないデータで優れた推論性能を実現した。
- マルチエージェントによる閉じたフィードバックループが,効率的なサンプル利用を可能にする。
SpeechLLMにおけるデコーダー層の冗長性計測 [cs.CL, cs.AI]目的:SpeechLLMのデコーダー層の冗長性の評価
- 音声処理分野では,大規模言語モデルの活用が急速に進んでいる。
- デコーダー層がモデル全体のパラメータの大部分を占め,計算コストが高い。
- デコーダー層の冗長性を特定し,モデルの効率化を目指す。
- 7-8Bモデルでは,デコーダー層の60%を残すことで良好なASR性能を維持できることが示された。
- 同様の傾向はより小型のモデルでも確認され,削減許容度は規模に依存することがわかった。
- 冗長な層は,異なる音声エンコーダー,タスク,言語間で共通しており,汎用的な削減が可能である。
MedCoRAG:ハイブリッドなエビデンス検索と多専門分野コンセンサスによる解釈可能な肝臓病診断 [cs.AI, cs.MA]目的:肝臓病診断のための解釈可能性
- 肝疾患の早期・正確な診断は,患者の予後を改善する上で不可欠である。
- 既存のAI診断は,透明性や論理的根拠の提示が不十分で,臨床現場での導入が困難である。
- 構造化された臨床データに基づいた,反復的な多専門分野の議論を支援するシステムを構築すること。
- MedCoRAGは,標準化された異常所見から診断仮説を生成し,UMLS知識グラフと臨床ガイドラインを組み合わせることでエビデンスパッケージを構築する。
- Router Agentがケースの複雑さに応じてSpecialist Agentを動的に派遣し,反復的な推論と必要に応じた再検索を行う。
- MIMIC-IVの肝疾患ケースにおいて,既存手法やクローズドソースモデルと比較して,診断性能と解釈可能性の両面で優位性を示す。
LBM:推論と行動による階層型大規模自動入札モデル [cs.CL, cs.AI]目的:オンライン広告における自動入札戦略の最適化
- オンライン広告市場の競争激化により,広告主の利益を最大化する自動入札の重要性が増している。
- 既存の自動入札手法は,ブラックボックスな学習やデータセットの偏りから,解釈性や汎化性能に課題がある。
- LLMの推論能力を活用し,より高度な自動入札戦略を開発することで,上記課題の解決を目指す。
- 提案手法LBMは,LLMの推論能力と行動生成能力を階層的に組み合わせることで,既存手法を上回る性能を示す。
- LBM-ThinkとLBM-Actの二重埋め込みメカニズムにより,言語と数値データの効率的な融合を実現した。
- オフライン強化学習によるGQPOファインチューニングにより,LLMの幻覚を抑制し,意思決定性能を向上させた。
SRasP:クロスドメイン少数ショット学習のための自己再指向敵対的スタイル摂動 [cs.CV, cs.LG]目的:クロスドメイン少数ショット学習における汎化性能の向上
- モデルの頑健性や転移学習能力を測る上で重要な指標となる分野である。
- 既存のスタイル摂動法は勾配の不安定性や,鋭い極小値への収束が課題となっていた。
- 勾配の安定化と,より平坦で汎化性能の高い解への収束を目指す。
- 提案手法SRasPは,グローバルなセマンティックガイダンスを用いて非一貫なクロップを特定し,再指向と集約を行う。
- 視覚的な差異を最大化しつつ,グローバル,クロップ,敵対的特徴間のセマンティック一貫性を保つ多目的最適化関数を導入した。
- 複数のCD-FSLベンチマークで,最先端手法と比較して一貫した改善が確認された。
再帰型グラフニューラルネットワークと算術回路 [cs.CL, cs.CC, cs.AI, cs.LG]目的:再帰型グラフニューラルネットワークの計算能力
- グラフ構造データは様々な分野で重要であり,その効率的な処理が求められている。
- グラフニューラルネットワークの表現能力の理論的限界が明確でなかった。
- 再帰型グラフニューラルネットワークの表現能力を算術回路と対応付けることで,その限界を明らかにする。
- 再帰型グラフニューラルネットワークと再帰型算術回路の表現能力が同等であることが示された。
- グラフのラベル付き情報を実数値のタプルとして算術回路に入力し,同じ関数を計算できることが示された。
- 算術回路の計算をシミュレーションできる再帰型グラフニューラルネットワークの構築方法が提示された。
特徴の類似性:Transformerにおける類推的推論の理論的理解について [cs.CL, cs.LG]目的:類推的推論のメカニズム
- 大規模言語モデルの推論能力理解は,AI研究の根幹をなす重要な課題である。
- 既存評価は多様な推論を混同し,類推的推論の特性を明確に捉えられていない。
- Transformerにおける類推的推論の理論的基盤を解明し,学習方法を明らかにする。
- 類似性と属性に関する同時学習が,整列した表現を通じて類推的推論を可能にすることが示された。
- 属性学習前に類似構造を学習させるカリキュラムが,類推的推論成功に必要であることが証明された。
- 二段階推論は,訓練データにおける恒等ブリッジ(b = b)を含む類推的推論に還元されることが明らかになった。
潜在交絡下における異種データセット間の分散型因果探索 [cs.LG, cs.AI, stat.ML]目的:異種データセット間での因果探索手法の開発
- データ駆動型科学の発展において,因果関係の解明は重要な課題である。
- データプライバシー規制やデータセットの異質性により,既存手法の適用が困難である。
- 分散型環境下で,潜在交絡下での因果探索を可能にすることを目標とする。
- 提案手法fedCIは,異種データセットにおける条件付き独立性検定を厳密に行う。
- fedCI-IODは,分散型データセット間での潜在交絡下での因果探索を初めて可能にした。
- 分散的な証拠集計により,プライバシーを保護しつつ,統計的検出力を向上させた。
SSR-GS:ガウシアン スプラッティングにおける鏡面反射の分離による光沢面再構成 [cs.CV, cs.AI, cs.GR]目的:光沢面再構成のための鏡面反射モデリング
- 3Dコンテンツ作成において,写実的な質感表現は不可欠であり,特に鏡面反射の正確な再現が重要である。
- 複雑な照明下では,強い鏡面反射や多重反射の影響で,高品質な3D再構成が困難となるという課題が存在する。
- 本研究は,ガウシアン スプラッティングの性能を向上させ,より正確な光沢面の再構成を実現することを目的とする。
- 提案手法SSR-GSは,直接鏡面反射を効率的にモデル化するプリフィルタリングされたMip-Cubemapと,間接鏡面反射を捉えるIndiASGモジュールを導入する。
- 反射を考慮した視覚的事前知識と幾何学的事前知識を組み合わせるVisual Geometry Priors (VGP)により,反射の影響を受けやすい領域の photometric loss を抑制する。
- 合成データと実データを用いた実験により,SSR-GSが光沢面再構成において最先端の性能を達成することが示された。
胸部X線画像診断における前処理方法が人種エンコーディングとモデルの頑健性に与える影響 [cs.CV, cs.LG, eess.IV]目的:胸部X線画像における人種ショートカット学習の軽減
- 医療における公平性の確保は重要であり,特に人種による診断の偏りは看過できない。
- 深層学習モデルが胸部X線画像から人種を高い精度で識別し,診断に影響を及ぼす可能性がある。
- 前処理方法による人種情報の抑制と診断精度の維持を両立し,偏りを軽減することを目指す。
- 肺領域の切り出し(cropping)が,診断性能を維持しつつ,人種ショートカット学習を効果的に低減することが示された。
- 公平性と精度を両立させることは可能であり,従来のトレードオフの考え方を覆す結果となった。
- 肺マスクやCLAHEといった他の前処理方法も検討されたが,切り出しほど効果的ではなかった。
連合学習におけるプライバシー・品質・効率のバランス:保護技術のラウンドベースインターリーブによるアプローチ [cs.LG]目的:連合学習におけるプライバシー保護,学習品質,効率のバランス
- 連合学習は分散データ活用に不可欠だが,プライバシー保護と性能維持が課題。
- 従来のプライバシー保護手法は,学習品質の低下や計算コスト増大を招く。
- 異なる保護技術を組み合わせ,柔軟なトレードオフを実現しプライバシー保護を強化。
- 提案手法Alt-FLは,DP,HE,合成データインターリーブにより,プライバシー保護と性能のバランスを実現。
- 攻撃者視点での評価フレームワークにより,PIが高度なプライバシー保護下で最適なトレードオフを示す。
- プライバシー要求レベルに応じてDPベース手法が適している場合もあることが示唆された。
生涯にわたる言語条件付きロボット操作学習 [cs.RO, cs.AI]目的:ロボット操作技能の継続的な学習
- ロボットの自律的な操作は,多様な環境への適応に不可欠である。
- 新しい技能学習時に,既存の技能が失われる「破滅的忘却」が課題である。
- 新しい技能を学習しながら,既存の技能の忘却を抑制することを目指す。
- 提案手法SkillsCrafterは,継続的な技能学習と破滅的忘却の軽減を実現する。
- 技能適応モジュールと技能専門集約モジュールにより,知識の継承と集約を行う。
- 実験により,提案手法の有効性と優位性が示された。
C2-Faith:思考連鎖推論における因果性と網羅性の忠実度を評価するためのLLMジャッジのベンチマーク [cs.DB, cs.NI, cs.CL, cs.AI]目的:思考連鎖推論における因果性と網羅性の忠実度評価のためのLLMジャッジの性能評価
- 大規模言語モデルの活用が進む中で,その推論過程の評価の重要性が増している。
- LLMがジャッジとして用いる場合,回答の妥当性だけでなく,推論過程の忠実性を評価できるかどうかが課題である。
- LLMジャッジが因果性と網羅性の観点から推論過程をどれだけ正確に評価できるかを明らかにする。
- C2-Faithベンチマークを用いて,LLMジャッジの因果的誤りの検出能力と局所化能力を評価した。
- タスクの形式によってモデルのランキングが変動し,特定のジャッジが常に優位に立つことはなかった。
- 網羅性の評価においては,推論が不完全な場合に評価が過大評価される傾向が確認された。
中国司法判決における法的議論構造のアノテーションと可視化のためのガイドライン [cs.CL, eess.SY, cs.SY, cs.CL, cs.AI]目的:法的議論構造のアノテーションと可視化のための体系的な枠組み
- 法的な議論の構造を理解することは,司法判断の透明性と公平性を高める上で不可欠である。
- 司法判決における議論構造の分析は,手作業に頼るため,大規模なデータ分析が困難である。
- 本研究は,司法判断の議論構造を体系的に分析するための標準化された手法を確立することを目指す。
- 本ガイドラインは,法的議論を構成する命題の種類(規範命題,事実命題)と,それらの関係性(支持,反論など)を定義した。
- 基本的な構造とネストされた構造の両方について,形式的な表現規則と可視化のルールを具体的に示した。
- 標準化されたアノテーションワークフローと品質管理メカニズムを確立することで,データの再現性と信頼性を確保した。
入力特徴量圧縮のための学習可能なビット単位ソフト量子化 [cs.LG]目的:入力特徴量の圧縮
- IoT機器の普及に伴い,限られた計算資源・メモリ資源での機械学習の最適化が求められている。
- データ転送の制約(帯域幅,遅延,エネルギー)により,エッジデバイスからリモートサーバーへのデータ送信が困難な場合がある。
- エッジデバイスでのデータ収集時に圧縮を行い,データ転送量を削減することを目的とする。
- 提案手法は,標準的な量子化手法と比較して性能が向上し,フル精度モデルに近い精度を維持する。
- データセットに応じて,32ビット入力と比較して5倍から16倍の圧縮率を,有意な性能低下なしに達成できる。
- 各入力特徴量をユーザー定義のビット数で量子化することで,シンプルかつ効率的なオンデバイス圧縮を実現する。
インセンティブを考慮したAI規制:確信度特性化 [cs.LG]目的:AI規制メカニズムの設計
- 高度な機械学習応用には厳格な規制が求められるが,その遵守は開発コスト増に繋がる。
- 戦略的なAI提供者は,開発コスト削減のため規制を回避する傾向がある。
- 規制を遵守する企業を市場に維持しつつ,違反企業を排除するメカニズムを構築する。
- 規制メカニズムが完全な市場結果をもたらすのは,非準拠分布が確信度集合を形成する場合に限る。
- この結果は,メカニズム設計と不確実性確率論を結びつけ,規制メカニズムと非準拠分布の間に二重性をもたらす。
- 誤った特徴量の利用を抑制する実験を通じて,本フレームワークの実用性が示された。
Logi-PAR:微分可能規則を用いた論理的患者活動認識 [cs.CV, cs.AI]目的:患者活動認識における論理的推論の導入
- 臨床現場での患者の安全とケアの質向上に,活動データの活用が不可欠である。
- 既存モデルは活動の識別のみに終始し,視覚情報の論理的な解釈が不十分である。
- 視覚情報からリスク要因を論理的に推論し,明示的な規則に基づいた活動認識を実現する。
- Logi-PARは,視覚情報と文脈情報を統合し,微分可能な規則を学習する初のフレームワークである。
- 学習された規則は,活動認識の根拠を説明可能にし,反事実介入によるリスク軽減効果も示唆する。
- VASTおよびOmniFallの臨床ベンチマークにおいて,最先端の性能を達成し,既存モデルを大幅に上回った。
ロバストな非線形動力学の疎な識別のためのデータ規模に依存しない正則化手法 [cs.CL, cs.CL, cs.SC, cs.LG, stat.ML]目的:非線形動力学のロバストな疎な識別を可能にする,データ規模に依存しない正則化手法の開発
- 工学や科学におけるモデリングにおいて,支配方程式の発見は重要であり,その精度が応用範囲を左右する。
- 尺度に基づく疎な回帰法では,データ正規化が支配方程式の発見を歪める可能性があり,モデルの解釈性を損なう。
- データ正規化の影響を受けずに,より信頼性の高い疎なシステム識別を実現し,モデルの解釈性と信頼性を高める。
- 提案手法STCVは,標準的なSTLSQやE-SINDyと比較して,正規化されたノイズの多いデータセットにおいて,一貫して優れた性能を示す。
- STCVは,候補項の統計的妥当性と一貫性を評価するCPを用いることで,データ規模に依存しない支配方程式の発見を可能にする。
- 実験結果から,STCVを用いることで,他の手法では失敗するケースでも,正しい疎な物理法則を識別できることが示された。
Stable-LoRA:低ランク適応の学習安定化 [cs.CG, cs.LG, cs.AI]目的:大規模言語モデルの低ランク適応における学習安定性の向上
- 大規模言語モデルのファインチューニングは計算コストが高く,効率的な手法が求められている。
- LoRAはパラメータ効率の良い手法だが,その学習安定性に関する理論的根拠は十分ではない。
- LoRAの学習初期における不安定性を解消し,性能向上を目指す。
- Stable-LoRAは,LoRAの初期段階で重みを縮小することで学習の安定性を高める。
- 理論的検証と実験により,Stable-LoRAがLoRAの不安定性を効果的に解消することが示された。
- 様々なモデルとタスクにおいて,Stable-LoRAは既存手法を上回り,メモリ使用量や計算コストの増加はわずかである。
語彙刈り込みによる高速推論のための投機的デコーディングにおけるカバレッジとドラフトレイテンシのバランス [cs.CG, cs.DM, cs.IR, cs.CL, cs.CG, math.CO, cs.CL, cs.AI, cs.LG]目的:ドラフトモデルの語彙刈り込みによる,推論高速化のためのカバレッジとドラフトレイテンシのバランス調整
- 大規模言語モデルの推論速度向上は,実用化において重要な課題である。
- ドラフトモデルの語彙サイズ拡大はレイテンシ増加の原因となり,性能向上のボトルネックとなる。
- 特定のドメインに特化したタスクにおいて,語彙刈り込みにより効率的な推論を実現することを目指す。
- 語彙刈り込みにより,カバレッジを維持しつつドラフトモデルの語彙サイズを最大97%削減可能となった。
- 特定のドメインにおけるタスクでは,レイテンシを最大16%削減し,スループットを最大20%向上させた。
- 分布外のタスクにおいても,スループットを最大6.7%向上させる効果が確認された。
トランスフォーマー駆動マルチラベル学習による手術中有害事象の早期警告 [cs.LG, cs.AI]目的:手術中有害事象の早期予測
- 手術中のリスク軽減と患者安全の向上は,医療現場において極めて重要である。
- 既存手法では,有害事象間の依存関係や異種臨床データの活用が不十分である。
- 本研究は,有害事象間の関連性を考慮した高精度な早期警告システムの構築を目指す。
- 提案手法IAENetは,5分,10分,15分の早期警告タスクにおいて既存手法を上回る性能を示した。
- 平均F1スコアで+5.05%,+2.82%,+7.57%の改善が見られ,臨床応用への期待が高まる。
- 時間依存性のモデリングと,ラベル制約再重み付け損失が,性能向上に貢献している。
強化学習による知識エージェント:KARL [cs.DC, cs.AI, cs.LG]目的:企業内検索エージェントの訓練
- 企業内情報検索の効率化が求められる中,高度な検索能力を持つエージェントの開発が重要である。
- 既存のエージェントは,多様な検索タスクへの対応や,複雑な推論能力に課題がある。
- 多様な検索行動を統合し,高性能かつ費用対効果の高い知識エージェントを実現することを目指す。
- 強化学習と合成データを用いることで,閉鎖的なモデルを上回る性能を実現した。
- KARLBenchという,多様な検索能力を評価するためのベンチマークを新たに開発した。
- 複数の検索タスクを統合的に学習することで,汎化性能が向上することを示した。
SPyCer:衛星画像からの近地表気温推定のための半教師あり物理制約付き文脈注意機構 [cs.CV, cs.AI]目的:衛星画像からの近地表気温推定
- 地球観測において,地表の特性把握は重要である。しかし,人間や生態系に影響を与える現象は,地表付近の大気中で発生する。
- 地上センサーは正確な計測を提供するが,空間的に疎であり,連続的な空間計測が困難である。
- 衛星画像と物理モデルを活用し,空間的に連続的な近地表気温推定を実現する。
- SPyCerは,物理的性質に基づいた学習を可能にする半教師ありネットワークである。
- SPyCerは,地表面エネルギー収支と伝播拡散反応偏微分方程式に基づく物理制約付き正則化を用いる。
- 実験結果から,SPyCerは既存手法よりも高い精度,汎化性能,物理過程との整合性を示すことが確認された。
AI+HW 2035:次なる10年を形作る [cs.FL, cs.SI, cs.CY, cs.HC, cs.AI, cs.AR]目的:AIとHWの共同設計・開発に関する10年間のロードマップ
- AIとHWは急速に進歩しており,社会に大きな変革をもたらす可能性を秘めている。
- AIとHWの研究開発が分断されており,全体最適化ができていない。
- AIの効率向上と持続可能性を追求し,エネルギー効率を飛躍的に改善すること。
- AIの学習と推論における効率を1000倍向上させることを目標とする。
- クラウド,エッジ,物理環境をシームレスに接続するエネルギー効率の高い自己最適化システムを実現する。
- 高度なAIインフラへのアクセスを民主化し,人間中心の原則をAI設計に組み込む。
グロッキングの幾何学的帰納的バイアス:アーキテクチャのトポロジーによる相転移の回避 [cs.LG, cs.AI]目的:グロッキング現象におけるアーキテクチャのトポロジーが訓練動態に与える影響の解明
- 深層学習モデルの汎化性能向上には,モデルの構造的特性の理解が不可欠である。
- Transformerモデルにおけるグロッキングは,学習初期の暗記段階が長く,汎化が遅れるという課題がある。
- アーキテクチャのトポロジーを制御することで,暗記段階を短縮し,汎化を促進することを目指す。
- 標準的なTransformerモデルの構造的要素である表現力の大きさの制限とデータ依存的な注意機構の変更により,グロッキングの開始時間を大幅に短縮できた。
- Uniform Attention Ablationにより,注意層をCBOW集約器とすることで,グロッキングの遅延を完全に回避し,100%の汎化性能を達成した。
- 非可換なS5置換構成を用いた対照実験により,この加速はタスク固有の幾何学的整合性に依存することが示された。
意思決定のワークフローと説明が人間とAIの意思決定に及ぼす影響:信頼の多様性 [cs.HC, cs.AI]目的:人間とAIの共同意思決定における信頼の形成と行動
- AI技術の進化に伴い,人間の意思決定を支援するAIの活用が重要となっている。
- AIへの過信や過小評価は,意思決定の質を低下させる可能性があり,適切な信頼関係構築が課題である。
- 意思決定のワークフローや説明が,AIへの信頼と行動にどのように影響するかを明らかにすること。
- 2段階の意思決定ワークフローは,AIへの過信を抑制する効果は見られなかった。
- ワークフローは自己申告による信頼度に直接影響しなかったが,ドメイン知識や説明の有無との相互作用が示された。
- 自己申告による信頼と実際の行動は異なる概念であり,個別評価が必要であることが確認された。
テスト時強化学習による音声・テキスト意味的報酬を用いたASRのロバスト性向上 [cs.SD, cs.AI, cs.LG]目的:実世界の未知データに対するASRシステムのロバスト性向上
- 近年,ASRは精度が向上しているが,現実環境における多様なデータへの対応が課題である。
- 既存のテスト時適応手法は,擬似ラベルやエントロピー最小化に依存し,誤った自信を高める可能性がある。
- 因果介入に着想を得た強化学習により,ASRシステムの適応能力を向上させることを目指す。
- 提案手法ASR-TRAは,LibriSpeechとL2 Arcticのデータセットで,既存手法よりも高い精度を達成した。
- 音声と言語に基づく報酬を組み合わせることで,安定性と解釈性が向上することが確認された。
- 実世界の過酷な条件下でのASRシステム展開に対する,実用的かつ堅牢な解決策を提供する。
SlideSparse:高速かつ柔軟な(2N-2):2N構造疎性 [cs.LG]目的:$(2N-2):2N$パターンにおけるLLMの加速
- LLMの計算コストは非常に高く,効率的な推論が求められている。
- 既存の疎性技術は,特定の疎性パターンに限定され,柔軟性に欠ける。
- $(2N-2):2N$パターンに対応し,汎用GPUで疎性Tensor Coreを活用する。
- SlideSparseは,$(2N-2):2N$パターンの重みをSparse Tensor Coreで高速化する。
- スライディングウィンドウ分解と活性化リフティングにより,精度劣化なく加速を実現。
- Qwen2.5-7Bにおいて,6:8疎性で1.33倍の速度向上を達成。
ニューラル推論のための再帰的推論機械 [cs.LG, cs.AI]目的:ニューラル推論における再帰的推論メカニズムの導入
- 複雑な問題を解決するため,ニューラルネットワークと推論スキームの組み合わせが重要である。
- 従来の推論システムは,確率モデルへの適用において柔軟性に欠ける点が課題である。
- 古典的な推論エンジンに触発された再帰的推論メカニズムを組み込み,推論能力を向上させる。
- 再帰的推論機械(RIM)は,Tiny Recursive Models (TRM)を包含し,拡張が可能であることが示された。
- RIMは,ARC-AGI-1, ARC-AGI-2, Sudoku Extremeなどの推論ベンチマークにおいて,TRMよりも優れた性能を発揮した。
- また,RIMは表形式データの分類においてもTabPFNsを上回り,推論タスクの汎用性も示された。
ソース不要クロスドメイン少数ショット学習のための失われたテキスト層の再利用 [cs.AI]目的:ソース不要クロスドメイン少数ショット学習における性能向上
- 画像認識において,少量データでの学習は重要であり,ドメイン間の汎化性能が課題である。
- クロスドメイン少数ショット学習では,ターゲットドメインのデータが限られているため,性能が低下しやすい。
- テキストエンコーダの有用な情報を活用し,ドメインシフトへの適応能力を高めることを目指す。
- テキストエンコーダの中間層(失われた層)を削除するとSF-CDFSLの性能が向上する現象を調査した。
- 失われた層は冗長ではなく,むしろ有益な情報を含んでいることが判明した。視覚的なギャップがその活用を妨げている。
- 失われた層の情報を再利用する手法を提案し,様々な設定,バックボーン,タスクで有効性を示した。
GCAgent:対話エージェントシステムによるグループチャットコミュニケーションの強化 [eess.SY, cs.SY, math.OC, cs.AI]目的:グループチャットにおけるコミュニケーション強化のためのシステム
- オンラインプラットフォームにおける重要なコミュニケーション手段であり,情報共有や問題解決に貢献する。
- 活発性の低下や管理の難しさなどが課題となり,その効果が制限される場合がある。
- 大規模言語モデルを活用し,多人数参加のグループチャットにおけるコミュニケーションを活性化させる。
- GCAgentは,様々な評価基準において平均4.68のスコアを獲得し,ベースモデルと比較して51.04%のケースで好まれた。
- 350日以上にわたる実環境での運用により,メッセージの送信量が28.80%増加し,グループの活動とエンゲージメントが大幅に改善された。
- 本研究は,大規模言語モデルベースの対話エージェントを1対1のチャットから多人数参加のグループシナリオに拡張するための実践的な青写真を提示する。
分散型単独風力タービンの行動に基づいた連合予測フレームワーク [cs.CL, cs.LG]目的:分散型単独風力タービンの短期風力発電予測
- 電力系統の運用や市場取引において,正確な風力発電予測は不可欠である。
- タービンデータの集中管理は,プライバシー,コスト,異質性といった問題を引き起こす。
- データの局在性を保ちつつ,高精度な予測を可能とするプライバシー保護ソリューションの提供。
- 本研究では,Double Roulette Selection (DRS)とAuto-splitを用いた行動に基づいたクラスタリングが,行動特性の類似したグループを特定できることを示した。
- 提案フレームワークは,データ分散環境下において,既存の地理的分割手法やk-means++と同等以上の予測精度を達成した。
- 連合学習によるモデル訓練が,データプライバシーを保護しつつ,異質な風力タービン群に対する効果的な予測を可能にする。
単語誤り率を超えて:音声認識における多様性の税をデータセット地図作成を通して監査する [cs.AR, cs.LG]目的:音声認識システムの多様性に対する偏りの評価と軽減
- 音声認識技術は,現代社会における情報アクセスやコミュニケーションにおいて不可欠である。
- 従来の単語誤り率では,意味的な正確さや話者特有の偏りを捉えきれない。
- データセット地図作成とサンプル難易度指標を用いて,システムバイアスを可視化し,公平性を評価する。
- 単語誤り率だけでは捉えきれない,少数派や非典型的な話者に対する認識エラーの不均衡(多様性の税)が明らかになった。
- 新指標であるサンプル難易度指標(SDI)により,人口統計学的・音響的要因がモデルの失敗に与える影響を定量的に評価できた。
- EmbERやSemDistといった指標を用いることで,単語誤り率では見過ごされるシステムバイアスやモデル間の不一致を特定できた。
ブラックボックスへの囁き:視覚的プロンプトによる凍結OCRのブートストラップ [cs.LG, cs.AI]目的:凍結OCRの性能向上
- 機械学習モデルの安定性と効率性が重要視される中,特定のタスクへの適応が課題となっている。
- データ分布の不一致により,事前学習済みモデルが特定のタスクで十分な性能を発揮できない場合がある。
- 視覚的プロンプトを通じて入力に改善を加え,凍結されたOCRモデルの性能を向上させることを目指す。
- 提案手法「Whisperer」は,拡散モデルを活用し,入力画像を改善することで,凍結されたOCRモデルの性能を向上させる。
- 難易度の高い劣化画像データセットにおいて,文字誤り率(CER)を絶対値で8%,相対値で10.6%削減することに成功した。
- 従来の画像処理技術(CLAHEなど)と比較して,より高い性能を示すとともに,学習効率も高い。
層ごとに,モジュールごとに:ViTのOODプローブの最適化 [cs.RO, cs.SY, eess.SY, cs.CV, cs.LG, stat.ML]目的:ViTにおける中間層の性能評価と,分布シフトに対する最適なプローブ手法の特定
- 近年,大規模モデルの中間層が最終層よりも識別能力が高いことが示されており,そのメカニズム解明が重要である。
- 事前学習データと下流タスクのデータの分布シフトが,モデル性能低下の主要因となっている。
- 分布シフトの度合いに応じて,最適なプローブ対象となるモジュールを特定し,性能向上を目指す。
- 分布シフトが大きい場合,フィードフォワードネットワーク内の活性化をプローブすることが最も効果的である。
- 分布シフトが小さい場合,マルチヘッド自己注意モジュールの正規化出力をプローブすることが最適である。
- 層ごとに,さらにモジュールごとにプローブ手法を選択することで,OOD汎化性能を最大限に引き出すことができる。
X-RAY:形式化・較正されたプローブによるLLMの推論能力のマッピング [cs.CG, cs.AI]目的:LLMの推論能力のマッピング
- LLMの性能向上は目覚ましいが,その推論能力は未だ十分には解明されていない。
- 既存の評価はタスクレベルの精度に偏り,パターン認識と真の推論能力を区別できない。
- LLMの推論能力を形式的に検証可能なプローブを用いて詳細に分析し,その構造的特徴を明らかにする。
- LLMは制約条件の絞り込みには比較的強いが,解空間の構造的変更には著しく脆弱であることが示された。
- 標準的なベンチマークでは区別がつかないモデル間でも,較正されたプローブを用いることで差異が明確になった。
- 本フレームワークは汚染がなく,推論モデルの学習とテストにも活用できる。
知識の乖離とスケーラブルな監視における議論の価値 [cs.RO, cs.LG, cs.CL]目的:AIシステムの議論による安全性評価と,AIからのフィードバックを用いた強化学習の価値
- 高度なAIシステムの安全性を確保するため,スケーラブルな監視方法が不可欠である。
- 既存手法では,AIシステムの潜在的なリスクを十分に特定・評価することが困難である。
- 議論を通じてAIモデル間の知識の差異を分析し,効果的な監視手法を確立すること。
- 議論の価値は,議論するモデル間の知識の乖離の幾何学的構造によって特徴付けられることが示された。
- モデルが同一の学習データを持つ場合,議論は単一エージェントによる手法と等価になる。
- モデルが異なる知識を持つ場合,議論の利点は知識の乖離の度合いに応じて変化し,効果的な監視に不可欠となる場合がある。
AND/OR木を用いた長期的なWebタスクの計画 [cs.AI]目的:長期的なWebタスクにおける計画手法
- 大規模言語モデルの進化により,Web環境での自律的なタスク実行が期待されている。
- 既存のWebエージェントは,記憶容量の限界や計画能力の弱さにより,複雑なタスクで苦戦している。
- 本研究は,AND/OR木と構造化された記憶モジュールを用いて,Webタスクの計画能力を向上させる。
- 提案手法STRUCTUREDAGENTは,WebVoyager,WebArena等のベンチマークで,既存手法を上回る性能を示した。
- AND/OR木構造により,効率的な探索が可能となり,複雑なタスクの成功率が向上した。
- 構造化された記憶モジュールは,情報収集タスクにおける制約充足を改善し,より適切な解の探索に貢献した。
WebChain:大規模な人間アノテーション付きウェブインタラクション追跡データセット [cs.AI, cs.CV]目的:実世界のウェブサイトにおける人間による操作軌跡のデータセット
- ウェブエージェント研究の発展には,現実世界のウェブサイトでのユーザー行動データの重要性が高い。
- 既存のデータセットは規模が小さく,複雑なタスクを網羅していない場合がある。
- ウェブエージェントの性能向上と厳密な評価のための,高品質で大規模なデータセットの必要性。
- WebChainは31,725件の軌跡,318,000ステップを含む,大規模なオープンソースデータセットである。
- 視覚情報,構造情報,アクションデータのTriple Alignmentにより,豊富なマルチモーダルな学習が可能となる。
- Dual Mid-Trainingという手法を提案し,WebChainBenchや他のGUIベンチマークで最先端の性能を達成した。
ワンステップフローポリシーによる潜在的ポリシー操縦 [cs.RO, cs.LG]目的:オフライン強化学習における潜在的ポリシーの改善
- ロボットの安全な学習が重要であり,オフラインデータ活用が鍵となる。
- オフライン強化学習では,性能向上とデータ範囲外への行動回避のバランスが難しい。
- データ範囲内で高精度なポリシー改善を実現し,ハイパーパラメータ調整の負担を軽減する。
- 提案手法LPSは,オリジナル行動空間のQ勾配を直接伝播させることで,潜在空間でのポリシー改善を高精度に行う。
- ワンステップMeanFlowポリシーが行動制約の事前分布となり,エンドツーエンドな最適化を可能にする。
- OGBenchや実ロボットタスクにおいて,最先端の性能を達成し,既存手法を上回る結果が得られた。
WavSLM:WavLM蒸留による単一ストリーム音声言語モデル [cs.LG, cs.AI, cs.CL, cs.SD]目的:単一ストリーム音声言語モデルの構築
- 音声処理分野における言語モデルの重要性が増している
- 既存の音声言語モデルは複雑な構造やテキスト依存性が課題である
- テキストを用いずに,効率的な音声言語モデルを開発すること
- WavSLMは,自己教師あり学習モデルWavLMの表現を蒸留することで構築された。
- 単一のコードブックと自己回帰的な予測タスクを用いることで,音声と意味情報を同時にモデル化する。
- 少ないパラメータとデータで,既存モデルと同等の性能を達成し,ストリーミング推論も可能である。
UniSTOK:一様誘導空間時間クリギング [cs.AI]目的:空間時間クリギングによる未観測地点の信号推定
- 交通や環境モニタリングなど,様々な応用において重要である。観測データから未知の場所の値を予測する手法。
- 観測センサーの欠損が不均一であり,粗雑な入力補完に頼らざるを得ないという課題がある。
- 欠損データに起因するアーティファクトの識別と,歪んだ空間時間構造への対処を目指す。
- UniSTOKは,既存の誘導クリギングモデルにプラグアンドプレイで組み込むことが可能。
- 欠損エントリのみにプロキシ信号を合成したジグソーパズル拡張入力を用いることで,欠損の影響を軽減。
- 複数の実世界データセットにおいて,様々な欠損パターン下で顕著な改善が確認された。
Med-V1:ゼロショットおよびスケーラブルな生物医学的証拠帰属のための小規模言語モデル [cs.CL, cs.AI]目的:生物医学的証拠の帰属に関する研究
- 医学研究における根拠に基づく判断の重要性が増しており,その検証が不可欠である。
- 大規模言語モデルは強力だが,その利用コストが高く,大規模展開が困難である。
- コスト効率の良い小規模言語モデルによる,生物医学的証拠の正確な帰属を目指す。
- Med-V1は,30億パラメータの小規模言語モデルであり,既存モデルを大幅に上回る性能を示す。
- GPT-5と同等の性能を持ちながら,予測の根拠となる説明も提供できる。
- LLM生成回答におけるハルシネーションの定量化や,臨床ガイドラインにおける誤った証拠帰属の特定に貢献する。
潜在マーク:ニューラル再合成に強い音声ウォーターマーク [cs.RO, cs.SD, cs.AI]目的:ニューラル再合成に耐性を持つ音声ウォーターマーク技術
- 音声コンテンツの不正利用防止は重要であり,著作権保護の鍵となる。
- 従来のウォーターマークは,ニューラルオーディオコーデックによる意味的圧縮に弱い。
- コーデックの潜在空間にウォーターマークを埋め込み,意味的圧縮への耐性を高める。
- 提案手法Latent-Markは,複数のコーデックを対象とした最適化により,未知のコーデックへの高い転送性能を示す。
- 従来のDSP攻撃に対する耐性も高く,知覚的な劣化も最小限に抑えることが確認された。
- 複雑な生成歪みに対しても整合性を維持できる汎用的なウォーターマーク技術への道を開く。
ペルシャ語句読点復元のための大規模データセットとBERTベースのアプローチ [cs.RO, cs.CL, cs.AI]目的:ペルシャ語句読点復元のための大規模データセット及びアプローチ
- 音声認識の出力品質向上に不可欠であり,自然言語処理の重要な課題である。
- ペルシャ語の句読点復元は,リソースの少なさから研究が十分に進んでいない。
- 大規模データセットと効率的なBERTモデルによる,ペルシャ語の句読点復元性能向上を目指す。
- 大規模データセットPersianPuncを構築し,句読点復元をトークンレベルの系列ラベリング問題として定式化した。
- ParsBERTをファインチューニングすることで,高い性能を達成し,過剰修正の問題を軽減した。
- 提案手法は,テストセットでマクロ平均F1スコア91.33%を達成し,リアルタイム応用の効率性も示した。
時系列クラスタリングのためのグローバルおよびローカルな対向事実 [cs.LG, cs.AI]目的:時系列クラスタリングにおけるパターン発見の解釈可能性向上
- 時系列データは様々な分野で広く利用され,その分析は重要性が高い。
- 既存の説明手法では,クラスタ境界を越える遷移を特定できないという課題がある。
- 時系列クラスタリングにおける対向事実を用いた解釈可能性の向上を目指す。
- GALACTICは,ローカルとグローバルな対向事実の説明を統合した初のフレームワークである。
- ローカルレベルでは,ターゲットとクラスタ割り当てを尊重するクラスタ認識最適化により摂動を生成する。
- グローバルレベルでは,Minimum Description Length(MDL)目的関数を用いて冗長性のない要約を抽出し,解釈性を高める。
