arXiv雑要約
AI - 2026/06/05 公開
IatroBench:AI安全対策による医原性有害事象の事前登録された証拠 [cs.AI, cs.CL, cs.CY, cs.LG]目的:AI安全対策がもたらす医原性有害事象の非対称性評価
- AI医療応用は患者ケアの質を向上させる可能性を秘めているが,安全性確保が重要課題である。
- AIモデルの安全対策が,臨床的必要性にかかわらず情報提供の偏りを生む可能性がある。
- AIモデルにおける患者と医師への情報提供の差異を定量的に評価し,問題点を明らかにすること。
- 事前登録された臨床シナリオ60例と6つの最先端モデルを用いて,AIの有害事象(誤り,情報隠蔽)を評価した。
- AIは医師に対しては必要な情報を提示するが,患者に対してはそれを拒否する「アイデンティティ依存的な情報隠蔽」が確認された。
- 特に安全性対策が強化されたモデルほど,この傾向が顕著であり,AIの安全性評価の盲目性が問題であることが示唆された。
SUPERNOVA:自然言語指示を用いた強化学習によるLLMの汎用的な推論能力の引き出し [cs.AI, cs.CL, cs.LG]目的:LLMにおける汎用的な推論能力の獲得
- LLMの推論能力は,様々な分野での応用を可能にする重要な要素である。
- 従来の強化学習は,STEM分野に偏っており,他の分野への応用が困難であった。
- 自然言語指示データから高品質な訓練データを生成し,汎用的な推論能力を向上させる。
- SUPERNOVAフレームワークによって,自然言語指示データセットから強化学習用のデータをキュレーションする方法が確立された。
- Qwen3-0.6BをSUPERNOVAで訓練した結果,BigBench Extra Hard (BBEH)において64.4ppの相対的な性能向上が見られた。
- SUPERNOVAによる性能向上は,未学習のベンチマーク,より大規模なモデル,新しいモデルファミリーにも一般化することが示された。
非有界領域における高次元Gross-Pitaevskii方程式のための確率的次元固定サンプリングニューラルネットワーク [cs.RO, cs.LG]目的:高次元Gross-Pitaevskii方程式の解法
- 量子力学におけるボソン粒子のダイナミクスを記述するGPEは,様々な物理現象の理解に不可欠である。
- 高次元GPEの計算は,次元の呪いにより計算コストが指数関数的に増加する。
- 確率的次元サンプリングとニューラルネットワークを組み合わせ,高次元GPEの効率的な解法を提供する。
- 本研究で提案するSD-FSNNは,従来の離散化手法や勾配ベースのニューラルネットワークソルバーのボトルネックを克服する。
- SD-FSNNは,最先端の方法と比較して,最大1000次元におけるGPEにおいて,より高い精度と効率を達成する。
- SD-FSNNは,凍結基底モデルにおけるKolmogorovのn幅の障壁を効果的に軽減することが確認された。
SOLARIS:潜在ベース表現の投機的オフローディングによる推論のスケーリング [cs.LG]目的:推薦システムにおける推論のスケーリング
- 推薦システムの規模拡大に伴い,より複雑なモデルが必要とされている。
- 高性能なモデルは計算コストが高く,リアルタイムでの提供が困難である。
- 高コストなモデルをオンライン利用可能にし,リアルタイムでの知識伝達を実現する。
- SOLARISは,将来のリクエストで出現する可能性の高いユーザーアイテムペアの埋め込みを予測し,非同期的に表現を生成する。
- これにより,高コストなモデルの推論をリアルタイムの提供経路から分離し,効率的な知識伝達を可能にする。
- Metaの広告システムへの導入により,収益を0.67%向上させる効果が確認された。
検索拡張生成は,事実の根拠付けを超えて多様な意見を表現しなければならない [cs.AI, cs.CL, cs.IR]目的:意見を豊富に含むコンテンツにおける認識的不確実性の削減に最適化し,意見に固有の本質的な不確実性を無視する検索拡張生成システムに存在する体系的な事実偏向
- 情報へのアクセス手段として検索拡張生成システムが普及するにつれ,多様な視点の表現は不可欠である。
- 既存の検索拡張生成システムは,事実に基づいた内容に偏っており,意見の多様性を考慮していない。
- 意見を考慮した検索拡張生成システムを構築し,情報合成における偏りを軽減すること。
- 提案手法であるOpinion-Aware RAG(O-RAG)は,コーパスレベルの感情分布とのWasserstein距離を18〜48%削減した。
- O-RAGは,感情の多様性を26.8%向上させ,エンティティマッチング率を42.7%向上させた。
- 人間による評価では,意見が強化された応答が79.2%の確率で好まれた。
運動学から動力学へ:物理的に実行可能な計画の改善学習 [cs.RO, cs.AI]目的:ロボットの物理的制約を考慮した計画の改善
- ロボットが複雑なタスクを遂行する上で,空間的な領域を順に移動する計画が重要となる
- 従来のハイブリッド計画法では,線形な運動モデルを用いるため,ロボットの実際の物理的制約を満たせない場合がある
- ロボットの物理的実現可能性を保証し,計画と実際の実行のギャップを埋める
- 強化学習を用いて,ハイブリッドプランナーが生成した一次の計画を改善する手法を提案した
- 提案手法は,解析的な二次の制約を明示的に組み込んだマルコフ決定過程を定義する
- 実験結果から,提案手法が物理的実現可能性を確実に回復し,実用的な実行に繋がることを示した
Brain-CLIPLM:EEGからのテキスト復号における意味圧縮 [cs.CL, cs.AI, cs.CV]目的:非侵襲脳波(EEG)からの自然言語復号
- 脳活動から言語を直接読み取る試みは,認知科学やブレイン・コンピュータ・インターフェースの発展に不可欠である。
- 脳波はノイズが多く情報帯域が限られているため,高精度な言語復号が困難である。
- 脳波からより効率的に意味内容を抽出し,自然な文章を生成することを目指す。
- Brain-CLIPLMは,脳波から意味的アンカーを抽出し,それを基に文章を再構成する二段階のフレームワークである。
- ZuCoベンチマークにおいて,Brain-CLIPLMはTop-5で67.6%,Top-25で85.0%の文検索精度を達成した。
- 脳波由来のアンカーが,言語モデルの事前知識を超えた文特有の情報を含んでいることが示された。
Transformerのトポロジー的困難性 [cs.LG, cs.AI]目的:Transformerにおける状態追跡の限界と,再帰的アーキテクチャによる改善策の検討
- 自然言語処理の発展に伴い,文脈を考慮した高性能なモデルが求められている。
- Transformerは構造を符号化するが,状態追跡能力に限界があり,深い層での情報アクセスが困難である。
- Transformerの状態追跡能力を向上させ,より効率的なモデルを構築することを目指す。
- Transformerは,状態追跡において,層が深くなるにつれて情報が失われやすいという課題を抱えている。
- 再帰的アーキテクチャは,この課題を克服するための有効な手段となり得る。
- 状態空間モデルや粗視化された再帰構造などの研究方向性が示唆されている。
画像生成器は汎用的な視覚学習者である [cs.CV, cs.AI]目的:画像生成による事前学習が,強力かつ汎用的な視覚表現を学習し,多様な視覚タスクで最先端の性能を達成すること
- コンピュータビジョン分野において,汎用的な視覚モデルの構築は重要な課題である。
- 既存の視覚モデルは,特定のタスクに特化し,汎用性に欠ける場合が多い。
- 画像生成による事前学習が,視覚理解能力を向上させ,汎用的なモデルを構築する可能性を検証する。
- 画像生成モデル(Vision Banana)は,セグメンテーションや深度推定などの多様な視覚タスクで,既存の専門モデルと同等またはそれ以上の性能を達成した。
- 軽量な指示学習により,ベースモデルの画像生成能力を損なうことなく,優れた性能を実現した。
- 画像生成事前学習が,視覚理解のための統一的で普遍的なインターフェースとなる可能性を示唆し,コンピュータビジョンのパラダイムシフトに貢献する。
Open-H-Embodiment:医療ロボット用基盤モデルを可能にする大規模データセット [cs.CL, cs.RO, cs.AI]目的:医療ロボットにおける大規模データセットの公開
- 医療現場の負担軽減や患者の治療成績向上に,自律型医療ロボットへの期待が高まっている。
- 既存の医療ロボットデータセットは規模が小さく,共有も限定的であり,基盤モデル開発のボトルネックとなっていた。
- 多様なロボットプラットフォームを用いた大規模データセットを公開し,基盤モデル開発を促進することを目的とする。
- Open-H-Embodimentは,50以上の機関,複数のロボットプラットフォームを含む,これまでにない大規模な医療ロボット動画データセットである。
- GR00T-Hは,医療ロボットにおける初のオープンなビジョン・言語・行動モデルであり,構造化縫合ベンチマークで高いタスク完了率を示した。
- Cosmos-H-Surgical-Simulatorは,9つのロボットプラットフォームに対応した行動条件付きワールドモデルであり,シミュレーションとデータ生成を可能にする。
効率的なマルチヘッドアテンションのための適応的ヘッド予算 [cs.LG]目的:マルチヘッドアテンションにおけるヘッドの動的配分
- Transformerモデルの性能向上には,多様な表現の獲得が不可欠であるため。
- 固定的なヘッド配分は,タスクの複雑さに応じて無駄な計算を招く場合がある。
- 入力に応じてヘッド数を調整し,計算効率と性能の両立を目指す。
- BudgetFormerは,入力ごとにアテンションヘッドを動的に割り当てることで,FLOPsとメモリ使用量を削減できる。
- テキスト分類タスクにおいて,標準的なマルチヘッドアテンションと同等以上の性能を達成している。
- 適応的なヘッド配分が,Transformerの効率と性能を向上させる有効なアプローチであることを示唆する。
RAT:完全自動環境構築によるRunAnyThing [cs.SE, cs.AI]目的:リポジトリレベルのソフトウェアエンジニアリングタスク自動化
- 自律的なコードエージェント実現には不可欠であり,開発効率向上に寄与する。
- 環境構築は手作業に頼る部分が多く,ボトルネックとなっている。
- 多様なリポジトリでの完全自動環境構築を可能にすること。
- RAT(RunAnyThing)は,プログラミング言語を問わず,任意のレポジトリで完全自動化された環境構築を実現するモジュール型エージェントフレームワークである。
- RATは,言語を意識した抽象化,イメージ初期化,特殊な構成ツールセット,堅牢なサンドボックスを統合した多段階パイプラインを採用している。
- 実験の結果,RATは既存のベースラインと比較して,環境設定成功率(ESSR)を平均36.1%向上させた。
HopperおよびBlackwell GPUにおけるAIワークロードに対するCUDA Tileの評価 [cs.LG, cs.AI, cs.AR]目的:AIワークロードにおけるCUDA Tileの性能と移植性
- GPUの計算能力向上は,AI分野の発展に不可欠であり,高性能なカーネル開発が重要となる。
- GPUカーネル開発は複雑であり,Tensor Core等のハードウェア機能を最大限に活用することが難しい。
- CUDA Tileは,簡略化された開発と高性能を両立させ,その有効性を検証する必要がある。
- Blackwell B200において,CUDA TileはFused AttentionでFlashAttention-2の2.5倍の性能を示し,簡潔なコードで高い性能を実現した。
- GEMMにおいては,cuBLAS性能の52-79%に達し,手書きCUDAカーネルの代替として実用性があることが示唆された。
- RTX PRO 6000では,同じAttentionカーネルの性能がFlashAttention-2の53%にとどまり,アーキテクチャ間の最適化ギャップが明らかになった。
RAS:自動音声認識のための信頼性重視指標 [cs.CL, cs.DC, cs.SD, cs.AI]目的:自動音声認識システムの信頼性評価
- 音声認識技術は,様々な応用で不可欠であり,その性能向上は重要な課題である。
- 従来の評価指標は精度のみに焦点を当てており,信頼性の低い認識結果を区別できない。
- 不確実な部分を回避する音声認識モデルを評価するための新たな指標を開発すること。
- 提案手法RASは,認識結果の有益性と誤り回避のバランスを取り,人間の好みに基づいてパラメータ調整が可能である。
- 教師ありブートストラップと強化学習を用いて,信頼性重視の音声認識モデルを学習した。
- 実験の結果,信頼性が大幅に向上し,同時に高い認識精度を維持することが示された。
較正された驚き:創造的な品質に関する情報理論的考察 [cs.CL, cs.AI, cs.LG]目的:創造的な文章の品質評価に関する情報理論的基盤
- 大規模言語モデルの発展に伴い,文章の創造性評価の重要性が増している。
- 既存の評価方法は主観的であり,統計的な構造を考慮していない。
- 文章内在の統計的構造に基づく,客観的な品質評価手法を確立すること。
- 「較正された驚き」は,優れた文章の本質を捉える情報理論的な指標として提案された。
- 高品質な文章は,制約下において予測しにくい選択をわずかな確率で含み,高いI(X;Y)値を示すことが確認された。
- 20組の比較実験(中国語12組/英語8組)において,高品質な文章が劣化版よりも高いI(X;Y)値を持つことが示された。
ノルウェー5つの入札エリアにおける,危機後の電力価格予測 [cs.LG, econ.GN, q-fin.EC, stat.AP]目的:ノルウェー5つの入札エリアにおける電力価格予測モデルの評価
- 水力発電が中心のノルウェー電力市場は,エネルギー危機やヨーロッパ大陸との統合により価格形成が変化している。
- 過去データで調整された予測モデルの信頼性が低下しており,更新されたモデルが求められている。
- ノルウェー全エリアで特徴量の貢献度を評価する統一的なベンチマークを確立し,より精度の高い予測を目指す。
- LightGBMが全エリアで最高の性能を示し,平均絶対誤差は1.60〜5.58ユーロ/MWhであった。
- リッジ回帰付きの自己回帰モデルは,北部エリアにおいて競争力のある線形ベンチマークとして機能した。
- 過去の価格とカレンダー変数の組み合わせだけで高い精度が得られる一方,レジーム分析により,水力発電量やガス価格などの外部要因が重要な役割を果たすことが示された。
プロセス報酬モデルのための制御可能かつ検証可能なプロセスデータ合成 [cs.CL, cs.RO, cs.AI]目的:プロセス報酬モデルの学習・評価に用いるプロセスデータの合成
- プロセス報酬モデルは,高度な推論能力を実現する上で重要な役割を担う。
- 既存のデータ構築手法では,エラーの位置,種類,軌跡の一貫性に関する制御が難しい。
- エラー箇所を特定しやすく,一貫性のあるプロセスデータを生成することで,モデルの性能向上を目指す。
- 提案手法により合成されたデータは,論理的推論ベンチマークにおけるBest-of-8のリランキング性能を向上させる。
- 合成データは,数学的推論タスクへの転移も可能であることが示された。
- ステップレベルの評価から,最初の誤り箇所の特定が,ステップ全体の分類よりも著しく困難であることが明らかになった。
LLMにおける道徳的感受性:行動プロファイリングとメカニズム解釈による文脈的バイアスの階層的評価 [cs.LG, cs.CY]目的:LLMにおける道徳的感受性の評価
- 倫理的判断が求められる場面でLLMの利用が増加しており,その倫理的側面への関心が高まっている。
- 既存のバイアス評価は二元的であり,バイアスの段階的な現れ方や文脈依存性を捉えられていない。
- LLMのバイアスがどのように文脈に応じて現れるかを詳細に分析し,そのメカニズムを解明すること。
- 道徳的感受性指数(MSI)を導入し,LLMのバイアス発生確率を7段階で評価した。
- モデルによってバイアスの現れ方に違いがあり,Gemini 1.5は社会経済的文脈で高いMSIを示し,Claudeはアイデンティティに基づく安全対策によりバイアスを抑制していた。
- 推論蒸留により,バイアスが再活性化されることが示され,浅い統計的関連が圧縮されている可能性が示唆された。
観察からの世界理論構築の学習 [cs.LG, cs.AI]目的:世界の説明的理論の推論
- 世界理解は予測だけでなく,仕組みの解明が重要である。
- 既存モデルは予測に偏り,人間のような理論構築が困難である。
- 生の観察データから,明示的な世界理論を学習することを目指す。
- 本研究は,学習による理論構築パラダイム「Learning-to-Theorize」を提案する。
- 確率的ニューラルモデル「NEO」は,学習された思考言語をプログラムとして表現し,現象を説明する。
- 実験により,説明駆動型汎化が可能となり,プログラムを通じて観察が理解されることを示した。
フロンティア・ラグ:学術的なAI評価における能力の誤表現に関する書誌学的監査 [cs.CY, cs.AI, cs.CL]目的:AI評価研究における能力の誤表現の現状把握
- AI技術の急速な進歩により,AIの能力評価の正確性が重要となっている。
- AI評価論文において,最新モデルではなく旧モデルの能力が報告されることが多い。
- AI評価論文における「フロンティア・ラグ」の実態を定量的に明らかにする。
- AI評価論文で評価されているモデルの能力は,評価時点のフロンティアモデルよりも平均してECIで10.85ポイント遅れている。
- この遅延ギャップは年平均5.53ECIずつ拡大している。
- AIの能力を評価する論文において,モデル固有の情報開示が不十分であり,AI全体としての結論が導かれている傾向がある。
没入型ビデオロールプレイングのための報酬分解強化学習 [cs.AI]目的:没入型ビデオロールプレイングにおける対話モデルの性能向上
- VRゲームやインタラクティブな物語など,没入型アプリケーションの重要性が高まっている。
- 既存のテキストベースのロールプレイングモデルは,シーンの雰囲気や緊張感の推移を捉えきれていない。
- 視覚情報に基づいた推論と応答生成により,より自然で魅力的なロールプレイング対話を可能にすること。
- 提案手法EBM-RLは,テキストのみのベースラインや大規模なビジョン言語モデルと比較して,没入型ロールプレイングベンチマークで大幅な性能向上を示した。
- シーンの雰囲気とキャラクターの信頼性の両方が向上し,視覚的な一貫性が高まった。
- 追加のファインチューニングなしで,他のドメインのVideoQAベンチマークにおいても優れたゼロショット転移性能を示した。
Tamaththul3D:単眼ビデオからの高忠実度3Dサウジアラビア手話アバター [cs.CV, cs.AI]目的:サウジアラビア手話データセットIshara-500に対するSMPL-Xパラメトリック注釈の提供
- 手話は聴覚障害者にとって重要なコミュニケーション手段であり,アクセシビリティ向上に不可欠である。
- 既存の手話アバター再構成手法は西洋の手話に限定され,アラビア手話のデータセットは存在しなかった。
- アラビア手話のためのアバターベースのアクセシビリティアプリケーション開発を可能にすること。
- Tamaththul3Dは,前腕チェーンの幾何学的な逆運動学と2D監督付き肩の改良を通じて,手と体の推定値を整合させる再構成パイプラインである。
- Tamaththul3Dは,既存手法と比較して最大32%手のエラーを低減し,32倍高速に動作する。
- データセット固有の適応なしに,5つの異なる類型の手話に一般化可能である。
キャッシュ応答を用いた効率的なモデル評価 [cs.LG, cs.AI, stat.ME]目的:モデル評価におけるクエリ効率の向上
- モデルのデプロイ前に挙動を把握することは重要であり,ベンチマークによる評価が不可欠である。
- 最新の評価フレームワークでは,全クエリに対する応答生成が計算コスト的に困難である。
- キャッシュされた応答を活用し,クエリ数を削減することで,正確なモデル評価を実現する。
- 提案手法は,DKPSに基づいてモデル間の関係を定量化し,クエリ効率の良い評価を可能にする。
- 実験的に,提案手法はベースラインと同等の平均絶対誤差を,大幅に少ないクエリ数で達成した。
- 参照モデルへの適合度を最大化するクエリ選択方法を提案し,予測精度を向上させた。
SHRED:自己蒸留とロジット降格によるリテインセットフリーなアンラーニング [cs.LG, cs.AI]目的:大規模言語モデルにおける記憶されたコンテンツの選択的除去
- プライバシー保護や著作権侵害防止のため,モデルから特定の情報を削除する技術が重要視されている。
- 既存手法は,モデルの汎用性を維持するためのリテインセットが必要であり,実用上の課題となっている。
- リテインセットを用いずに,効率的にモデルの記憶を削除し,性能を維持することを目的とする。
- SHREDは,忘却対象のトークンの中で,情報量の多いトークンに焦点を当ててアンラーニングを行う。
- 標準的なアンラーニングベンチマークにおいて,既存のリテインセット依存型手法を上回る性能を示した。
- SHREDは,再学習攻撃やメンバーシップ推論攻撃に対して堅牢であり,複数回のアンラーニング実行後も安定した性能を維持する。
テスト時学習による視覚的予見型ビジョン言語行動モデル [cs.CV, cs.LG, cs.RO]目的:視覚的予見型ビジョン言語行動モデルの分布外シフトへの脆弱性軽減
- ビジョン言語行動モデルは,ロボティクスやインタラクションタスクにおいて重要な役割を担う。
- 分布外データへの対応が課題であり,予測精度の低下や行動の不安定化を招く。
- テスト時にモデルを適応させることで,分布外シフトに対するロバスト性を向上させる。
- 提案手法T³VFは,予測画像と実際の観測画像を利用した自然な教師信号を用いて,テスト時学習を実現する。
- 適応的更新フィルタリング機構を導入することで,テスト時の無分別な更新による問題を抑制する。
- T³VFは,追加の計算コストを抑えつつ,VF-VLAの分布外シフトへの脆弱性を効果的に軽減する。
分布型強化学習のためのパス結合ベルマンフロー [cs.LG, cs.AI]目的:分布型強化学習におけるリターン分布の学習
- 強化学習は,複雑な意思決定問題において最適な行動戦略を学習する重要な手法である。
- 既存手法では,分布の表現や学習における課題(射影誤差,境界不一致,高分散など)が存在する。
- 分布の精度と学習の安定性を向上させ,オフライン強化学習の性能を改善することを目指す。
- 提案手法(PCBF)は,ソース一貫性を持つベルマン結合パスを用いて,リターン分布をフローマッチングにより学習する。
- PCBFは,共有ベースノイズにより現在のリターンフローと後継フローを結合し,分散削減のために制御変量ターゲットを用いる。
- 解析的なMRP,OGBench,D4RLでの実験により,分布の忠実度と学習の安定性が向上し,オフラインRL性能も競争力があることが示された。
注意がフーリエを超えるとき:不規則領域における偏微分方程式解法のためのマルチスケールTransformer [cs.LG, cs.AI, cs.NA, math.NA, physics.comp-ph, stat.ML]目的:偏微分方程式の解法のための深層学習モデルのアーキテクチャ選択
- 偏微分方程式は自然科学,工学の基礎であり,その効率的な解法は重要である。
- 複雑な形状の領域における偏微分方程式の数値解法は計算コストが高く,困難である。
- 複雑な形状の領域における効率的な偏微分方程式解法を可能にするアーキテクチャの提案。
- 提案手法Multi-Scale Attention Transformer (MSAT) は,複雑な形状問題において最先端の汎化性能を達成した。
- MSATはHeat2D-CG問題において,FNOと比較して3.7倍の性能向上を達成し,推論時間も大幅に短縮した。
- 物理情報の正則化項のトレードオフを明らかにし,領域境界の複雑さと近似誤差の関係を理論的に示した。
計画よりも証拠:スキル蒸留のためのオンライン軌跡検証 [cs.AI]目的:スキル蒸留における軌跡レベルの検証手法
- ロボット工学において,タスク成功率向上には効果的なスキル獲得が不可欠である。
- 既存手法は人間の嗜好ログに依存し,環境との相互作用が不足している場合がある。
- 環境との相互作用に基づいたスキル形成を促すことで,効率的なスキル獲得を目指す。
- 提案手法SPARKは,タスク実行の証拠を保持し,軌跡レベル分析を可能にする。
- 新たに定義した指標PDIを用いて,蒸留されたスキルの環境適合性を定量的に評価する。
- 86個のタスクにおいて,SPARKによって生成されたスキルは,人間の記述スキルを上回る性能を示した。
セキュアなハードウェア設計と関連問題におけるLLM:機会と課題 [cs.CR, cs.AR, cs.LG]目的:LLM駆動型ハードウェア設計の現状分析と今後の研究方向性
- 半導体産業の発展において,設計の自動化とセキュリティ強化が重要課題となっている。
- LLMの導入は脆弱性を生み出す可能性があり,ハードウェアの信頼性が懸念されている。
- LLMを活用した安全で信頼できるハードウェア設計エコシステムの構築を目指す。
- LLMはRTLコードの生成,テストベンチの自動化,仕様とシリコン間のギャップ解消に貢献する。
- データ汚染や敵対的機械学習による回避といった脆弱性が存在する。
- 動的ベンチマークや積極的なレッドチームによる評価など,対策の検討が不可欠である。
Alignment-as-Preference最適化による多言語反事実説明の強化 [cs.CL, cs.AI]目的:多言語反事実説明の品質向上
- 大規模言語モデルの挙動理解は,AIの信頼性向上に不可欠である。
- 非英語圏言語における有効な反事実説明の生成が困難である。
- 反事実説明の妥当性と最小性の間のトレードオフを解消する。
- 提案手法Macroは,既存手法と比較して,妥当性を平均12.55%向上させた。
- Macroは,妥当性を向上させつつ,最小性の劣化を抑制することに成功した。
- 言語間の摂動の整合性が向上し,一般的な生成エラーが軽減された。
プロファイリング駆動型テーブルデータ処理:エージェントワークフローによるアプローチ [cs.IR, cs.CL, cs.MA, cs.MM, cs.AI]目的:テーブルデータ処理の自動化
- 現実世界のデータパイプラインにおいて,テーブル処理は基礎的だが誤りがちである。
- 既存のLLMベース手法は,曖昧な指示や複雑なタスク構造により,意味的に誤ったコードを生成しやすい。
- 動的なプロファイリングを通じて,曖昧なユーザー意図を堅牢なテーブル変換に変換すること。
- ProfiliTableは,データ探索,知識を活用したコード合成,フィードバック駆動型改善を組み合わせた自律的なマルチエージェントフレームワークである。
- 実験の結果,ProfiliTableは,特に複雑なマルチステップシナリオにおいて,既存手法を上回る性能を示した。
- 動的なプロファイリングが,曖昧なユーザー意図を信頼性の高いテーブル変換に変換する上で重要な役割を果たすことが示された。
少ないサンプルでの音声単語分類のスケーリング:生成メタ継続学習によるアプローチ [cs.CL, cs.AI]目的:少ないサンプルでの音声単語分類におけるスケーリング可能性の検証
- 音声認識技術は,人間と機械の自然なコミュニケーションを可能にする上で不可欠である。
- 従来の少ないサンプル学習は,扱うクラス数が限られており,大規模な分類問題への適用が困難であった。
- 本研究は,多数のクラスを効率的に学習可能な手法を開発し,実用的な音声認識システムの構築を目指す。
- 生成メタ継続学習(GeMCL)アルゴリズムを用いることで,1000クラスの音声単語を少ないサンプル(5サンプル/クラス)で順次学習できることを示した。
- GeMCLは安定した性能を示し,完全にファインチューニングされたHuBERTモデルや,フリーズされたHuBERTモデルと学習された分類ヘッドの繰り返し学習に匹敵する性能を達成した。
- GeMCLは,後者と同程度の性能を維持しつつ,2000倍高速に学習を行い,学習データ量と時間を大幅に削減することができた。
ツリーアンサンブルに対する感度定量化:記号的・構成的アプローチ [cs.AI, cs.LG]目的:ツリーアンサンブルにおける感度定量化
- AI分類タスクの重要なモデルであり,安全性重視の分野で利用が広がっている。
- モデルの挙動変化に対する入力の微小な変更の影響評価が困難である。
- ツリーアンサンブル特有の感度を定量化し,脆弱な領域を特定する。
- 提案手法は,代数的決定図(ADD)を用いて計算を効率化し,大規模なアンサンブルにも適用可能である。
- 実験結果から,既存手法と比較して大幅な高速化が確認された。
- 本手法は,モデルの規模拡大にも対応可能である。
可視化された生成ネットワークを用いたデジタル回路のフォールトトレランス推定 [cs.AR, cs.AI, cs.CE]目的:デジタル回路における故障モードのフォールトトレランス推定手法
- 現代社会における電子機器の重要性から,その信頼性確保は不可欠である。
- デジタル回路設計における故障予測と,その影響評価は困難な課題である。
- 生成ネットワークを用いて,故障モードの影響を定量的に評価する手法を提案する。
- 生成ネットワークのサンプリング技術により,デジタル回路の故障モードに対するフォールトトレランスを数値的に推定可能となった。
- GANにおける複素変数表現の分析から,回路内の古典的な論理素子ごとの故障モードの影響を評価できる。
- 本手法は,電子設計におけるロバスト性の評価に貢献し,より信頼性の高い回路設計に繋がる。
推論モデルは単に思考を長くするのではなく,異なった動きをする [cs.CL, cs.LG, stat.ML]目的:思考連鎖生成における隠れ状態軌跡の分析
- 言語モデルの推論能力向上は,AI研究において重要な課題である。
- 思考連鎖の長さだけでは,モデルがどのように推論しているかの判断が困難である。
- 推論能力が向上したモデルの思考軌跡の特性を明らかにすること。
- 推論訓練されたモデルは,難易度が高い問題において,軌跡の幾何学的な特徴が変化することが示された。
- 特にコード生成において,より難しい問題ほど,より直接的な軌跡と均一な局所曲率を示すことが確認された。
- 思考軌跡の長さによる補正が,生成時の軌跡分析において不可欠であることが明らかになった。
ブロック注意機構の汎化:自動セグメンテーションとブロック蒸留による [cs.CL, cs.AI]目的:ブロック注意機構の汎化
- 長文コンテキスト処理においてKVキャッシュ再利用の効率化は重要である。
- 入力テキストを意味的にまとまりのあるブロックに分割することが困難である。
- ブロック注意機構の性能劣化を防ぎつつ,効率的な学習方法を確立する。
- SemanticSegという大規模セグメンテーションデータセットを構築し,テキストを人間が認識しやすいブロックに自動分割する軽量なセグメンターを学習した。
- ブロック蒸留という新しい学習フレームワークを提案し,フルアテンションモデルの知識をブロック注意モデルに効率的に伝達した。
- 提案手法は,様々なモデルとベンチマークにおいて,ブロック注意機構の性能をフルアテンションに近づけることを実証した。
代理ニューラルアーキテクチャ共同設計パッケージ (SNAC-Pack) [cs.LG, cs.AI, hep-ex]目的:ハードウェアを意識したニューラルアーキテクチャの共同設計とFPGAへのエンドツーエンド展開
- ニューラルネットワークの設計は,精度向上のために重要であり,自動化が求められている。
- 既存手法では,精度のみを最適化するか,ハードウェアコストとの相関が低い指標に依存している。
- FPGA展開における多次元のコスト制約を考慮した,効率的な設計手法を確立すること。
- SNAC-Packは,OptunaとNSGA-IIを用いた多目的グローバル探索を行い,ハードウェアの代替モデルでリソースとレイテンシを予測する。
- 量子化認識訓練と反復的なMagnitude Pruningを組み合わせることで,圧縮ループを適用し,FPGAファームウェアを合成する。
- ジェット分類と超伝導量子ビット読み出しにおいて,従来のベースラインを上回るコンパクトなアーキテクチャを発見した。
多文化テキストから動画生成のためのマルチエージェントフレームワークMAVEN [cs.CV, cs.AI]目的:多文化テキストから動画生成における文化的な忠実性の向上
- 動画生成技術は進化しているが,文化的多様性を反映させることは重要である。
- 単一のプロンプトで複数の文化を正確に表現することが困難である。
- プロンプトを細分化し,文化的な側面を考慮した動画生成を目指す。
- MAVENは,プロンプトを人物,行動,場所の要素に分解し,それぞれを専門のエージェントで処理する。
- 並列処理による専門化が,文化的な関連性を高めながら,視覚的な品質と時間的な一貫性を維持する。
- 中国,アメリカ,ルーマニアの3つの文化圏を対象とした新しいベンチマークデータセットを構築した。
厳密線形アテンション [cs.RO, cs.LG, cs.AI]目的:Transformerアテンションの計算複雑性を線形化すること
- Transformerは自然言語処理や画像認識で高性能だが,計算コストが大きい
- 既存の線形アテンションは,勾配消失やトークンアテンションの希薄化といった課題がある
- カーネル関数の分解性を利用し,近似誤差のない線形アテンションを開発する
- 提案手法ELAは,フルアテンションと同等かそれ以上の性能を維持しつつ,デコード速度を最大6倍に向上させる
- KVキャッシュメモリ使用量を最大75%削減し,モデルのスケーラビリティを高める
- 線形アテンションの原理をVisionモデルに拡張したYOLO-LATは,推論速度を最大4.3倍,パラメータを7.9倍削減する
個別化医療AIにおける個人健康記録の有用性評価 [cs.AI]目的:個人健康記録を用いたAIによる健康に関する質問への回答の質向上
- 個人の健康管理への意識が高まり,医療における自己管理能力の向上が重要視されている。
- 個人健康記録は複雑な情報を含み,患者自身による理解や活用が困難である場合がある。
- 大規模言語モデルを用いて個人健康記録を解析し,患者の質問に対する適切な回答を生成することを目指す。
- 個人健康記録のデータを用いることで,すべての質問タイプにおいて回答の有用性が有意に向上した(p < 0.001)。
- 回答の安全性,正確性,関連性,個別化の改善も確認された。
- 個人健康記録の複雑な側面(時間的な混乱など)や誤情報の生成に関する課題が特定された。
Toto 2.0:時系列予測がスケーリング時代へ [cs.LG, cs.AI]目的:時系列予測モデルのスケーリングによる性能向上
- 時系列データは,経済,気象,需要予測など幅広い分野で重要である。
- 既存モデルでは,モデル規模を大きくしても性能向上が頭打ちになる場合がある。
- モデル規模を拡大することで,より高精度な時系列予測を実現することを目指す。
- Toto 2.0は,400万パラメータから25億パラメータまでのモデルで,信頼性の高い予測性能の向上が確認された。
- BOOM,GIFT-Eval,TIMEの3つの予測ベンチマークにおいて,最新技術を上回る性能を達成した。
- モデルのアーキテクチャ,学習レシピ,データ,ハイパーパラメータ転送パイプラインの詳細が公開されている。
状態に基づく連続制御における反射対称性の活用による強化学習: Reflex [cs.LG, cs.AI]目的:状態に基づく連続制御タスクにおける反射対称性の活用
- 強化学習のサンプル効率改善は重要な課題である。限られたデータで効率的に学習する必要がある。
- 既存研究は画像ベースRLや回転対称性に偏っており,状態ベースRLと反射対称性は未開拓である。
- 反射対称性を活用し,強化学習のサンプル効率と性能を向上させることを目指す。
- 提案手法Reflexは,オンポリシーおよびオフポリシーの強化学習アルゴリズムに統合可能である。
- ReflexはPPOとSACに統合され,OpenAI GymおよびDeepMind Controlのベンチマークで優れた性能を示した。
- 標準的なベースラインと比較して,サンプル効率の改善も確認された。
重度のクラス不均衡下における多クラス片頭痛分類のためのクラス依存型ハイブリッドデータ拡張 [cs.LG]目的:多クラス片頭痛分類におけるデータ拡張戦略
- 片頭痛は多くの患者を苦しめる疾患であり,正確な診断と分類が重要である。
- 既存の研究ではデータ漏洩や評価指標の偏りが存在し,正確な性能評価が困難であった。
- クラスごとのデータサイズに応じて適切な拡張手法を選択し,性能向上を目指す。
- 既存研究の手法上の欠点を修正することで,性能評価がより正確になった。
- 提案手法は,個々のデータ拡張手法と比較して,マクロF1スコアで一貫して高い性能を示した。
- 特にFT-Transformerと比例的な拡張を組み合わせることで,最高の性能(0.914)を達成した。
LLMエンジン統合によるO-RANにおける高度なAIサービス提供 [eess.SY, cs.LG, cs.SY]目的:O-RANにおけるAIサービス提供の自動化
- 無線アクセスネットワークの進化において,AIの活用は不可欠であり,柔軟性と効率性の向上に貢献する。
- 従来のAIアプリケーション開発は,データ収集からデプロイまで手作業が多く,時間と労力がかかる。
- LLMと機械学習エンジンを組み合わせ,迅速かつ安全なAIサービス提供を実現する。
- LLMによるオーケストレーターが,オペレーターの意図をデータ収集ポリシーとデプロイコードに変換する。
- NeuralSmithと呼ばれる自動機械学習エンジンが,APIを通じて要求に応じて軽量分類器を訓練する。
- コンテナ化されたO-RAN 5G SAテストベッドを用いた実験により,アーキテクチャとプロビジョニングワークフローの有効性が示された。
スペクトルプローブ回路:事前学習済みTransformerにおける注意ヘッド回路を特定するための3段階レシピ [cs.LG, cs.AI]目的:事前学習済みTransformerにおける注意ヘッド回路の特定方法
- Transformerは自然言語処理の性能向上に貢献しており,その内部メカニズムの理解が重要である。
- Transformerの注意メカニズムは複雑であり,どのヘッドが特定のタスクに貢献しているか特定が困難である。
- 注意ヘッド回路の特定を効率的かつ因果的に行うための方法論を確立すること。
- 提案手法では,ヘッドのスペクトル信号を用いて,ラベルや帰属勾配なしでコンテンツ依存計算を行うヘッドを特定する。
- タスクパターン検査により,この指標をタスク固有の候補回路に絞り込み,グループアブレーションにより因果関係を検証する。
- 様々なモデルやアーキテクチャ,事前学習パイプラインにおいて,2-6ヘッドの誘導回路が因果的に必要であることが示された。
JudgmentBench:質評価のための評価基準と選好評価の比較 [cs.CL, cs.AI, cs.CY]目的:質評価手法としての評価基準と選好評価の比較検証
- 客観的な評価は,AI技術の発展において不可欠であり,その精度向上は重要な課題である。
- 従来の評価方法では,評価基準の定義や評価者の主観によるばらつきが問題となっている。
- 本研究は,評価基準と選好評価のどちらがより信頼性の高い評価を提供できるかを検証する。
- JudgmentBenchデータセットを用いた比較により,選好評価の方が意図された品質順序をより正確に再現することが示された。
- 選好評価は,評価基準を用いた評価よりも,タスクの順位相関(平均Spearmanの順位相関係数0.908 vs. 0.150)およびペアごとの勝率(0.669 vs. 0.542)において優れた性能を示した。
- また,選好評価は評価基準を用いた評価と比較して,約半分の注釈時間で同等の,あるいはそれ以上の精度を達成できることが明らかになった。
誰の整合性か?多様な組織的意思決定の文脈におけるLLMのプロセス整合性の比較 [cs.AI]目的:組織におけるLLMのプロセス整合性
- LLMの応用範囲拡大に伴い,組織のポリシーを反映した意思決定の重要性が増している。
- 既存研究では,LLMの整合性が個人の視点や人口統計グループに限定され,組織全体のポリシーとの整合性が評価されていない。
- 組織の意思決定ポリシーを正確に再現するLLMのプロセス整合性を測定し,その改善を目指す。
- モデルによってベースライン整合性が大きく異なり,価格や一般的なベンチマークパフォーマンスとは相関関係がないことが判明した。
- 組織によって整合性の構造が変化し,ECHR第6条の決定においては,プロセス整合性が出力の正確性を予測した(r = 0.85,p < .001)。
- 消費者信用決定においては,プロセス整合性は全体的に低いものの,出力の正確性よりも変動幅が大きく,保護属性の重み付けをモデルが採用しにくい傾向が見られた。
極端領域ポリシー蒸留 [cs.LG, cs.AI]目的:大規模言語モデルにおける強化学習のサンプル効率と漸近性能のトレードオフに関する研究
- 大規模言語モデルの性能向上には,効率的な学習方法が不可欠であり,強化学習はその有力な手段の一つである。
- 従来の強化学習手法では,サンプル効率と性能のバランスが課題であり,オフポリシー学習における分布ずれが問題となる。
- 本研究は,オフポリシー学習における分布ずれを抑制し,サンプル効率と性能を両立する新しい手法を提案する。
- 提案手法である極端領域ポリシー蒸留(ERPD)は,2段階のフレームワークでサンプル効率とKL効率を分離する。
- ERPDは,まず固定データ上で弱制約のオフポリシー最適化を行い,トークンレベルの教師信号を獲得する。
- 次に,獲得した信号をベースポリシーに蒸留することで,有害なドリフトを抑制しつつ有用な信号を保持する。
勾配が衝突するとき:LLMジャッジのための多目的プロンプト最適化の失敗モード [cs.CL, cs.AI, cs.LG, cs.MA, cs.SE]目的:LLMジャッジの多目的プロンプト最適化における失敗モードの特定
- LLMを活用した評価の自動化が重要視されているため,その性能向上が求められている。
- 多目的評価基準に対応したプロンプト最適化手法は未確立であり,課題となっている。
- テキスト勾配法を多目的設定に拡張し,最適化と推論時の問題点を明らかにすること。
- 多目的プロンプト最適化において,勾配のタスク焦点が平均59%低下することが示された。
- 単一目的で最適化された指示を組み合わせた場合,Spearmanのローが0.305から0.220に低下した。
- 最適化時の勾配希釈と推論時の指示干渉という,二つの分離可能な失敗モードが特定された。
多様性に基づく検知可能性:プライバシー監査のためのカナリア作成の改善 [cs.LG, stat.ML]目的:プライバシー監査のための効率的なカナリア作成
- 機械学習モデルのプライバシー漏洩を評価することは,プライバシー保護において重要である。
- 従来のプライバシー監査手法は計算コストが高く,実用性に課題があった。
- ワンラン監査におけるカナリアの検知性と干渉の軽減を目指す。
- 提案手法は,既存手法よりも低い計算コストで,より強いプライバシー漏洩推定を実現する。
- カナリア間の干渉を抑制することで,多段実行法に近い精度の推定が可能となる。
- 影響関数に基づく貪欲な初期化と,二重最適化手続きを組み合わせたアプローチが有効である。
