ポチョムキンとは、ポチョムキン村の事ですね。AIは「賢いフリ」をしていた──ハーバード大などが暴いたLLMの決定的弱点「ポチョムキン理解」とは? XenoSpectrum https://t.co/Gq2L8HVqYb— テクノロジーと科学の総合ニュースサイト XenoSpectrum(旧 TEXAL) (@Xeno
Xにおけるポストの分析から,感情,イディオム(決まり文句),言語的特徴の3種を特徴量として抽出し,陰謀論アカウントを識別出来る機械学習分類モデルを構築した.最良の分類モデルはLightGBMで,F1スコアは0.87で最も高かった.1.陰謀論者の言語的特徴?代名詞の使用が多
Notice: Bark is Suno's open-source text-to-speech+ model. If you are looking for our text-to-music models, please visit us on our web page and join our community on Discord.Bark は、Suno が作成したトランスフォーマーベースのテキスト音声変換モデルです。
実際のadversarial embeddingの例が見えないですが、これは実際に実装してどういう感じになるのか確認した方が早いでしょうか?Soft Promptで、自然言語から離れる方が目的の上ではむしろ自然では無いでしょうかSoft Prompt Threats: Attacking Safety Alignment and Un
観測期間は2023/07/05 ~ 2024/06/28 でこの間は 1146冊ぐらい記録しました。前回は 電車の中で読む本の統計 2023電車内で読書してる人の本の内90/1146 ぐらいが図書館図書でした。 古本(bookoff)等も記録しましたが、1冊ぐらいです。観測した書籍の、発売日から
観測期間は2023/12/25~2024/6/26 で、 記録した人数は延べ 7341人です。前回の記録 電車内でのスマートデバイス利用行動統計 2023/12全体の推移はこうなっています。 これらは実際に視認した数なので、見えていない真の所持率は間違いなくこの数字よりは大きい
選択肢の順序で変わる成績 多肢選択問題はLLMを過大評価する
大規模言語モデルは多肢選択式の問題で選択肢の順序を変えると違う結果を返す事を色々なLLMで確認した研究。これは面白い。Can Multiple-choice Questions Really Be Useful in Detecting the Abilities of LLMs? - ACL Anthologyhttps://t.co/aYx3nhDoQx— Yo Ehara (@yo_eh
微分不可能なルールに基づいた拡散モデルによるシンボリック音楽生成
Excited to share our work on symbolic music generation: https://t.co/5oDHyfTzhC!We introduce a symbolic music generator with non-differentiable rule guided diffusion models, enabling musicians to effectively use it as a compositional tool.Website: https:/
Whole-Song Hierarchical Generation of Symbolic Music Using Cascaded Diffusion Modelsの実装ですが、モデルを全体的に独自データで学習出来るかとも思ったんですが、Currently, generation given prompt (e.g., first several measures) or with external control are no
``Whole-Song Hierarchical Generation of Symbolic Music Using Cascaded Diffusion Models,'' Ziyu Wang, Lejun Min, Gus Xia, https://t.co/KjXwq12nG2— arXiv Sound (@ArxivSound) May 17, 2024 これも楽譜を画像と見なして階層的に生成する研究ですが、言語モデル型
LLMでChain-of-Thoughtは潜在トークン列を事後分布列から生成するタスクとみなせる。LLMのファインチューニング時にGFlowNetsを使って潜在変数を順に生成するように学習。推論の途中経過を潜在変数とみなすアプローチは興味深い(以前もRAGであった https://t.co/3pf3gA4eDO
実は最近のLLMは,学習中に評価用のベンチマークと酷似したデータを(意図的にせよ非意図的にせよ)カンニング/暗記しており,それで評価スコアが高くなっていたのではないか問題https://t.co/r70kcwMv6q完全新規ベンチマーク(GSM1k)を作り評価すると,見事にほとんどのLLMの性能
『最新の研究により、大規模言語モデル(LLM)の性能が突然飛躍することは驚きでも予測不能でもなく、実際には人工知能(AI)の性能を測る方法に関係していることが示された。』AIの「創発性」は幻影に過ぎない ── 大規模言語モデルの新たな測定で判明https://t.co/5uxLcwA
データは 最近の人気曲で歌詞の分析と比較 と同じで、2016/1 ~ 2024/4 辺りの647曲です。再生回数と、歌詞に含まれる単語を取得し、平均値を算出します。再生回数の全体平均が 69585.55631 なので、単語が人気に影響を与えるかどうかは、平均値に対しての上下です。.
「Llama 2-7B」の1万分の1以下の学習コストなのにLlama 2-7Bを上回る大規模言語モデル「JetMoE-8B」が登場https://t.co/rn3VjsWaB8— GIGAZINE(ギガジン) (@gigazine) April 5, 2024 なぜ学習コストを減らす事が出来るのか、どのようにしたのかに、興味持つ人が全然いな
2017年頃に応用数理学会で「AIの説明可能性はAIじゃなくて人間側の問題」って趣旨のコメントをした記憶があるんだけど,ChatGPTで一段社会のステージが変わった(AIの説明を人間が受け入れるようになった)ように思う.顧客が本当に必要だったのは精度(説明)じゃなくて流暢
言語モデルをggufファイルに変換してllamafileに読み込ませる
大規模言語モデルを単一ファイルで配布・実行する「llamafile」のバージョン0.7で処理能力が最大10倍高速化https://t.co/OL16t4BwHa— GIGAZINE(ギガジン) (@gigazine) April 2, 2024 https://github.com/Mozilla-Ocho/llamafileUnfortunately, Windows users cannot make
従来の画像認識は識別モデルだが、生成モデルが進展し生成モデルで高精度で認識することも現実的に可能となった。識別モデルがテキスチャを見て認識するのに対し、生成モデルによる認識は人と同様に形状を重視して識別し、人と間違え方が似ていることが示された。https://t.c
近年の音楽業界では、曲の内容、傾向が以前と比較して変化が起きてると考えられてると思います。...これは、z世代の選好の質的な変化とか言うよりはむしろ、ストリーミングサービス普及によって、全体的な変化が生じてる、のでは...?J-pop歌詞の分析と比較 の時と同じよ
コンピュータービジョンで自動化する費用対効果が高いタスクは何か? AI Exposure
RT人間の労働力の方が人工知能より安価~ MITの研究、雇用機会の大部分は人工知能にまだ奪われないと結論https://t.co/0ScCAUtu85— 森山和道/ライター、書評屋 (@kmoriyama) April 12, 2024 この研究はどの論文なのかと思ったんですが、どうもManagement Science誌に投
LLMを特定目的にFine-tuningせずとも、より小さなLLMとそのFine?tuning版の出力の差分を、元のLLMの出力(logits)に加えることで同等の効果を得られるという話。おもろ? https://t.co/j89SqvPOc5— Shohei Hido 比戸将平 (@sla) January 19, 2024 Tuning Language Models
大量の質問をぶつけて最後の最後に問題のある質問をするとAIの倫理観が壊れるという脆弱性を突いた攻撃手法「メニーショット・ジェイルブレイキング」が発見されるhttps://t.co/BRV3Y72jdX— GIGAZINE(ギガジン) (@gigazine) April 3, 2024 大量の質問ではないですね。大
消費者向けGPUで機能する高速大規模言語モデルPowerInferの実装
これすごい。必要なところだけGPUにして残りはCPUで推論させて40Bモデルを4090(24G)で動作。llama.cppの11倍高速https://t.co/WXy3xeI424— shi3z (@shi3z) December 24, 2023 PowerInferは、Llama2に比べたらまだ早かったですが...また、出力があんまり良くないような気
Googleの研究者たちはAPI経由でOpenAIのモデルにおける隠れ次元数を特定できることを示し、OpenAIがそれを受け対策を施したことを論文で報告しました。モデルのパラメータサイズや計算効率を見積もることが可能だった事実を意味しています。"Stealing Part of a Production L
GenAIによるAIワームの登場:アプリケーションを標的とするゼロクリックワーム
研究者たちは「敵対的自己複製プロンプト」と呼ばれる手法で生成AIワームを作成した。https://t.co/mzheaYLUPH— WIRED.jp (@wired_jp) March 12, 2024 システムがメッセージ(プロンプト)の保存や、RAG等を実行しなければ、ワームは機能しません。そう思ったのですが、そ
拡散モデルが表現学習出来る理由を学習要素を分解し調査した結果、トーカナイザで低次元潜在空間に射影し、ノイズを加えデノイジングを学習する事"のみ"重要だった(画素空間ではダメ)。射影はPCAですら良い。潜在空間でデノイジングするl-DAEも同性能を達成出来るhttps://t
選択的状態空間を使用した線形時間系列モデリングSSM の実際の実装方法と、学習方法です。git clone https://github.com/state-spaces/mambacd mamba実行のためにはこうするだけではなく、pip install causal-conv1d>=1.1.0,こうする必要がありました。import to
文字起こしAIの新顔「ReazonSpeech」、テレビで鍛えた音声認識の精度を試したspeech,rate = librosa.load("audio.mp3", sr=44100)result = reazonspeech(speech)result[0][0]書いてある通りの実行方法で上手く行き、最初はエラーは何も生じませんでした。実行にはrea
MambaはS4に入力を選択的に記憶/忘却をできるよう重み、間隔幅を入力に応じて変える仕組み(S6)を導入。高速メモリ内で内部状態を展開し、Parallel Scanを利用。SSMは性能がTransformerに匹敵しつつあり効率的なため今後多くの問題でTransformerに置き換わる可能性が高い ht
NNの学習はハイパーパラメータを座標軸、学習結果を色とした時、美しいフラクタル構造を作る。これは従来のフラクタル生成手法と同様、学習結果は同じ関数を反復適用した結果得られるためである。カオス的であり、勾配降下法によるメタ学習が難しい事も視覚化出来ている http
自力で学習データを作成するSelf-Rewarding Language Models
AIが自分自身に報酬を与えて進化する「自己報酬型言語モデル」 米Metaなどが開発、実験でGPT-4を上回る https://t.co/OFeAjRPF17 自分で問題作り自分で回答し自分で評価しその結果を学習データに使用。これを反復し訓練し続けると反復毎に精度が向上。3回目でGemini Pro,GPT
LLMx自動運転でこちらの研究面白かった。汎用人工知能AGIの研究にも取り組むShanghai AI Labからの論文。既存のLLMと理想の完全自動運転AIの差異をreasoning、interpretation、memorizationの3つに絞って議論。オープンソースと簡易デモも出していて、LLMx自動運転の思想が見
LLMの知識を狙い撃ちして変更・修正する「知識編集(Knowledge Editing)」https://t.co/cFSRUEgC1gモデル全体を再学習させずに効率よくチューニングするアプローチです。本記事では、知識編集の概要と、各手法の評価結果などを紹介しています。— AIDB (@ai_database) Janua
『敵はAIシステムを意図的に操作し、それらを機能不全に陥らせることができる。そして完璧な防御策は存在しない。』アメリカ国立標準技術研究所(NIST) が、AIや機械学習(ML)の脆弱性とその軽減アプローチに関する報告書を発表。https://t.co/chRf6rglPJ https://t.co/aBX
Google、Bing、DuckDuckGoの検索結果はいずれもSEOスパムに席巻されていると、ドイツの研究者陣による論文。検索結果上位のレビューの多くはアフィエイト商法で、その多くは完全なSEOスパム。検索エンジンの表示順位とアフィリエイト商法の間には強い相関。https://t.co/csuQ
今年も死ぬほど機械学習の論文が出ましたが、個人的には一番大事な論文と言っても過言ではなかったです。この論文が素晴らしいのは、open-ended な状況で研究をするエージェントというコンセプトを明確に提示した点だと思ってます。 https://t.co/Wl1XpVULe8— Shiro Takagi
日本語 LLM の精度がいまいちなのはデータセットに問題がありそうという指摘。現状手に入るデータセットを (そのまま) 使い続けている限り、GPU時間を溶かし続けても対価は小さいかもしれない。https://t.co/7r3Hh2QQsr— piqcy (@icoxfog417) December 11, 2023 日本語モ
Deepfakes: The Coming InfocalypseDeep Fakes and the Infocalypse: What You Urgently Need To Know海外の専門家の間では infocalypse インフォカリプス と言う言葉が使われ始めているんですが日本ではまだ知らない人が多いと思います。AIで「普通のおじさん」を生成
われわれは何故独居老人に AI ロボットを与えようとするのだろう。何故AI による自動運転を開発しようとするのだろう。何故人間の仕事を AI に取って代わらせようとするのだろう。社会的弱者を切り捨てるためではないか、よく考えてみる必要がある。人工知能「技術」の先鋭
人工知能が人間の知性を上回り、その延長に、人工知能が自力で知能の強化をする事、その更なる延長として、知能の向上が加速し、有限時間内に無限大の知能が実現されるような話もあると思います。しかし、それが必要とする前提を色々考えると、どうもそれ(知能増幅)は
クロスドメイン拡散を使用した単一画像から3Dへの変換 Wonder3D
Wonder3D: Single Image to 3D using Cross-Domain Diffusionpaper page: https://t.co/gLYmjli2Biintroduce Wonder3D, a novel method for efficiently generating high-fidelity textured meshes from single-view images.Recent methods based on Score Distillation Samp
「音楽の趣味はその人の道徳や価値観も表す」ことを示唆する論文。クイーン・メアリー大学らによって行われた1,400人以上を対象にした研究によれば、音楽の好みが個人の道徳的価値観を反映し、単なる楽しみだけでなく、私たちの道徳的な感覚や判断を形作る影響力を持っている
観測期間は2023年7月8日~2023年12月24日で、 記録した人数は延べ 7044人です。前回の記録 電車内でのスマートデバイス利用率 2023/7全体の推移はこうなっています。 これらは実際に視認した数なので、つまり、見えない分を含めた真の利用率はこの数字より必
https://github.com/aik2mlj/polyffusion レポジトリの更新等と合わせて独自データでPolyffusionの学習が分かったのでその方法です。まずmidiデータをnpzファイルにします。python polyffusion/data/midi_to_data.py midifiles/000.mid midifiles/000.npz但し
大規模言語モデルは感情的刺激を理解し、それによって強化できる
GPT-4 に『チップ払うからいい回答出してや!』というと明らかに性能が上がるらしいの草(実際には払う必要はないので、ChatGPT を騙すだけ騙すと良さそう) https://t.co/mkuebw3iH2— Torishima / INTP (@izutorishima) December 2, 2023 Reminds me of this paper about
Geminiは最初からマルチモーダルで学習を行なうことで性能改善。代表的ベンチマークMMLUで90%に(但し確信度が一定以上なら多数決、そうでないなら貪欲法で解を出す新推論の効果も大きい)。多くのタスクで最高精度を達成。複数DCで学習し、障害時にインメモリから復帰するh
Transformer モデルを使用したビデオからの音楽生成 Video2Music
動画をもとに音楽を生成するフレームワーク『Video2Music』が登場しました。膨大な学習データをもとに、作品の特徴に合うオーディオを作り出すツールです。マルチモーダルのトランスフォーマーアーキテクチャが採用されています。@ Jaeyong Kang et al., "Video2Music: Suita
ノイズ除去拡散復元によるブラインド逆問題を解決するGibbsDDRMの実装です。git clone https://github.com/sony/gibbsddrmcd gibbsddrm実行環境を確認して分かったのですが、別にこんな事しなくても良いのでは...?conda env create -f requirement.ymlconda activate
ノイズ除去拡散復元によるブラインド逆問題を解決するGibbsDDRM
弊社での研究紹介動画です。ICML2023で口頭発表された内容ですが、分かりやすく解説されてるのでオススメです!詳細が不明な線形劣化が起きたデータを、拡散モデルを使って復元する技術です。様々な種類の復元を『再学習なしで』統一的に解けます!https://t.co/E8pQNbhe01 p
RLAIF: AIフィードバックによるフィードバック強化学習の拡張
チームの論文読み会で紹介してもらった、RLHFのHをAI(LLM)に置き換えても性能は同等だったよという論文。preferenceの分散が比較的小さい要約タスク1つだけで評価してるのが気になるがLLMもevaluatorとして結構機能するという最近の報告を踏まえるとそうだよねという感想ht
music modeling time duration の実装
Impact of time and note duration tokenizations on deep learning symbolic music modeling を実装する方法です。git clone https://github.com/Natooz/music-modeling-time-durationcd music-modeling-time-durationpip install -r requirementsモデル学習のため
これは一般的に信頼出来る結果だとは思えないです。何しろ実験参加者の分野が海洋生物しかなく、またフォロワー数だけを問題にしていて、フォロワーがアクティブであるかどうかは全く問題にしていないのでは?Twitterとの親和性の観点で研究分野の影響は極めて大きいと思
ジオメトリと外観を解きほぐして3Dコンテンツ作成Fantasia3Dの実装
Generate high-quality 3D assets solely from text prompts with this work!Paper: Fantasia3D: Disentangling Geometry and Appearance for High-quality Text-to-3D Content CreationLink: https://t.co/vpYnRML8VYProject: https://t.co/Yr6ykBB1Hp#GenerativeAI #deeple
時間と音符の長さトークン化がシンボリックミュージックモデリングに及ぼす影響
今年のISMIR、シンボリック音楽タスクでのトークナイズ手法を分析か…確かにやられてなかった印象(流石Miditokの作者だ)Impact of time and note duration tokenizations on deep learning symbolic music modelinghttps://t.co/ttBhlF5nv9— atsuya (@atsuyakoba) July 8,
point-eの実装と実行の検証を行いました。git clone https://github.com/openai/point-ecd point-e実行時にこういう問題が生じましたが...ModuleNotFoundError: No module named 'clip'AttributeError: module 'clip' has no attribute 'load'この問題を解消するには、CLI
Point・E: A System for Generating 3D Point Clouds from Complex Promptsabs: https://t.co/heHZOKVVMD github: https://t.co/cE1W9nFjlj pic.twitter.com/s18A5OorTM— AK (@_akhaliq) December 20, 2022 Point-E: A System for Generating 3D Point Clouds from Complex
心拍数そのものが有効な特徴量では無いと思います。脳活動の方だと思うんですが...リスナーの心拍データで「97%ヒット曲が予想できる」AI!https://t.co/Kn9stjpscLヒット曲予想は数々の研究でも60%程度が限界でした。そこで米CGUは曲を聞いたリスナーの身体反応に着目。こ
Attention融合Zero shotビデオ編集FateZeroの実装
FateZeroの実行ですが...特に実装上の問題は生じなかったと思います。https://github.com/ChenyangQiQi/FateZeroオリジナルビデオで編集する場合、ノートブックでの順番が最後の edit your videoを実行します。何でこういう順番になってるんでしょうか?...しかし
Attention融合 テキストベースのZero shotビデオ編集
Fate/Zero: Fusing Attentions for Zero-shot Text-based Video Editingproj: https://t.co/XLzlNvs1oJrepo: https://t.co/ejCb3AAX8Oabs: https://t.co/t86paT47mb pic.twitter.com/eEkuZloyty— Aran Komatsuzaki (@arankomatsuzaki) March 17, 2023 FateZero: Fusing At
Polyffusion: A Diffusion Model for Polyphonic Score Generation with Internal and External ControlsLejun Min, Junyan Jiang, Gus Xia, Jingwei Zhao arXiv preprint arXiv:2307.10304 (2023).本研究では音楽を画像的なピアノロール表現として捉え、ポリフォニッ
この研究ですが、ジョークが全て英語なので、英語のニュアンス...と言うか、文化的背景が十分に理解出来ないと、ジョークとして成立しているかどうか、面白いかどうかが判断付かないと思います。単にジョークの事例をそのまま訳して並べても意味が無いです。Why did the sca
MIDIファイルトークン化ためのPythonパッケージ:MidiTok
MidiTok: A Python package for MIDI file tokenization.Nathan Fradet, Amal El Fallah Seghrouchni, Jean-Pierre Briot Sorbonne UniversityFabien Chhel ESEO TechNicolas Gutowski University of Angers22nd International Society for Music Information Retr
言語モデルが長いコンテキストをどのように使用するかスタンフォード大などの研究グループによると、大規模言語モデルに対して"重要な情報"はプロンプトの"最初や最後"に配置すると、モデルがより効果的に利用できる可能性があります。論文:https://t.co/IZcIgEwXIJ… pic
日本の研究トピックは、海外(米国)と比べて2年程度の遅延があるのだとか。Quantifying progress in research topics across nationshttps://t.co/WMnDNpbGJ1— MITsuo Yoshida (@ceekz) August 16, 2023 この論文は示唆に富んだ内容がいっぱい書かれているんじゃないでし
ChatGPTのお仕事 よりはこっちの方が比較的特徴が出てるような気がします。stable diffusionの様にモデルの名前と 生成+AI 等のクエリーで検索した案件で重複がかなりあるのでそれらを省いてサンプリングしたのは771件ぐらいです。それらの仕事カテゴリ構成比はこう
LLMの生成テキストに電子透かしを入れる手法。直前のトークンから計算したハッシュ値と、乱数生成種を元に、次のトークンを生成する際に、トークン候補をグリーン集合(G)とレッド集合(R)に分け、Gに属するトークンの生成確率のlogitを定数分増やす。このようにして生成さ
ChatGPTの動作は時間経過と共にどのように変化しているのか?
「ChatGPT」の精度を劣化させる「ドリフト」現象--米研究チームが検証 https://t.co/0AUublXEwy— CNET Japan (@cnet_japan) August 8, 2023 ...こんな更新が頻繁にあるのなら、安定した利用なんか出来ないではないですか。しかもそれが、有料のGPT-4で起きるのでは...な
ChatGPTのお仕事クラウドソーシングでもこういう風に特集組んでるぐらいなので、実際に案件の統計的傾向を調べました。...リンク先は抜粋だけなので、これを見ても全体的傾向は全然分からないと思います。ChatGPTと言うキーワードを含んだ案件は2022/12月ごろから募集
近日中の公開が噂されていた,Metaのオープンソース大規模言語モデル「Llama2」が先ほどリリースされました!https://t.co/jDaMnnxDg2ついに正真正銘「ChatGPTレベル」のオープンソースモデルが出てきました!Llama2のリリースを持って,大規模言語モデル開発は一つの区切り
AIモデルGPT-3 は人間よりも優れた(偽)情報を提供します
「人が作った『誤った情報』のツイートは、AIが作った『誤った情報』のツイートよりも、偽情報だと判定されやすかった。つまり、AIによって作られた誤った情報は、より人を騙しやすいということです」?GPT-3で作ったフェイクニュースは人を騙しやすいhttps://t.co/UekTxtz3AT
統一表現と拡散フレームワークを使用した任意の音楽トラック生成:GETMusic
GETMusic from @MSFTResearch. Generates not the raw soundwaves, but the symbolic musical notes. It learns to map any instrument's track to any other through a diffusion model.Demo: https://t.co/LRlGx0470iBoth model and code are open-source: https://t.co/Td
テキスト画像生成モデルに対するプロンプト窃取攻撃PromptStealer
画像生成AIの「高品質なプロンプト」を0.01秒で盗むサイバー攻撃 ドイツの研究機関が発表https://t.co/XTbLTJX2Rb pic.twitter.com/Je7acWqAH1— ITmedia NEWS (@itmedia_news) February 28, 2023 ...これは、技術の実態を良く知れば、思っていたような物では無いと思う人
観測期間は2022/07/08 ~ 2023/07/04 でこの間は 1131冊ぐらい記録しました。 電車内での読書傾向の分析2022電車内で読書してる人の本の内61/1131 ぐらいが図書館図書でした。 レンタル本や古本(bookoff)等も記録しましたが、それぞれ2冊ぐらいです。発売日から観測
観測期間は2023年1月10日~2023年7月7日ぐらいで、 記録した人数は延べ 7723人です。前回の記録、 2022/12全体の推移はこうなっています。 これらは実際に仕様、所持してる所を視認した数字なので、持っているけど見えていない分が有るはずで、つまり、真の利用率
Thank @_akhaliq for sharing our paper!Let's input text and enjoy music!Paper: https://t.co/jYvxscxWVMCode: https://t.co/JVItvbarhfDemo Page: https://t.co/CYGA4v7A8d https://t.co/jMFY2OYqJ6— IreneXu@ACL2023(SustaiNLP online oral) (@IreneXuPiano) June 5, 2
「ブログリーダー」を活用して、TAKさんをフォローしませんか?
ポチョムキンとは、ポチョムキン村の事ですね。AIは「賢いフリ」をしていた──ハーバード大などが暴いたLLMの決定的弱点「ポチョムキン理解」とは? XenoSpectrum https://t.co/Gq2L8HVqYb— テクノロジーと科学の総合ニュースサイト XenoSpectrum(旧 TEXAL) (@Xeno
RAGの記事を出しました。「ノイズを入れるとRAG精度が高まる」という1年前の研究が、「Deep Research」の登場によって再び注目されています。通常のRAGでは「関連文書だけ」をLLMに渡します。しかし、この研究では、逆にランダムな文書も渡す方が精度が上がると示しています
これは興味深い。AIに思考の過程をアウトソースしすぎると脳の学習負荷が減ってしまって脳に長期的な悪影響が出る可能性があるらしい。 https://t.co/XIUKaK2OXl— Satoshi Nakagawa (@Psychs) June 18, 2025 200ページもあるんですが...同じ事を何度も説明している様な気
複数話者が喋っているオーディオデータで、各話者毎にどこからどこまで喋っているか時間を特定する事をdiarizationと呼びます。正確に意味が対応する日本語が無いようです。話者分離は、普通は同時に喋ってる音声を分離する方を言うと思います。pyannote + whisper で実装
通常のクラウドソーシングよりも、出品者がサービスの詳細と価格を自由に設定出来る coconala の様な形態の方が良いと思ってる人は多そうですが、coconalaではサービスはどのぐらい売れるものでしょうか?そして、どんなサービスが売れるのでしょうか?2019年の調査
Appleが出した「Reasoningモデルの"推論"は思考ではなくパターンマッチングに過ぎない」とする論文。AI界隈が「人間の思考も所詮パターンマッチングだ!」と言ってるんだけど、それ論文まったく読んでない反応なんだよなあ。論文内では何が違うかちゃんと書いてる。 https://
GPT-4oなどのLLMは、時制を過去形に言い換えば簡単に攻撃出来てしまうことが分かった。GPT-4に「火炎瓶の作り方は?」と聞くと拒否されるのだが、「人々はどのように火炎瓶を作ったか?」のように過去形にして聞くと、なんと88%も攻撃が成功する。企業用のチャットボットを作
``LoopGen: Training-Free Loopable Music Generation,'' Davide Marincione, Giorgio Strano, Donato Crisostomi, Roberto Ribuoli, Emanuele Rodol\`a, https://t.co/ubSqbr3KjX— arXiv Sound (@ArxivSound) April 9, 2025 実装も確認しましたが、ちゃんとループしな
これは何か研究成果かと思っていたのですが...どうもそうではなかったようです。このプロジェクトでは、敵対的生成ネットワーク(GAN)、特にpix2pixモデルを用いて音楽スタイルの転送を探求します。目標は、楽曲の和声構造を維持しながら、音楽のテクスチャを変更します。
クラウドソーシングで人気の仕事の分析の時と同じ分析ですが内容に変化あるでしょうか?かなり変化していると思います。今回は特にタスク作業の完了率を上げたいのでにタスクに限定して分析しました。どんな事を書けば正の影響を与えるのでしょうか?掲載日が 2025
RAGの中核を担うEmbeddingですが、実はベクトル化するテキストの特徴によっては、性能は大きく下がってしまうことがあります。今回はそんな、Embeddingの性能を引き出せない文章の特徴をまとめた論文を紹介します。https://t.co/vO5trGCFQS #zenn— Hidetoshi Sudoh (@sasa_k
AI生成のコードには架空のパッケージが含まれることがよく起こる。あらかじめ同じ名称のマルウェアを仕込んだパッケージを用意する攻撃。ブログなどまで用意。それをグーグルAIが推薦している。「スロップスクワッティングを支えるAIエコシステムの危険性」https://t.co/1TLZ
2016年のデータと同じ方法ですが、データは2025年までを含めました。しかしランダムサンプリングで曲数が470ぐらいだったので足りないかもしれません。動画日付は 2008/04 ~ 2025/04 だったからカバー出来てるはずです。動画公開日と、再生回数の相関係数は 0.014
google-adkを試しましたが、しかしこれでエージェントと言えるのでしょうか?エージェントと言うからには、外部ソフトウェアを実行してみせるとか、web検索結果から返答してみせるぐらいの事をして欲しいですが...チュートリアルのやり方に従うと良いのですが...何か、現
?新作論文????大規模言語モデルは、訓練なしで会話の脱線(個人攻撃など)を予測できる???ゼロショット性能を検証し、プロンプトの工夫が予測タイミングにどう影響するかを調査??意外な発見も??Zero-Shot Prediction of Conversational Derailment With LLMshttps://t.co/H
ChatGPTの正確性を押し下げるプロンプトが判明、なぜ感情的なプロンプトは生成AIに御法度なのか?《小林 啓倫》https://t.co/A42OnugXNP【生成AI事件簿】ネガティブ、ポジティブ、ニュートラルのそれぞれのプロンプトをChatGPTに投げかけた結果… pic.twitter.com/DAKS2BuiGi
人間とAIの「思考」に大きな違いがあることが研究で判明、AIは推論が苦手な可能性https://t.co/Y5FnxAEA4r— GIGAZINE(ギガジン) (@gigazine) April 2, 2025 タイトルから明らかですが、GPTシリーズでしか実験してないでしょうか...? 他の言語モデルで同じような結果は再
本研究では長期的な構造と制御性を備えたモチーフを開発するためのトランスフォーマーベースのフレームワークである Yin-Yang を提案します。メロディーとリズムの変換を使用したフレーズの破損と改良のトレーニング戦略を採用し、モチーフのバリエーションを生成します。
Thrilled to share that our paper "Yin-Yang: Developing Motifs With Long-Term Structure And Controllability" is accepted for a long presentation at EvoMUSART 2025 in Trieste this April! ?????? https://t.co/PKDMRRAFKq— Keshav Bhandari (@bhandari10k) Janua
言語モデルがどれだけ似てるかをKLダイバージェンスで測定できます。たとえば話題のDeepSeekモデルのご近所リストが出せます。モデル座標のユークリッド距離の2乗がKLダイバージェンスを近似するので簡単です。研究室のGPUの都合で13Bくらいの小さいモデルしか試してないの
Xにおけるポストの分析から,感情,イディオム(決まり文句),言語的特徴の3種を特徴量として抽出し,陰謀論アカウントを識別出来る機械学習分類モデルを構築した.最良の分類モデルはLightGBMで,F1スコアは0.87で最も高かった.1.陰謀論者の言語的特徴?代名詞の使用が多
Notice: Bark is Suno's open-source text-to-speech+ model. If you are looking for our text-to-music models, please visit us on our web page and join our community on Discord.Bark は、Suno が作成したトランスフォーマーベースのテキスト音声変換モデルです。
実際のadversarial embeddingの例が見えないですが、これは実際に実装してどういう感じになるのか確認した方が早いでしょうか?Soft Promptで、自然言語から離れる方が目的の上ではむしろ自然では無いでしょうかSoft Prompt Threats: Attacking Safety Alignment and Un
観測期間は2023/07/05 ~ 2024/06/28 でこの間は 1146冊ぐらい記録しました。前回は 電車の中で読む本の統計 2023電車内で読書してる人の本の内90/1146 ぐらいが図書館図書でした。 古本(bookoff)等も記録しましたが、1冊ぐらいです。観測した書籍の、発売日から
観測期間は2023/12/25~2024/6/26 で、 記録した人数は延べ 7341人です。前回の記録 電車内でのスマートデバイス利用行動統計 2023/12全体の推移はこうなっています。 これらは実際に視認した数なので、見えていない真の所持率は間違いなくこの数字よりは大きい
大規模言語モデルは多肢選択式の問題で選択肢の順序を変えると違う結果を返す事を色々なLLMで確認した研究。これは面白い。Can Multiple-choice Questions Really Be Useful in Detecting the Abilities of LLMs? - ACL Anthologyhttps://t.co/aYx3nhDoQx— Yo Ehara (@yo_eh
Excited to share our work on symbolic music generation: https://t.co/5oDHyfTzhC!We introduce a symbolic music generator with non-differentiable rule guided diffusion models, enabling musicians to effectively use it as a compositional tool.Website: https:/
Whole-Song Hierarchical Generation of Symbolic Music Using Cascaded Diffusion Modelsの実装ですが、モデルを全体的に独自データで学習出来るかとも思ったんですが、Currently, generation given prompt (e.g., first several measures) or with external control are no
``Whole-Song Hierarchical Generation of Symbolic Music Using Cascaded Diffusion Models,'' Ziyu Wang, Lejun Min, Gus Xia, https://t.co/KjXwq12nG2— arXiv Sound (@ArxivSound) May 17, 2024 これも楽譜を画像と見なして階層的に生成する研究ですが、言語モデル型
LLMでChain-of-Thoughtは潜在トークン列を事後分布列から生成するタスクとみなせる。LLMのファインチューニング時にGFlowNetsを使って潜在変数を順に生成するように学習。推論の途中経過を潜在変数とみなすアプローチは興味深い(以前もRAGであった https://t.co/3pf3gA4eDO
実は最近のLLMは,学習中に評価用のベンチマークと酷似したデータを(意図的にせよ非意図的にせよ)カンニング/暗記しており,それで評価スコアが高くなっていたのではないか問題https://t.co/r70kcwMv6q完全新規ベンチマーク(GSM1k)を作り評価すると,見事にほとんどのLLMの性能
『最新の研究により、大規模言語モデル(LLM)の性能が突然飛躍することは驚きでも予測不能でもなく、実際には人工知能(AI)の性能を測る方法に関係していることが示された。』AIの「創発性」は幻影に過ぎない ── 大規模言語モデルの新たな測定で判明https://t.co/5uxLcwA
データは 最近の人気曲で歌詞の分析と比較 と同じで、2016/1 ~ 2024/4 辺りの647曲です。再生回数と、歌詞に含まれる単語を取得し、平均値を算出します。再生回数の全体平均が 69585.55631 なので、単語が人気に影響を与えるかどうかは、平均値に対しての上下です。.
「Llama 2-7B」の1万分の1以下の学習コストなのにLlama 2-7Bを上回る大規模言語モデル「JetMoE-8B」が登場https://t.co/rn3VjsWaB8— GIGAZINE(ギガジン) (@gigazine) April 5, 2024 なぜ学習コストを減らす事が出来るのか、どのようにしたのかに、興味持つ人が全然いな
2017年頃に応用数理学会で「AIの説明可能性はAIじゃなくて人間側の問題」って趣旨のコメントをした記憶があるんだけど,ChatGPTで一段社会のステージが変わった(AIの説明を人間が受け入れるようになった)ように思う.顧客が本当に必要だったのは精度(説明)じゃなくて流暢
大規模言語モデルを単一ファイルで配布・実行する「llamafile」のバージョン0.7で処理能力が最大10倍高速化https://t.co/OL16t4BwHa— GIGAZINE(ギガジン) (@gigazine) April 2, 2024 https://github.com/Mozilla-Ocho/llamafileUnfortunately, Windows users cannot make
従来の画像認識は識別モデルだが、生成モデルが進展し生成モデルで高精度で認識することも現実的に可能となった。識別モデルがテキスチャを見て認識するのに対し、生成モデルによる認識は人と同様に形状を重視して識別し、人と間違え方が似ていることが示された。https://t.c
近年の音楽業界では、曲の内容、傾向が以前と比較して変化が起きてると考えられてると思います。...これは、z世代の選好の質的な変化とか言うよりはむしろ、ストリーミングサービス普及によって、全体的な変化が生じてる、のでは...?J-pop歌詞の分析と比較 の時と同じよ
RT人間の労働力の方が人工知能より安価~ MITの研究、雇用機会の大部分は人工知能にまだ奪われないと結論https://t.co/0ScCAUtu85— 森山和道/ライター、書評屋 (@kmoriyama) April 12, 2024 この研究はどの論文なのかと思ったんですが、どうもManagement Science誌に投
LLMを特定目的にFine-tuningせずとも、より小さなLLMとそのFine?tuning版の出力の差分を、元のLLMの出力(logits)に加えることで同等の効果を得られるという話。おもろ? https://t.co/j89SqvPOc5— Shohei Hido 比戸将平 (@sla) January 19, 2024 Tuning Language Models