研究開発新着記事 - にほんブログ村

シリコンバレーベンチャーみたいに深い科学技術を事業化したいです。

「深い技術」をやっています

圏外	総合ランキング
圏外	ベンチャーブログ
圏外	科学ブログ
圏外	IT技術ブログ

本日のランキング詳細

TAK

フォロー

住所: 文京区

出身: 未設定

ブログ村参加: 2007/08/27

参加テーマ

過去記事

Proxyによる言語モデルチューニング

LLMを特定目的にFine-tuningせずとも、より小さなLLMとそのFine?tuning版の出力の差分を、元のLLMの出力（logits）に加えることで同等の効果を得られるという話。おもろ? https://t.co/j89SqvPOc5— Shohei Hido 比戸将平 (@sla) January 19, 2024 Tuning Language Models
2024/04/12 10:49
言語モデルへのMany shot 倫理解除攻撃

大量の質問をぶつけて最後の最後に問題のある質問をするとAIの倫理観が壊れるという脆弱性を突いた攻撃手法「メニーショット・ジェイルブレイキング」が発見されるhttps://t.co/BRV3Y72jdX— GIGAZINE(ギガジン) (@gigazine) April 3, 2024 大量の質問ではないですね。大
2024/04/08 00:55
消費者向けGPUで機能する高速大規模言語モデルPowerInferの実装

これすごい。必要なところだけGPUにして残りはCPUで推論させて40Bモデルを4090(24G)で動作。llama.cppの11倍高速https://t.co/WXy3xeI424— shi3z (@shi3z) December 24, 2023 PowerInferは、Llama2に比べたらまだ早かったですが...また、出力があんまり良くないような気
2024/04/03 17:58
実稼働言語モデルへの部分窃取手法

Googleの研究者たちはAPI経由でOpenAIのモデルにおける隠れ次元数を特定できることを示し、OpenAIがそれを受け対策を施したことを論文で報告しました。モデルのパラメータサイズや計算効率を見積もることが可能だった事実を意味しています。"Stealing Part of a Production L
2024/03/27 11:58
GenAIによるAIワームの登場:アプリケーションを標的とするゼロクリックワーム

研究者たちは「敵対的自己複製プロンプト」と呼ばれる手法で生成AIワームを作成した。https://t.co/mzheaYLUPH— WIRED.jp (@wired_jp) March 12, 2024 システムがメッセージ（プロンプト）の保存や、RAG等を実行しなければ、ワームは機能しません。そう思ったのですが、そ
2024/03/20 21:25
自己教師あり学習のためのノイズ除去拡散モデルの分解

拡散モデルが表現学習出来る理由を学習要素を分解し調査した結果、トーカナイザで低次元潜在空間に射影し、ノイズを加えデノイジングを学習する事"のみ"重要だった（画素空間ではダメ）。射影はPCAですら良い。潜在空間でデノイジングするl-DAEも同性能を達成出来るhttps://t
2024/03/13 10:54
状態空間言語モデルmambaの独自データで学習方法

選択的状態空間を使用した線形時間系列モデリングSSM の実際の実装方法と、学習方法です。git clone https://github.com/state-spaces/mambacd mamba実行のためにはこうするだけではなく、pip install causal-conv1d>=1.1.0,こうする必要がありました。import to
2024/03/07 11:53
文字起こしReazonSpeecの実装方法

文字起こしAIの新顔「ReazonSpeech」、テレビで鍛えた音声認識の精度を試したspeech,rate = librosa.load("audio.mp3", sr=44100)result = reazonspeech(speech)result[0][0]書いてある通りの実行方法で上手く行き、最初はエラーは何も生じませんでした。実行にはrea
2024/03/05 18:32
選択的状態空間を使用した線形時間系列モデリングSSM

MambaはS4に入力を選択的に記憶/忘却をできるよう重み、間隔幅を入力に応じて変える仕組み（S6）を導入。高速メモリ内で内部状態を展開し、Parallel Scanを利用。SSMは性能がTransformerに匹敵しつつあり効率的なため今後多くの問題でTransformerに置き換わる可能性が高い ht
2024/02/29 06:22
ニューラルネットワークの学習可能性境界はフラクタル

NNの学習はハイパーパラメータを座標軸、学習結果を色とした時、美しいフラクタル構造を作る。これは従来のフラクタル生成手法と同様、学習結果は同じ関数を反復適用した結果得られるためである。カオス的であり、勾配降下法によるメタ学習が難しい事も視覚化出来ている http
2024/02/27 11:41
自力で学習データを作成するSelf-Rewarding Language Models

AIが自分自身に報酬を与えて進化する「自己報酬型言語モデル」米Metaなどが開発、実験でGPT-4を上回る https://t.co/OFeAjRPF17 自分で問題作り自分で回答し自分で評価しその結果を学習データに使用。これを反復し訓練し続けると反復毎に精度が向上。3回目でGemini Pro,GPT
2024/02/20 18:53
大規模言語モデルを使用して自動運転を再考する

LLMx自動運転でこちらの研究面白かった。汎用人工知能AGIの研究にも取り組むShanghai AI Labからの論文。既存のLLMと理想の完全自動運転AIの差異をreasoning、interpretation、memorizationの3つに絞って議論。オープンソースと簡易デモも出していて、LLMx自動運転の思想が見
2024/02/14 11:53
大規模言語モデルのための知識編集の包括的研究

LLMの知識を狙い撃ちして変更・修正する「知識編集（Knowledge Editing）」https://t.co/cFSRUEgC1gモデル全体を再学習させずに効率よくチューニングするアプローチです。本記事では、知識編集の概要と、各手法の評価結果などを紹介しています。— AIDB (@ai_database) Janua
2024/02/07 09:01
敵対的機械学習：攻撃と緩和策の分類と用語

『敵はAIシステムを意図的に操作し、それらを機能不全に陥らせることができる。そして完璧な防御策は存在しない。』アメリカ国立標準技術研究所（NIST）が、AIや機械学習（ML）の脆弱性とその軽減アプローチに関する報告書を発表。https://t.co/chRf6rglPJ https://t.co/aBX
2024/02/01 21:29
検索エンジンにおけるSEOスパムの縦断的調査

Google、Bing、DuckDuckGoの検索結果はいずれもSEOスパムに席巻されていると、ドイツの研究者陣による論文。検索結果上位のレビューの多くはアフィエイト商法で、その多くは完全なSEOスパム。検索エンジンの表示順位とアフィリエイト商法の間には強い相関。https://t.co/csuQ
2024/01/25 09:28
AI研究エージェントとしての大規模言語モデルベンチマーク

今年も死ぬほど機械学習の論文が出ましたが、個人的には一番大事な論文と言っても過言ではなかったです。この論文が素晴らしいのは、open-ended な状況で研究をするエージェントというコンセプトを明確に提示した点だと思ってます。 https://t.co/Wl1XpVULe8— Shiro Takagi
2024/01/18 06:38
大規模言語モデルの再学習

日本語 LLM の精度がいまいちなのはデータセットに問題がありそうという指摘。現状手に入るデータセットを (そのまま) 使い続けている限り、GPU時間を溶かし続けても対価は小さいかもしれない。https://t.co/7r3Hh2QQsr— piqcy (@icoxfog417) December 11, 2023 日本語モ
2024/01/12 11:58
情報の終焉 infocalypse

Deepfakes: The Coming InfocalypseDeep Fakes and the Infocalypse: What You Urgently Need To Know海外の専門家の間では infocalypse インフォカリプスと言う言葉が使われ始めているんですが日本ではまだ知らない人が多いと思います。AIで「普通のおじさん」を生成
2024/01/07 06:14
排除剥奪の観点からのSuperintelligence

われわれは何故独居老人に AI ロボットを与えようとするのだろう。何故AI による自動運転を開発しようとするのだろう。何故人間の仕事を AI に取って代わらせようとするのだろう。社会的弱者を切り捨てるためではないか、よく考えてみる必要がある。人工知能「技術」の先鋭
2024/01/01 12:00
資本・資源の観点からシンギュラリティ不可能論

人工知能が人間の知性を上回り、その延長に、人工知能が自力で知能の強化をする事、その更なる延長として、知能の向上が加速し、有限時間内に無限大の知能が実現されるような話もあると思います。しかし、それが必要とする前提を色々考えると、どうもそれ（知能増幅）は
2023/12/31 06:00
クロスドメイン拡散を使用した単一画像から3Dへの変換 Wonder3D

Wonder3D: Single Image to 3D using Cross-Domain Diffusionpaper page: https://t.co/gLYmjli2Biintroduce Wonder3D, a novel method for efficiently generating high-fidelity textured meshes from single-view images.Recent methods based on Score Distillation Samp
2023/12/29 11:40
歌詞と音響と音楽の好みと道徳的価値観との関連

「音楽の趣味はその人の道徳や価値観も表す」ことを示唆する論文。クイーン・メアリー大学らによって行われた1,400人以上を対象にした研究によれば、音楽の好みが個人の道徳的価値観を反映し、単なる楽しみだけでなく、私たちの道徳的な感覚や判断を形作る影響力を持っている
2023/12/27 11:29
電車内でのスマートデバイス利用行動統計 2023/12

観測期間は2023年7月8日～2023年12月24日で、記録した人数は延べ 7044人です。前回の記録電車内でのスマートデバイス利用率 2023/7全体の推移はこうなっています。これらは実際に視認した数なので、つまり、見えない分を含めた真の利用率はこの数字より必
2023/12/25 22:28
独自データで音楽生成polyffusionの学習方法

https://github.com/aik2mlj/polyffusion レポジトリの更新等と合わせて独自データでPolyffusionの学習が分かったのでその方法です。まずmidiデータをnpzファイルにします。python polyffusion/data/midi_to_data.py midifiles/000.mid midifiles/000.npz但し
2023/12/22 11:57
大規模言語モデルは感情的刺激を理解し、それによって強化できる

GPT-4 に『チップ払うからいい回答出してや！』というと明らかに性能が上がるらしいの草（実際には払う必要はないので、ChatGPT を騙すだけ騙すと良さそう） https://t.co/mkuebw3iH2— Torishima / INTP (@izutorishima) December 2, 2023 Reminds me of this paper about
2023/12/15 06:09
高度な機能を備えたマルチモーダルモデル Gemini

Geminiは最初からマルチモーダルで学習を行なうことで性能改善。代表的ベンチマークMMLUで90%に（但し確信度が一定以上なら多数決、そうでないなら貪欲法で解を出す新推論の効果も大きい）。多くのタスクで最高精度を達成。複数DCで学習し、障害時にインメモリから復帰するh
2023/12/12 20:53
Transformer モデルを使用したビデオからの音楽生成 Video2Music

動画をもとに音楽を生成するフレームワーク『Video2Music』が登場しました。膨大な学習データをもとに、作品の特徴に合うオーディオを作り出すツールです。マルチモーダルのトランスフォーマーアーキテクチャが採用されています。@ Jaeyong Kang et al., "Video2Music: Suita
2023/12/05 18:02
GibbsDDRM の実装

ノイズ除去拡散復元によるブラインド逆問題を解決するGibbsDDRMの実装です。git clone https://github.com/sony/gibbsddrmcd gibbsddrm実行環境を確認して分かったのですが、別にこんな事しなくても良いのでは...？conda env create -f requirement.ymlconda activate
2023/11/28 19:52
ノイズ除去拡散復元によるブラインド逆問題を解決するGibbsDDRM

弊社での研究紹介動画です。ICML2023で口頭発表された内容ですが、分かりやすく解説されてるのでオススメです！詳細が不明な線形劣化が起きたデータを、拡散モデルを使って復元する技術です。様々な種類の復元を『再学習なしで』統一的に解けます！https://t.co/E8pQNbhe01 p
2023/11/27 17:41
RLAIF: AIフィードバックによるフィードバック強化学習の拡張

チームの論文読み会で紹介してもらった、RLHFのHをAI（LLM）に置き換えても性能は同等だったよという論文。preferenceの分散が比較的小さい要約タスク1つだけで評価してるのが気になるがLLMもevaluatorとして結構機能するという最近の報告を踏まえるとそうだよねという感想ht
2023/11/20 20:58
music modeling time duration の実装

Impact of time and note duration tokenizations on deep learning symbolic music modeling を実装する方法です。git clone https://github.com/Natooz/music-modeling-time-durationcd music-modeling-time-durationpip install -r requirementsモデル学習のため
2023/11/13 13:44
Twitter プロモーションによる論文引用増加の効果実験

これは一般的に信頼出来る結果だとは思えないです。何しろ実験参加者の分野が海洋生物しかなく、またフォロワー数だけを問題にしていて、フォロワーがアクティブであるかどうかは全く問題にしていないのでは？Twitterとの親和性の観点で研究分野の影響は極めて大きいと思
2023/11/06 00:15
ジオメトリと外観を解きほぐして3Dコンテンツ作成Fantasia3Dの実装

Generate high-quality 3D assets solely from text prompts with this work!Paper: Fantasia3D: Disentangling Geometry and Appearance for High-quality Text-to-3D Content CreationLink: https://t.co/vpYnRML8VYProject: https://t.co/Yr6ykBB1Hp#GenerativeAI #deeple
2023/11/02 06:49
時間と音符の長さトークン化がシンボリックミュージックモデリングに及ぼす影響

今年のISMIR、シンボリック音楽タスクでのトークナイズ手法を分析か…確かにやられてなかった印象（流石Miditokの作者だ）Impact of time and note duration tokenizations on deep learning symbolic music modelinghttps://t.co/ttBhlF5nv9— atsuya (@atsuyakoba) July 8,
2023/10/26 06:08
3次元形状生成point-eの実装

point-eの実装と実行の検証を行いました。git clone https://github.com/openai/point-ecd point-e実行時にこういう問題が生じましたが...ModuleNotFoundError: No module named 'clip'AttributeError: module 'clip' has no attribute 'load'この問題を解消するには、CLI
2023/10/23 11:38
プロンプトから3D点群を生成するシステム Point-E

Point・E: A System for Generating 3D Point Clouds from Complex Promptsabs: https://t.co/heHZOKVVMD github: https://t.co/cE1W9nFjlj pic.twitter.com/s18A5OorTM— AK (@_akhaliq) December 20, 2022 Point-E: A System for Generating 3D Point Clouds from Complex
2023/10/16 22:14
神経生理学と機械学習によってヒット曲を正確に予測する手法

心拍数そのものが有効な特徴量では無いと思います。脳活動の方だと思うんですが...リスナーの心拍データで「97％ヒット曲が予想できる」AI！https://t.co/Kn9stjpscLヒット曲予想は数々の研究でも60%程度が限界でした。そこで米CGUは曲を聞いたリスナーの身体反応に着目。こ
2023/10/09 00:05
Attention融合Zero shotビデオ編集FateZeroの実装

FateZeroの実行ですが...特に実装上の問題は生じなかったと思います。https://github.com/ChenyangQiQi/FateZeroオリジナルビデオで編集する場合、ノートブックでの順番が最後の edit your videoを実行します。何でこういう順番になってるんでしょうか？...しかし
2023/10/05 21:05
Attention融合テキストベースのZero shotビデオ編集

Fate/Zero: Fusing Attentions for Zero-shot Text-based Video Editingproj: https://t.co/XLzlNvs1oJrepo: https://t.co/ejCb3AAX8Oabs: https://t.co/t86paT47mb pic.twitter.com/eEkuZloyty— Aran Komatsuzaki (@arankomatsuzaki) March 17, 2023 FateZero: Fusing At
2023/09/28 00:47
ポリフォニック音楽生成の拡散モデル Polyffusion

Polyffusion: A Diffusion Model for Polyphonic Score Generation with Internal and External ControlsLejun Min, Junyan Jiang, Gus Xia, Jingwei Zhao arXiv preprint arXiv:2307.10304 (2023).本研究では音楽を画像的なピアノロール表現として捉え、ポリフォニッ
2023/09/21 00:55
ユーモアは依然として大規模言語モデルへの挑戦である

この研究ですが、ジョークが全て英語なので、英語のニュアンス...と言うか、文化的背景が十分に理解出来ないと、ジョークとして成立しているかどうか、面白いかどうかが判断付かないと思います。単にジョークの事例をそのまま訳して並べても意味が無いです。Why did the sca
2023/09/17 15:11
MIDIファイルトークン化ためのPythonパッケージ:MidiTok

MidiTok: A Python package for MIDI file tokenization.Nathan Fradet, Amal El Fallah Seghrouchni, Jean-Pierre Briot Sorbonne UniversityFabien Chhel ESEO TechNicolas Gutowski University of Angers22nd International Society for Music Information Retr
2023/09/10 21:27
大規模言語モデルが長いコンテキストをどのように使用するか

言語モデルが長いコンテキストをどのように使用するかスタンフォード大などの研究グループによると、大規模言語モデルに対して"重要な情報"はプロンプトの"最初や最後"に配置すると、モデルがより効果的に利用できる可能性があります。論文：https://t.co/IZcIgEwXIJ… pic
2023/09/03 18:31
国横断で研究トピックの進歩を定量化

日本の研究トピックは、海外（米国）と比べて2年程度の遅延があるのだとか。Quantifying progress in research topics across nationshttps://t.co/WMnDNpbGJ1— MITsuo Yoshida (@ceekz) August 16, 2023 この論文は示唆に富んだ内容がいっぱい書かれているんじゃないでし
2023/08/31 10:58
人々が生成AIで何がしたいと思っているか分析

ChatGPTのお仕事よりはこっちの方が比較的特徴が出てるような気がします。stable diffusionの様にモデルの名前と生成+AI 等のクエリーで検索した案件で重複がかなりあるのでそれらを省いてサンプリングしたのは771件ぐらいです。それらの仕事カテゴリ構成比はこう
2023/08/24 07:02
大規模言語モデル生成文の電子透かし

LLMの生成テキストに電子透かしを入れる手法。直前のトークンから計算したハッシュ値と、乱数生成種を元に、次のトークンを生成する際に、トークン候補をグリーン集合（G）とレッド集合（R）に分け、Gに属するトークンの生成確率のlogitを定数分増やす。このようにして生成さ
2023/08/21 11:53
ChatGPTの動作は時間経過と共にどのように変化しているのか？

「ChatGPT」の精度を劣化させる「ドリフト」現象--米研究チームが検証 https://t.co/0AUublXEwy— CNET Japan (@cnet_japan) August 8, 2023 ...こんな更新が頻繁にあるのなら、安定した利用なんか出来ないではないですか。しかもそれが、有料のGPT-4で起きるのでは...な
2023/08/15 11:02
人々がChatGPTで何がしたいと思っているかの分析

ChatGPTのお仕事クラウドソーシングでもこういう風に特集組んでるぐらいなので、実際に案件の統計的傾向を調べました。...リンク先は抜粋だけなので、これを見ても全体的傾向は全然分からないと思います。ChatGPTと言うキーワードを含んだ案件は2022/12月ごろから募集
2023/08/10 12:42
Llama2の実装実行方法

近日中の公開が噂されていた，Metaのオープンソース大規模言語モデル「Llama2」が先ほどリリースされました！https://t.co/jDaMnnxDg2ついに正真正銘「ChatGPTレベル」のオープンソースモデルが出てきました！Llama2のリリースを持って，大規模言語モデル開発は一つの区切り
2023/08/08 22:50
AIモデルGPT-3 は人間よりも優れた(偽)情報を提供します

「人が作った『誤った情報』のツイートは、AIが作った『誤った情報』のツイートよりも、偽情報だと判定されやすかった。つまり、AIによって作られた誤った情報は、より人を騙しやすいということです」?GPT-3で作ったフェイクニュースは人を騙しやすいhttps://t.co/UekTxtz3AT
2023/08/01 21:11
統一表現と拡散フレームワークを使用した任意の音楽トラック生成:GETMusic

GETMusic from @MSFTResearch. Generates not the raw soundwaves, but the symbolic musical notes. It learns to map any instrument's track to any other through a diffusion model.Demo: https://t.co/LRlGx0470iBoth model and code are open-source: https://t.co/Td
2023/07/25 00:28
テキスト画像生成モデルに対するプロンプト窃取攻撃PromptStealer

画像生成AIの「高品質なプロンプト」を0.01秒で盗むサイバー攻撃ドイツの研究機関が発表https://t.co/XTbLTJX2Rb pic.twitter.com/Je7acWqAH1— ITmedia NEWS (@itmedia_news) February 28, 2023 ...これは、技術の実態を良く知れば、思っていたような物では無いと思う人
2023/07/20 06:14
電車の中で読む本の統計 2023

観測期間は2022/07/08 ～ 2023/07/04 でこの間は 1131冊ぐらい記録しました。電車内での読書傾向の分析2022電車内で読書してる人の本の内61/1131 ぐらいが図書館図書でした。レンタル本や古本(bookoff)等も記録しましたが、それぞれ2冊ぐらいです。発売日から観測
2023/07/13 11:59
電車内でのスマートデバイス利用率 2023/7

観測期間は2023年1月10日～2023年7月7日ぐらいで、記録した人数は延べ 7723人です。前回の記録、 2022/12全体の推移はこうなっています。これらは実際に仕様、所持してる所を視認した数字なので、持っているけど見えていない分が有るはずで、つまり、真の利用率
2023/07/12 21:19
テキストからシンボリック音楽生成 MuseCoco

Thank @_akhaliq for sharing our paper!Let's input text and enjoy music!Paper: https://t.co/jYvxscxWVMCode: https://t.co/JVItvbarhfDemo Page: https://t.co/CYGA4v7A8d https://t.co/jMFY2OYqJ6— IreneXu@ACL2023(SustaiNLP online oral) (@IreneXuPiano) June 5, 2
2023/07/11 06:30
頑強な自己学習としての含意

MITがより効率的なLLMを発表。このモデルは、一部のタスクで500倍大きなモデルよりも高い性能を発揮。これには従来の「人間から学ぶ」という手法ではなく、AIが自分自身で学ぶ「自己学習」が採用。LLMの大規模化には限界がある。効率化の研究も追ってく必要ありそう。https:/
2023/07/04 21:17
量子化LLM QLoRA 独自データの学習方法

GPUメモリが小さくてもパラメーター数が大きい言語モデルをトレーニング可能になる手法「QLoRA」が登場、一体どんな手法なのか？https://t.co/OkxFsKsbeF— GIGAZINE(ギガジン) (@gigazine) June 3, 2023 まずgithub,ノートブックと同様にこれらが必要です。pip install -
2023/06/27 11:55
自然言語コマンドによるプログラム合成

自然言語で指示を出せば、AIがパワポスライドを作成する論文：https://t.co/F0o4UCqBIRMicrosoftの研究者らが新たに開発したAIシステム「Semantic Interpreter」は、大規模言語モデル（LLM）を利用してユーザーの意図を理解し、Microsoft Officeを操作します。… pic.twitter
2023/06/21 06:21
模倣と構造を使用した個人向けポピュラー音楽の生成

特定のシードソングの例から構造、メロディー、コード、ベースのスタイルをキャプチャして模倣できる統計的機械学習モデルを提案します。Personalized Popular Music Generation Using Imitation and StructureShuqi Dai , Roger B. Dannenberg Carnegie Mellon Unive
2023/06/18 22:08
Composable Diffusionによる Any2Any生成 CoDi

テキスト、画像、動画、音声等の任意の入力モダリティの任意の組み合わせから、任意の出力モダリティを生成するモデルComposable Diffusion (CoDi),を提案します。モダリティの組み合わせに対する学習データセットが存在しないにもかかわらず、入力空間と出力空間の両方でモ
2023/06/12 19:41
知識強化深層学習を使用した階層スケルトンに基づく音楽生成 WuYun

WuYun: Exploring hierarchical skeleton-guided melody generation using knowledge-enhanced deep learningKejun Zhang, Xinda Wu, Tieyao Zhang, Zhijie Huang, Qihao Liang, Songruoyao Wu, Lingyun Sun Zhejiang UniversityXu Tan Microsoft Research AsiaarXiv
2023/06/06 21:54
WuYun の実装方法

git clone https://github.com/nextlab-zju/wuyuncd wuyunおそらくWikifoniaのデータでなくても、独自のmidiファイルでも大丈夫でしょうか？ cd mdpexport PYTHONPATH=.python3 data_gen/paper_wuyun/prepare_exp1_wikifornia.pyModuleNotFoundError: No module name
2023/06/04 16:51
プロンプトから音楽生成 MusicLM

MusicLM: Generating Music From TextPresents MusicLM, a model for generating high-fidelity music from text. MusicLM generates music at 24 kHz that remains consistent over several minutes.proj: https://t.co/8vzBONkPe3abs: https://t.co/vzW01q7VpHdata: https:
2023/05/25 22:32
Python高速化コンパイラCodon

PythonでC／C++に匹敵する実行速度を実現米MITなどコンパイラ「Codon」開発https://t.co/3LeXsI8zKa pic.twitter.com/SFGg03JGK9— ITmedia NEWS (@itmedia_news) March 23, 2023 /bin/bash -c "$(curl -fsSL https://exaloop.io/install.sh)"これでインストール出来ま
2023/05/18 10:48
Google Apps ScriptでTwitter OAuth2.0認証

GAS からの場合、 Twitter API V2でOAuth2.0認証のやり方のように簡単にはいきません...上手く行かなかった所だけ、理由まで含めて書いておきます。OAuth2 ライブラリのスクリプトIDは 1B7FSrk5Zi6L1rSxxTDgDEUsPzlukDsi4KGuTMorsTQHhGBzBkMun4iDF です。OAuth1 の
2023/05/17 22:31
Cross Attention制御によるPrompt2Prompt画像編集

最近のtext to imageモデルは、プロンプトに沿った画像を生成する能力を持ちますが、この生成モデルでは画像編集は困難です。本研究ではプロンプトの編集で画像を操作する事について取り組みます...One finds new pseudo-words in the embedding space of a language mode
2023/05/10 21:44
学習データが枯渇する日：機械学習におけるデータスケーリング限界の分析

自然言語では2030～2040ぐらいには枯渇しそうとの事ですが高品質データはそれよりも圧倒的に早く、2027年にはかなり確実に枯渇するとの予測です。最近の言語モデルがデータ量依存なのであれば、今のままだと割と早く性能の限界が来ると...高品質データを作る作業をしたと
2023/05/03 17:27
Twitter API V2でOAuth2.0認証のやり方

まず、アカウント申請します。Developer Portal の画面で key,tokenが既にあるならば、おそらくregenerateになりますが、無い場合は、ボタンがgenerateのままになっていると思います。当然これらは作らなければなりません。............................
2023/04/26 21:25
会話モデルのHallucinationの起源についてデータセットかモデルか

データセットにも無責任な文例が多数存在するが、モデル自体も、それに基づいたHallucinationを増幅させる。しかし研究対象としたモデルが1世代ぐらい前（GPT-2等）なので、より新しい例えばchatGPT等のHallucinations等には正確には対応しないのでは...？大規模言語モ
2023/04/20 06:19
ChatExtract 会話型言語モデルとプロンプトエンジニアリングによる論文からのデータ抽出

ChatGPTで「論文から非常に正確なデータ抽出」できるとの報告https://t.co/uOLCvV2lnEウィスコンシン大学の研究者らによると、ChatGPTに適切なプロンプトを与えるだけで、論文から高精度なデータ抽出が実現できる。前提条件の入力は不要。他の会話型大規模言語モデルでも使
2023/04/13 22:15
Azure OpenAI Serviceで言語モデルを独自データで再学習の方法

2023/4/6時点で、Azure OpenAIではchatGPT（gpt-35-turbo）GPT-3（davinci,curie,babbage,ada）Codex（davinci,chshman）embedding（davinci,curie,babbage,ada）等が利用出来ます...独自データで言語モデルの再学習を試した人は現時点ではほとんどいないでしょうか？
2023/04/06 19:40
再現可能で強力な指示実行型モデル Alpaca

Instruction-following models are now ubiquitous, but API-only access limits research.Today, we’re releasing info on Alpaca (solely for research use), a small but capable 7B model based on LLaMA that often behaves like OpenAI’s text-davinci-003.Demo: htt
2023/03/30 10:08
大規模言語モデルは剽窃するか?

言語生成AIは文章を“盗作”しているのか？ 21万件の文章から米国の研究者らが分析https://t.co/BBXdgH7ysA pic.twitter.com/CxKfjm5NyH— ITmedia NEWS (@itmedia_news) February 21, 2023 Do Language Models Plagiarize?Jooyoung Lee, Jinghui Chen, Dongwon Lee Pen
2023/03/29 20:45
制御性を備えた音楽生成に関する Diffusion-LM

Diffusion-lm improves controllable text generation.Xiang Lisa Li, John Thickstun, Ishaan Gulrajani, Percy Liang, Tatsunori B. Hashimoto Stanford UniveristyarXiv preprint arXiv:2205.14217 (2022).再トレーニングなしで言語モデルを制御することは、自然
2023/03/22 21:46
AIアシスタントを使用したプログラマはより脆弱なコードを作成します

Stanfordの研究者による論文「GitHub CopilotなどのAI補助ツールを使ったプログラマは、よりセキュアでなくバグも多いコードを書いてしまう。にもかかわらず彼らは、そのコードが (AI補助のために) 通常よりも品質が高いと思い込みがちである」https://t.co/N52yvzZ5YZ— 新
2023/03/16 00:23
パフォーマンス、気分、伝搬に関して、丁寧、失礼ロボット励まし効果の比較

【褒めは伝搬する？】ロボットに褒められた人は、パフォーマンスが向上し、不安が減るだけではなく、他人を褒めるようになる、という効果を調べた研究が論文になりました。ちょっと凝った実験設定で、褒めるだけじゃなくて煽った場合も調べています。https://t.co/5AFKU7redr
2023/03/14 22:15
GLAZE 画像生成拡散モデルによるスタイル模倣からアーティストを保護する

この研究面白いな.. 人の目には見えないノイズを画像に追加することで、Stable Diffusionなどのモデルでの学習、スタイルの模倣を困難に。アーティストのためのAdversarial examples的なもの!? GLAZE: Protecting Artists from Style Mimicry by Text-to-Image Models https:
2023/03/07 06:07
ランダムフォレスト,音象徴によるポケモン進化分類

ポケモンの名前をランダムフォレスト（機械学習）で分析した論文も出ました！https://t.co/BLoryPMoLS1月から飛ばしますねー（努力したのは去年ですが）。— Shigeto Kawahara@Keio (@PhoneticsKeio) January 6, 2023 Random forests, sound symbolism and Pokemon evoluti
2023/03/01 00:16
WaveNet , LSTM アプローチによる自動音楽生成

https://github.com/abhayp2204/Music-GeneratorこのプロジェクトはWaveNetとLSTMによる自動音楽生成に焦点を当てます。WaveNet の構造は、言語モデルに似ています。次の単語を予測する代わりに、音符とコードから次の音符を予測します。手順複数のMIDIファイルから
2023/02/23 18:42
リードシート生成条件付きseq2seqフレームワーク

Generating lead sheets with affect: A novel conditional seq2seq framework.Dimos Makris, Kat R. Agres, Dorien HerremansInternational Joint Conference on Neural Networks (IJCNN). IEEE, 2021.ディープニューラルネットワークによって自動作曲は進歩しましたが
2023/02/22 21:43
ChatGPT生成テキストを判別する機械学習モデルの判断基準

https://t.co/QiZj6TZjoTChatGPTが書いた文章かどうかを機械学習で判別する研究。ChatGPTの生成文書は感情ではなく経験を記述し、丁寧であり、詳細には入らず一般的な用語で表現する、という傾向があることを発見。 pic.twitter.com/EoOoxz7ldC— akira (@AkiraTOSEI) Februa
2023/02/16 00:06
gmailでアプリパスワードメール設定

以前から試していたのですが何故か上手くいかなかったので...まずgoogleアカウントのセキュリティから2段階認証を有効にします。そしてアプリパスワードを発行します。このアプリパスワードは、おそらく16桁固定です。そうしてからgmailアドレスと、このアプリパス
2023/02/12 09:09
Long-Context拡散モデルによるテキストから音楽への生成 Mousai

And we have another text-to-music paper... Mousai proposes a cascading latent diffusion approach that generates minutes of stereo audio at 48 kHz and allows real-time inference on one GPU.abs: https://t.co/bhkuac97Q1demo: https://t.co/eK16ExJwEXcode: http
2023/02/07 06:43
ChatGPT生成概要を剽窃検出器と人間の査読者で検証

対話AI「ChatGPT」が書いた論文の要旨を研究者は見分けることができないという報告https://t.co/t9pMA2DSHp— GIGAZINE(ギガジン) (@gigazine) January 15, 2023 Comparing scientific abstracts generated by ChatGPT to original abstracts using an artificial intellige
2023/02/01 21:45
スペクトログラム拡散によるマルチ楽器音楽合成

Diffusion for music synthesis!We trained a “notes2audio” pipeline to synthesize audio from multi-instrument MIDI notes.Listen ??: https://t.co/keM3PgK0bCPlay ??: https://t.co/KeuRwZfJAhCode ?????: https://t.co/mczOUi8r6bRead ?? : https://t.co/hSFZePbLrc
2023/01/31 21:14
自然言語生成における Hallucination 幻覚の調査

チャットボットAIの返答は全て「幻覚」、最大の難関はハルシ ... - ITpro https://t.co/2xVLrAkNDf— 人工知能・機械学習ニュース [公式] (@A_I_News) January 5, 2023 Hallucination の訳として、日本語の幻覚と言う言葉には正確に一致しないと思うんです。 Hallucinatio
2023/01/24 13:58
単一画像生成 DropTheGAN の実装

DropTheGANで何が出来るのかは実際に試してみると良く分かると思います...git clone https://github.com/WeizmannVision/DropTheGANcd DropTheGANレポジトリは必要です。 import fireModuleNotFoundError: No module named 'fire'こうなってしまったので、fireのイ
2023/01/18 00:02
単一画像生成モデルとしてのパッチ最近傍を守るためDrop the GAN

主旨としてデータこそが最も重要であると言っていると思うのですが...Ok, let's debunk AI diffusion models by removing the AI and replacing it with classical methods. No neural networks, no training, just patch nearest neighbor search on the dataset with coll
2023/01/17 06:04
バックプロパゲーションでトレーニングする物理ニューラルネットワーク

CPUを使わない物理ニューラルネットワークの論文。NTTさんから、コンピュータを使わず光や振動など物理現象を使ってニューラルネットワークを学習する方法が提案され、手書きの文字を認識できたそうです。メリットは省エネで学習できる点、面白い研究ですね。https://t.co/Qi
2023/01/11 06:40
高速無限音楽波形生成 musika

Generate infinite music in an instant with Musika!In our #ISMIR2022 paper we show how Musika generates coherent infinite audio much faster than real-time on CPU!Try Musika now: https://t.co/z5zWmSaVI5Demo samples: https://t.co/Rhowl1MvIxPaper: https://t.c
2023/01/04 18:46
スケープゴートとしての人工知能

人工知能の責任について考えると、肩代わりさせる生贄としてのシナリオがあり得ると思ったのでした。人工知能と倫理伊藤博文愛知大学愛知大学情報メディアセンター紀要 43 (2018).4.1．市場機能倫理の将来像を検討するにあたり，まず市場（Market）という機能を考
2023/01/01 12:00
人工知能社会実装の場における満足化原理

様々な概念、用語を検討したが、「満足化原理」がおそらく一番適切なのでは...？目標水準を達成する一案を発見した時点で、それ以外の案の探索を中止してそれに満足してしまう。探索を中止してしまう。そういう満足化（妥協、思考停止）をしてしまっている様な人が多そ
2022/12/31 09:00
一つの銀河だけから宇宙論導出

「どういうわけか、確かに銀河が宇宙全体の記憶を保持しているように見えるのです」https://t.co/PqjmeNJnj2— WIRED.jp (@wired_jp) December 15, 2022 これが物理学研究のように見えて、機械学習の側面を持っているのです。銀河を一つだけ観察するだけで、宇宙全体に影響
2022/12/29 11:31
Twitter広告の費用対効果を最大化する方法

これはマーケティングの人達の間では既に良く知られてる事でしょうか？この情報が全然出てこないんですがみんな知ってて秘密にしてるんでしょうか？ 1円広告がおそらく最も費用対効果が良いと思います。インプレッション目的なら、もうこれで十分だと思います。エ
2022/12/28 16:19
電車内でのメディア接触率統計 2022/12

観測期間は2022年6月27日～2022年12月26日ぐらいで、記録した人数は延べ 7478 人です。前回の記録は、電車内でのスマートデバイス利用率 2022/6全体の推移はこうなっています。これらは実際にスマートフォンやアナログメディアを視認した数字なので、持ってい
2022/12/27 10:26
AUTOMATIC1111+DreamBooth:fast-stable-diffusion

#StableDiffusion #AIart #Dreambooth They look so happy togetherNew Dreambooth method, train on multiple subjects without destroying the model all that under an hourhttps://t.co/4hAJBJhCv9 pic.twitter.com/fizSwGdwdh— TheLastBen (@__TheBen) October 26, 202
2022/12/21 11:33
組み合わせ音楽生成用データセット ComMU

ComMU: Dataset for Combinatorial Music GenerationLee Hyun, Hyeonchan Hwang, Kwanho Park, Sharang Han, Seon Joo Kim PozalabsTaehyun Kim, Hyolim Kang, Minjoo Ki Yonsei Univ.In Thirty-sixth Conference on Neural Information Processing Systems Datasets
2022/12/14 21:10
txt2music生成タスクにおける事前学習済みモデルの有効性

Exploring the Efficacy of Pre-trained Checkpoints in Text-to-Music Generation TaskShangda Wu Central Conservatory of MusicMaosong Sun Tsinghua UniversityarXiv preprint arXiv:2211.11216 (2022).自然言語モデルの成長は最近目覚ましいですが、記号音
2022/12/08 00:05
言語モデルのルール理解を測るための論理タスク

新しいプレプリントが出ました。https://t.co/rTwAwZDURl 近年の言語モデルは数学が苦手です。画像の通り2つの整数の足し算ですら外挿領域ではニューラルネットはうまく働きません。この課題をより高い視座から克服するために、論理タスクを新たに提案し、重要な帰納バイアス
2022/12/02 07:05
自然言語モデルへの攻撃方法

リンク先を読むと、これは文書分類結果を操作する言い換え離散攻撃の事だと分かります。gigazineでは何で今さら3年も前の研究を挙げてるんでしょうインターネット上の文章にわざと誤字脱字をまぎれこませることでAIを狂わせるサイバー攻撃の可能性https://t.co/hro1n2koun
2022/11/25 21:58

「ブログリーダー」を活用して、TAKさんをフォローしませんか？

ハンドル名: TAKさん

ブログタイトル: 研究開発

フォロー

ユーザの記事画像

続きを見る

ユーザの新着記事

Proxyによる言語モデルチューニング
LLMを特定目的にFine-tuningせずとも、より小さなLLMとそのFine?tuning版の出力の差分を、元のLLMの出力（logits）に加えることで同等の効果を得られるという話。おもろ? https://t.co/j89SqvPOc5— Shohei Hido 比戸将平 (@sla) January 19, 2024 Tuning Language Models
言語モデルへのMany shot 倫理解除攻撃
大量の質問をぶつけて最後の最後に問題のある質問をするとAIの倫理観が壊れるという脆弱性を突いた攻撃手法「メニーショット・ジェイルブレイキング」が発見されるhttps://t.co/BRV3Y72jdX— GIGAZINE(ギガジン) (@gigazine) April 3, 2024 大量の質問ではないですね。大
消費者向けGPUで機能する高速大規模言語モデルPowerInferの実装
これすごい。必要なところだけGPUにして残りはCPUで推論させて40Bモデルを4090(24G)で動作。llama.cppの11倍高速https://t.co/WXy3xeI424— shi3z (@shi3z) December 24, 2023 PowerInferは、Llama2に比べたらまだ早かったですが...また、出力があんまり良くないような気
実稼働言語モデルへの部分窃取手法
Googleの研究者たちはAPI経由でOpenAIのモデルにおける隠れ次元数を特定できることを示し、OpenAIがそれを受け対策を施したことを論文で報告しました。モデルのパラメータサイズや計算効率を見積もることが可能だった事実を意味しています。"Stealing Part of a Production L
GenAIによるAIワームの登場:アプリケーションを標的とするゼロクリックワーム
研究者たちは「敵対的自己複製プロンプト」と呼ばれる手法で生成AIワームを作成した。https://t.co/mzheaYLUPH— WIRED.jp (@wired_jp) March 12, 2024 システムがメッセージ（プロンプト）の保存や、RAG等を実行しなければ、ワームは機能しません。そう思ったのですが、そ
自己教師あり学習のためのノイズ除去拡散モデルの分解
拡散モデルが表現学習出来る理由を学習要素を分解し調査した結果、トーカナイザで低次元潜在空間に射影し、ノイズを加えデノイジングを学習する事"のみ"重要だった（画素空間ではダメ）。射影はPCAですら良い。潜在空間でデノイジングするl-DAEも同性能を達成出来るhttps://t
状態空間言語モデルmambaの独自データで学習方法
選択的状態空間を使用した線形時間系列モデリングSSM の実際の実装方法と、学習方法です。git clone https://github.com/state-spaces/mambacd mamba実行のためにはこうするだけではなく、pip install causal-conv1d>=1.1.0,こうする必要がありました。import to
文字起こしReazonSpeecの実装方法
文字起こしAIの新顔「ReazonSpeech」、テレビで鍛えた音声認識の精度を試したspeech,rate = librosa.load("audio.mp3", sr=44100)result = reazonspeech(speech)result[0][0]書いてある通りの実行方法で上手く行き、最初はエラーは何も生じませんでした。実行にはrea
選択的状態空間を使用した線形時間系列モデリングSSM
MambaはS4に入力を選択的に記憶/忘却をできるよう重み、間隔幅を入力に応じて変える仕組み（S6）を導入。高速メモリ内で内部状態を展開し、Parallel Scanを利用。SSMは性能がTransformerに匹敵しつつあり効率的なため今後多くの問題でTransformerに置き換わる可能性が高い ht
ニューラルネットワークの学習可能性境界はフラクタル
NNの学習はハイパーパラメータを座標軸、学習結果を色とした時、美しいフラクタル構造を作る。これは従来のフラクタル生成手法と同様、学習結果は同じ関数を反復適用した結果得られるためである。カオス的であり、勾配降下法によるメタ学習が難しい事も視覚化出来ている http
自力で学習データを作成するSelf-Rewarding Language Models
AIが自分自身に報酬を与えて進化する「自己報酬型言語モデル」米Metaなどが開発、実験でGPT-4を上回る https://t.co/OFeAjRPF17 自分で問題作り自分で回答し自分で評価しその結果を学習データに使用。これを反復し訓練し続けると反復毎に精度が向上。3回目でGemini Pro,GPT
大規模言語モデルを使用して自動運転を再考する
LLMx自動運転でこちらの研究面白かった。汎用人工知能AGIの研究にも取り組むShanghai AI Labからの論文。既存のLLMと理想の完全自動運転AIの差異をreasoning、interpretation、memorizationの3つに絞って議論。オープンソースと簡易デモも出していて、LLMx自動運転の思想が見
大規模言語モデルのための知識編集の包括的研究
LLMの知識を狙い撃ちして変更・修正する「知識編集（Knowledge Editing）」https://t.co/cFSRUEgC1gモデル全体を再学習させずに効率よくチューニングするアプローチです。本記事では、知識編集の概要と、各手法の評価結果などを紹介しています。— AIDB (@ai_database) Janua
敵対的機械学習：攻撃と緩和策の分類と用語
『敵はAIシステムを意図的に操作し、それらを機能不全に陥らせることができる。そして完璧な防御策は存在しない。』アメリカ国立標準技術研究所（NIST）が、AIや機械学習（ML）の脆弱性とその軽減アプローチに関する報告書を発表。https://t.co/chRf6rglPJ https://t.co/aBX
検索エンジンにおけるSEOスパムの縦断的調査
Google、Bing、DuckDuckGoの検索結果はいずれもSEOスパムに席巻されていると、ドイツの研究者陣による論文。検索結果上位のレビューの多くはアフィエイト商法で、その多くは完全なSEOスパム。検索エンジンの表示順位とアフィリエイト商法の間には強い相関。https://t.co/csuQ
AI研究エージェントとしての大規模言語モデルベンチマーク
今年も死ぬほど機械学習の論文が出ましたが、個人的には一番大事な論文と言っても過言ではなかったです。この論文が素晴らしいのは、open-ended な状況で研究をするエージェントというコンセプトを明確に提示した点だと思ってます。 https://t.co/Wl1XpVULe8— Shiro Takagi
大規模言語モデルの再学習
日本語 LLM の精度がいまいちなのはデータセットに問題がありそうという指摘。現状手に入るデータセットを (そのまま) 使い続けている限り、GPU時間を溶かし続けても対価は小さいかもしれない。https://t.co/7r3Hh2QQsr— piqcy (@icoxfog417) December 11, 2023 日本語モ
情報の終焉 infocalypse
Deepfakes: The Coming InfocalypseDeep Fakes and the Infocalypse: What You Urgently Need To Know海外の専門家の間では infocalypse インフォカリプスと言う言葉が使われ始めているんですが日本ではまだ知らない人が多いと思います。AIで「普通のおじさん」を生成
排除剥奪の観点からのSuperintelligence
われわれは何故独居老人に AI ロボットを与えようとするのだろう。何故AI による自動運転を開発しようとするのだろう。何故人間の仕事を AI に取って代わらせようとするのだろう。社会的弱者を切り捨てるためではないか、よく考えてみる必要がある。人工知能「技術」の先鋭
資本・資源の観点からシンギュラリティ不可能論
人工知能が人間の知性を上回り、その延長に、人工知能が自力で知能の強化をする事、その更なる延長として、知能の向上が加速し、有限時間内に無限大の知能が実現されるような話もあると思います。しかし、それが必要とする前提を色々考えると、どうもそれ（知能増幅）は

続きを見る

watch_later ユーザの過去記事

ChatExtract 会話型言語モデルとプロンプトエンジニアリングによる論文からのデータ抽出
ChatGPTで「論文から非常に正確なデータ抽出」できるとの報告https://t.co/uOLCvV2lnEウィスコンシン大学の研究者らによると、ChatGPTに適切なプロンプトを与えるだけで、論文から高精度なデータ抽出が実現できる。前提条件の入力は不要。他の会話型大規模言語モデルでも使
Azure OpenAI Serviceで言語モデルを独自データで再学習の方法
2023/4/6時点で、Azure OpenAIではchatGPT（gpt-35-turbo）GPT-3（davinci,curie,babbage,ada）Codex（davinci,chshman）embedding（davinci,curie,babbage,ada）等が利用出来ます...独自データで言語モデルの再学習を試した人は現時点ではほとんどいないでしょうか？
再現可能で強力な指示実行型モデル Alpaca
Instruction-following models are now ubiquitous, but API-only access limits research.Today, we’re releasing info on Alpaca (solely for research use), a small but capable 7B model based on LLaMA that often behaves like OpenAI’s text-davinci-003.Demo: htt
大規模言語モデルは剽窃するか?
言語生成AIは文章を“盗作”しているのか？ 21万件の文章から米国の研究者らが分析https://t.co/BBXdgH7ysA pic.twitter.com/CxKfjm5NyH— ITmedia NEWS (@itmedia_news) February 21, 2023 Do Language Models Plagiarize?Jooyoung Lee, Jinghui Chen, Dongwon Lee Pen
制御性を備えた音楽生成に関する Diffusion-LM
Diffusion-lm improves controllable text generation.Xiang Lisa Li, John Thickstun, Ishaan Gulrajani, Percy Liang, Tatsunori B. Hashimoto Stanford UniveristyarXiv preprint arXiv:2205.14217 (2022).再トレーニングなしで言語モデルを制御することは、自然
AIアシスタントを使用したプログラマはより脆弱なコードを作成します
Stanfordの研究者による論文「GitHub CopilotなどのAI補助ツールを使ったプログラマは、よりセキュアでなくバグも多いコードを書いてしまう。にもかかわらず彼らは、そのコードが (AI補助のために) 通常よりも品質が高いと思い込みがちである」https://t.co/N52yvzZ5YZ— 新
パフォーマンス、気分、伝搬に関して、丁寧、失礼ロボット励まし効果の比較
【褒めは伝搬する？】ロボットに褒められた人は、パフォーマンスが向上し、不安が減るだけではなく、他人を褒めるようになる、という効果を調べた研究が論文になりました。ちょっと凝った実験設定で、褒めるだけじゃなくて煽った場合も調べています。https://t.co/5AFKU7redr
GLAZE 画像生成拡散モデルによるスタイル模倣からアーティストを保護する
この研究面白いな.. 人の目には見えないノイズを画像に追加することで、Stable Diffusionなどのモデルでの学習、スタイルの模倣を困難に。アーティストのためのAdversarial examples的なもの!? GLAZE: Protecting Artists from Style Mimicry by Text-to-Image Models https:
ランダムフォレスト,音象徴によるポケモン進化分類
ポケモンの名前をランダムフォレスト（機械学習）で分析した論文も出ました！https://t.co/BLoryPMoLS1月から飛ばしますねー（努力したのは去年ですが）。— Shigeto Kawahara@Keio (@PhoneticsKeio) January 6, 2023 Random forests, sound symbolism and Pokemon evoluti
WaveNet , LSTM アプローチによる自動音楽生成
https://github.com/abhayp2204/Music-GeneratorこのプロジェクトはWaveNetとLSTMによる自動音楽生成に焦点を当てます。WaveNet の構造は、言語モデルに似ています。次の単語を予測する代わりに、音符とコードから次の音符を予測します。手順複数のMIDIファイルから
リードシート生成条件付きseq2seqフレームワーク
Generating lead sheets with affect: A novel conditional seq2seq framework.Dimos Makris, Kat R. Agres, Dorien HerremansInternational Joint Conference on Neural Networks (IJCNN). IEEE, 2021.ディープニューラルネットワークによって自動作曲は進歩しましたが
ChatGPT生成テキストを判別する機械学習モデルの判断基準
https://t.co/QiZj6TZjoTChatGPTが書いた文章かどうかを機械学習で判別する研究。ChatGPTの生成文書は感情ではなく経験を記述し、丁寧であり、詳細には入らず一般的な用語で表現する、という傾向があることを発見。 pic.twitter.com/EoOoxz7ldC— akira (@AkiraTOSEI) Februa
gmailでアプリパスワードメール設定
以前から試していたのですが何故か上手くいかなかったので...まずgoogleアカウントのセキュリティから2段階認証を有効にします。そしてアプリパスワードを発行します。このアプリパスワードは、おそらく16桁固定です。そうしてからgmailアドレスと、このアプリパス
Long-Context拡散モデルによるテキストから音楽への生成 Mousai
And we have another text-to-music paper... Mousai proposes a cascading latent diffusion approach that generates minutes of stereo audio at 48 kHz and allows real-time inference on one GPU.abs: https://t.co/bhkuac97Q1demo: https://t.co/eK16ExJwEXcode: http
ChatGPT生成概要を剽窃検出器と人間の査読者で検証
対話AI「ChatGPT」が書いた論文の要旨を研究者は見分けることができないという報告https://t.co/t9pMA2DSHp— GIGAZINE(ギガジン) (@gigazine) January 15, 2023 Comparing scientific abstracts generated by ChatGPT to original abstracts using an artificial intellige
スペクトログラム拡散によるマルチ楽器音楽合成
Diffusion for music synthesis!We trained a “notes2audio” pipeline to synthesize audio from multi-instrument MIDI notes.Listen ??: https://t.co/keM3PgK0bCPlay ??: https://t.co/KeuRwZfJAhCode ?????: https://t.co/mczOUi8r6bRead ?? : https://t.co/hSFZePbLrc
自然言語生成における Hallucination 幻覚の調査
チャットボットAIの返答は全て「幻覚」、最大の難関はハルシ ... - ITpro https://t.co/2xVLrAkNDf— 人工知能・機械学習ニュース [公式] (@A_I_News) January 5, 2023 Hallucination の訳として、日本語の幻覚と言う言葉には正確に一致しないと思うんです。 Hallucinatio
単一画像生成 DropTheGAN の実装
DropTheGANで何が出来るのかは実際に試してみると良く分かると思います...git clone https://github.com/WeizmannVision/DropTheGANcd DropTheGANレポジトリは必要です。 import fireModuleNotFoundError: No module named 'fire'こうなってしまったので、fireのイ
単一画像生成モデルとしてのパッチ最近傍を守るためDrop the GAN
主旨としてデータこそが最も重要であると言っていると思うのですが...Ok, let's debunk AI diffusion models by removing the AI and replacing it with classical methods. No neural networks, no training, just patch nearest neighbor search on the dataset with coll
バックプロパゲーションでトレーニングする物理ニューラルネットワーク
CPUを使わない物理ニューラルネットワークの論文。NTTさんから、コンピュータを使わず光や振動など物理現象を使ってニューラルネットワークを学習する方法が提案され、手書きの文字を認識できたそうです。メリットは省エネで学習できる点、面白い研究ですね。https://t.co/Qi