NYでテクニカルアーキテクトとして黙々と働いてます.扱うテーマは技術ノート,英語・NYに関すること等.
ITに携わる一納税者.ただのたぬきかもしれない.趣味はジャズ,クラシック,プログラミング,ゲーム,猫,妻と一緒に街歩き.
StatsCounterを使えば簡単に統計用の基本的な値を計算できる. import org.apache.spark.{SparkContext, SparkConf} /** * Created by neko32 on 2016/01/18. */ obje...
PairRDDのpartitionBy()を使ってパーティション毎の要素の合計を計算をする例. 入力ファイルは以下のようなキーバリューの対とする.また,バリューはスペース区切りの整数の列とする. lineA:73 44 58 62 lineAB:88 21 20 line...
以下の例はPlay frameworkのJSONライブラリを使ってJSONを作った例. Scalaの型から作られたJSONをJson.parse()を使ってまたJSON化もしている. import play.api.libs.json._ /** * Created ...
以下の例はSparkJDBCを使ってRDB(ここではMySQL. MySQLは使いやすくていいね!)からデータを取得しJDBCRDDを構築する. import java.sql.{ResultSet, DriverManager} import org.apache.sp...
以下の例はRDDの内容(Neko case class)をCSVファイルとしてHDFSに書き込む例. package tanuneko import java.io.StringWriter import com.opencsv.CSVWriter import org...
Spark - ファイル名をキー,内容をバリューとしてファイルを読み込み
SparkContextのwholeTextFiles()を使うと,ファイル名をキー,内容をバリューのRDDを作ることが出来る.以下の例では,HDFS上に空白区切りで数字が羅列されている複数のファイルを一括で読み込んでそれぞれの算術平均を求めている. val in = sc....
Spark メモ - CSVからkey - non-key ペア変換
HDFS上のCSV風テキストを最終的に主キー - 非キー別タプルに変換する例. // read input file separated by comma // suppose this input file consists of 4 cols (tradeid, ve...
Scalaの外部コマンド実行はJavaのProcessBuilderほぼ同じ. /** * Created by neko32 on 2016/01/03. */ object RunCommand { def main(args:Array[String]):Un...
CSVファイルを読み込んで多重配列に保存するコードのメモ.. import resource._ import scala.io.Source object CSVReadRunner extends CSVRead { def main(args:Array[St...
Scalaにおいてtry-with-resourceのようなARMを使うには,私の知っている限りscala-ARMを使う必要がある. 以下の例はmanagedを使ってwriterをmanagedを使って自動で閉じ,scala.io.Sourceで読みだした後,自前のcloseA...
scalaでは,mapのキー・バリュースワップを容易に実現出来る. val myMap = Map("Tora" -> "Chatora", "Mikeyo" -> "Mike", "Powder" -> "Mike") val reversed = fo...
Scalaのmatch文は極めて強力で,そのうちの一つのリスト要素へのパターンマッチも便利なものの一つだろう.以下の例はMyCatへのコンストラクタマッチとリスト要素へのシーケンスパターンマッチの組み合わせの例.もしパターンマッチ内でジェネリック型も含めた型パターンマッチ等をして...
「ブログリーダー」を活用して、tanu32さんをフォローしませんか?
指定した記事をブログ村の中で非表示にしたり、削除したりできます。非表示の場合は、再度表示に戻せます。
画像が取得されていないときは、ブログ側にOGP(メタタグ)の設置が必要になる場合があります。