III. Bulut Bilişim ve Büyük Veri Yaz Okulu 2015



Günümüzde farklı kaynaklar tarafından üretilen veri miktarı çok büyük boyutlara ulaşmıştır. Bu veriyi işlemek için gerekli sistemlerin ve yazılımların kaynak ihtiyacına göre yönetilmesi, işletilmesi ve güç tüketim maliyetlerinin azaltılması zorunlu hale gelmiştir. Bu kapsamda, TÜBİTAK BİLGEM Bilişim Teknolojileri Enstitüsü tarafından T.C. Kalkınma Bakanlığı Yatırım Programı desteğiyle "Bulut Bilişim ve Büyük Veri Araştırma Laboratuvarı" (B3LAB) projesi başlatılmıştır. Bulut Bilişim ve Büyük Veri alanında ileri düzeyde araştırmaların yapılması, ihtiyaç duyulan ürünlerin yerli kaynaklarla geliştirilmesine öncülük edilmesi, bu alanda çalışacak paydaşlar için araştırma yapma ve danışmanlık alma olanaklarının sağlanması ve Bulut Bilişim ekosisteminin oluşmasına katkı sağlanması, ulusal boyutta pek çok paydaşı ilgilendiren B3LAB projesinin öncelikli hedeflerindendir.

B3LAB Projesi kapsamında, TÜBİTAK BİLGEM Bilişim Teknolojileri Enstitüsü tarafından 8-19 Haziran 2015 tarihleri arasında III. Bulut Bilişim ve Büyük Veri Yaz Okulu düzenlenecektir. Yaz okulunun hedefi, 4. sınıf lisans ve lisansüstü öğrencilerin ilgili teknolojilere ilgisini arttırmak ve mevcut bilgilerinin kuramsal ve uygulama dersleriyle geliştirilmesine olanak sağlamaktır. Yaz okulu, birer hafta süreli Bulut Bilişim ve Büyük Veri başlıkları altında iki ayrı program olarak gerçekleştirilecektir. Farklı üniversitelerde görev yapan öğretim üyelerinin/görevlilerinin kendi uzmanlık alanlarında vereceği derslere ek olarak BİLGEM çalışanları proje hedefleri doğrultusunda kullanılacak teknolojilerin ağırlıklı yer alacağı dersler vereceklerdir.

Bulut Bilişim ve Büyük Veri Yaz Okulu

Büyük Veri Programı
15-19 Haziran 2015

15 Haziran Pazartesi  
08:30-09:00 Proje Ekibi ile Tanışma
09:00-09:15 Açış Konuşması
Prof. Dr. Ahmet Arif ERGİN, BİLGEM Merkez Başkanı
09:30-12:00 Kuramsal Ders - 1
Büyük Veri, Veri Madenciliği ve Hadoop Ekosistemi

Bu dersin ilk bölümünde, veri kavramı tanıtılacak ve büyük veri ile ifade edilen kavramın ne gibi zorluklar oluşturduğu aktarılacaktır. Geleneksel metotlarla büyük veriyi işlemedeki zorluklar anlatılacak ve büyük verinin ilişkisel veritabanları, grid computing ve volunteer computing ile olan farkları katılımcılara aktarılacaktır.
Dersin ikinci bölümünde, veri madenciliği kapsamında veri temizleme /normalizasyon, veri madenciliği-yapay öğrenme ilişkisi, vektör-uzayı modeli, metin sınıflandırma, metin öbekleme ve metin bulma (text retrieval) konularına değinilecektir.
Dersin üçüncü bölümünde, dağıtık veri saklama ve analiz sistemlerinin farklı gereksinimler için geliştirilmiş sistemler ele alınacaktır.

Hayati GÖNÜLTAŞ, Harun Reşit ZAFER, Canan GİRGİN
BİLGEM BTE
12:00-13:00 Öğle Yemeği
13:00-17:00 Uygulamalı Ders - 1
Linux Temelleri

Bu ders tamamlandığında katılımcıların Linux işletim sistemlerinin temellerini öğrenmesi hedeflenmektedir. Ders iki ana bölümden oluşmaktadır. İlk bölümde, Linux'a giriş ele alınacaktır. Temel linux komutları, izin ve haklar gibi temel seviyedeki bilgiler aktarılacaktır. İkinci bölümde, paket yönetimi, dosya sistemi gibi konular ele alınacaktır.

Hayati GÖNÜLTAŞ
Bilgem BTE
16 Haziran Salı  
08:00-12:00 Kuramsal Ders - 2
Hadoop-Hive sorgularının çalışma sürelerinin tarama ve hesaplama işlemlerinin paylaşılması yoluyla iyileştirilmesi

MapReduce güncel ve yaygın kullanılan bir yazılım modelidir ve çok uzun süren bilgisayar hesaplamaları gerektiren analiz sorgularının büyük boyutlu veri kümesi bilgisayarları üzerinde kısa sürede hesaplanmasını sağlamaktadır. Benzer bilgi seçme koşulları, ortak veri tabloları, ve veri birleştirme (join) işlemleri içeren çok sayıda sorgunun eş zamanlı ulaştığı sistemlerde bu tarama ve birleştirme işlemleri paylaşılabilmektedir. Sorgular arasındaki ortak işlemlerin yalnızca bir kere gerçekleştirilmesi yoluyla birlikte “batch” olarak işlenen bu çok sayıda sorgunun toplam işlem zamanında büyük miktarlarda azalma sağlanabilmektedir. Bu amaçla MapReduce temelli bir açık kaynak SQL-bazlı veri ambarı sorgulama dili olan Hadoop-Hive’ın performans artırımı için Çoklu Sorgu Optimizasyonu (multiple query optimization) çatısının kullanılması bu çalışmada önerilmektedir. Bu amaçla geliştirilen SharedHive yazılımı birbiriyle ilişkili (ortak tarama ve birleştirme işlemleri içeren) HiveQL sorgularını dönüştürerek yeni bir yerleştirme sorgusu (insert query) elde edilmektedir. Bu dönüştürülmüş tek sorgu ile orijinal HiveQL sorgularının tümü daha kısa sürede hesaplanarak gereken bütün sorgu çıktıları üretilmektedir. SharedHive çatısının toplam çalışma sürelerinde gerçekleştirdiği önemli düşüşlerin deneysel olarak gösterilebilmesi için standart bir veritabanı ölçüt (benchmark) sorgu seti olan TPC-H karar destek (decision support) sorguları kullanılarak bu TPC-H sorguları SharedHive çatısı ile çalıştırılarak elde edilen önemli çalışma süresi düşüşleri deneysel olarak bulunmaktadır. Bu derste, bahsi geçen bu çalışmadan bahsedilecektir.

Prof. Dr. Ahmet COŞAR
Dr. Tansel DÖKEROĞLU
Orta Doğu Teknik Üniversitesi Bilgisayar Mühendisliği Bölümü
12:00-13:00 Öğle Yemeği
13:00-17:00 Uygulamalı Ders - 2
HDFS ve Dağıtık Dosya Sistemleri

Bu derste, genel hatlarıyla dağıtık dosya sistemlerinin özellikleri aktarıldıktan sonra, HDFS dosya sisteminin mimari yapısı anlatılacaktır. Namenode ve datanode kavramları açıklanacak ve HDFS üzerinde komut satırı kullanılarak dosya işlemlerinin nasıl gerçekleştirildiği anlatılacaktır. Java, C gibi dillerle HDFS kullanımı anlatılacak ve HDFS'de bir dosya okuma ve yazma esnasında gerçekleşen alt seviye işler detaylandırılacaktır. Bu eğitimin sonunda katılımcıların dağıtık dosya sistemlerinin işleyişi ve HDFS konularında temel seviyede bilgi sahibi olmaları hedeflenmektedir.

Dağıtık dosya sistemleri
HDFS
Namenode, datanode
HDFS Federation
HDFS komut sistemi
Programlama arayüzleri
HDFS iç işleyişi

Hayati GÖNÜLTAŞ
BİLGEM BTE
17 Haziran Çarşamba  
08:00-12:00 Kuramsal Ders - 3
Arama ve İndeksleme, NoSQL Veritabanları

Bu ders kapsamında şu soruların cevapları aranacaktır:
Arama motorları nasıl çalışır?; Tarama (crawling), Indeksleme (indexing) ve Sıralama (ranking) işlemleri nasıl gerçekleşir?; Odaklı tarayıcı (focused crawler) ve Konulu tarayıcı (topical crawler) nedir ve nasıl çalışır?; Tarayıcıların performansı nasıl ölçülür?; Inverted indeks nedir?; Indeks üzerinde neler bulunmalıdır?; Indeks üzerinde arama nasıl yapılır?; Stemming nedir, nasıl yapılır?; Bilgiye erişim modelleri (boolean modeli, vektör uzay modeli) nelerdir?; Metin ve Bağlantı tabanlı sıralama algoritmaları nelerdir ve nasıl çalışırlar?; Arama sonuçlarının kalitesi nasıl değerlendirilir?; NoSQL nedir ve nasıl kullanılır?; NoSQL Veritabanları tipleri, veriyi saklama yöntemleri kullanım alanları, özellikleri nelerdir?; NoSQL Veritabanlarında kümeleme, yüksek bulunabilirlik, yedekleme nasıl yapılır?.

Yrd. Doç. Dr. Mehmet AKTAŞ
Yıldız Teknik Üniversitesi, Bilgisayar Mühendisliği Bölümü
12:00-13:00 Öğle Yemeği
13:00-17:00 Kuramsal Ders - 4
Büyük veriye IBM yaklaşımı
Mehmet DİLEK
IBM Analitik Lideri
18 Haziran Perşembe  
08:00-12:00 Kuramsal Ders - 5
MapReduce ile Veri Analitiği ve Apache Spark

Dersin ilk bölümünde, Hadoop üzerinde dağıtık veri analizi işlemlerinin gerçekleştirilmesi için MapReduce sisteminin çalışma adımları ele alınacaktır. Dersin ikinci bölümünde, Apache Spark'ın gelişimi ve tarihçesine ait kısa bir giriş yapılacaktır. Hadoop'un eksiklikleri (batch-processing, workflow ve caching) ve bunları telafi etmek için getirilen çözümler incelenecektir (mahout, giraph, bulk synchronous parallel programming).
Apache Spark'ın güçlü olduğu alanlardan bahsedilecektir (makine öğrenmesi, çizge algoritmaları ve anlık sorgular gibi). Scala Programlama dili ve fonksiyonel programlama paradigmasına kısa bir bakış yapılacaktır. Önemli Scala fonksiyonlarından bahsedilecektir (map, reduce, groupby, filter ve flatten). Resilient Distributed Dataset kavramı, Spark mimarisi, caching mekanizması ve hata toleransından bahsedilecektir. Spark'ın uyumlu çalıştığı dosya sistemlerinden ve Tachyon projesinden kısaca bahsedilebilir.

Canan GİRGİN, Fatih ALIR
BİLGEM BTE
12:00-13:00 Öğle Yemeği
13:00-17:00 Uygulamalı Ders - 3
HBase Kurulum ve Konfigürasyon, MapReduce ve Apache Spark

Dersin ilk bölümünde, Hadoop Ekosistemin bir parçası olan HBase'in kullandığı teknolojiler, hangi durumlarda ve neden ihtiyaç duyulduğu, büyük veri içerisinde konumu ve genel kavramlar anlatılacaktır. Böylelikle, ufak bir giriş yapılan HBase NoSQL veritabanının kurlumu konfigurasyonları hakkında bilgiler paylaşılacaktır. En son olarak tablo yapısı ve örnek veri manipulasyonları aktarılacaktır.
Dersin ikinci bölümünde, MapReduce kullanımı ele alınacaktır.

Mehmet Zahid YÜZÜGÜLDÜ, Canan GİRGİN, Fatih ALIR
BİLGEM BTE
19 Haziran Cuma  
08:00-12:00 Kuramsal Ders - 6
Büyük Veri Bilgi Güvenliği ve Veri Mahremiyeti

Bilgisayar bilimleri, odak konusunun hesaplama olduğu yöntemlerden, büyük sensör ağları, yeni veri toplama teknikleri, genetik ve teorik fizik benzetimleri ve sosyal ağlar gibi kaynaklardan üretilen bilginin kullanıldığı veri yoğun uygulamalara geçiş yapmaktadır. Yüksek boyutlu veri setlerinin çıkarılması, işlenmesi için yeni ölçeklenebilir algoritmalara ve veri yönetim sistemlerine ihtiyaç duyulmaktadır. Bilgisayar bilimlerinde yaşanan bu değişim beraberinde yeni bir güvenlik ve mahremiyet bakış açısı getirmektedir. Bu ders kapsamında temel olarak iki ana konuya odaklanılacaktır. Birinci bölümde, büyük veri teknolojilerinin güvenlik ve mahremiyet konularına değinilecektir. Bu kapsamda, sorunlar ve bunlar için kullanılan güvenlik alanındaki teknolojik çözümler ve veri mahremiyeti, anonimleştirme alanında kullanılan algoritmalar anlatılacaktır. İkinci kısımda ise büyük verinin güvenlik ve mahremiyet alanında kullanımı konularına değinilecektir. Bu kapsamda, büyük veri teknolojilerinin özellikle siber güvenlik alanında kullanımı ile ilgili örnekler paylaşılacaktır.

Dr. Ferhat Özgür ÇATAK
BİLGEM SGE
12:00-13:00 Öğle Yemeği
13:00-16:30 Kuramsal Ders - 7
Büyük Veri Girişimciliği

Silikon vadisi "büyük veri" noktasına nasıl geldi? Büyük veri konusunda ticarileşen şirketler nelerdir ve rekabet ne durumda? Dünyada büyük veri pazarı nasıl büyüyor? Büyük verinin önümüzdeki 10 yılı nasıl olacak?
Girişimciler için nasıl fırsatlar var?

Yrd. Doç. Dr. Fatih EMEKCİ
Turgut Özal Üniversitesi, Bilgisayar Mühendisliği Bölümü
16:30-17:00 Yaz Okulunun Değerlendirilmesi ve Kapanış

GENEL BİLGİLER

  •   BİLGEM Santral
  •   Mustafa ÇELİK
  •   Savaş DAVAZ
  •   İletişim
  • +90 (262) 648 10 00
  • +90 (262) 648 33 43
  • +90 (262) 648 13 22
  • iletişim e-postası

YAZ OKULU YERİ BİLGİLERİ

  •   TÜBİTAK BİLGEM
  •   +90 (262) 648 10 00
  •   Gebze Yerleşkesi PK: 74, 41470
  •       Gebze / Kocaeli

DÜZENLEME KOMİTESİ

Dr. Mehmet SEZGİN Dr. Şeniz DEMİR
Dr. Yıldırım BAHADIRLAR Savaş DAVAZ
Dr. Oğuz İÇOĞLU Hayati GÖNÜLTAŞ
Özleyiş BAYOĞLU Cihangir BEŞİKTAŞ
Dr. Fatma Canan PEMBE MUHTAROĞLU Mustafa ÇELİK