TUGAS SOFTSKILL MENGANALISA WEBSITE
Web analytics adalah pengukuran, pengumpulan, analisis dan pelaporan data internet untuk tujuan pemahaman dan mengoptimalkan penggunaan web.
Web analytics bukan hanya sebuah alat untuk mengukur lalu lintas situs Web, namun dapat digunakan sebagai alat untuk penelitian bisnis dan riset pasar. Analisis Web aplikasi dapat juga membantu perusahaan mengukur hasil kampanye iklan cetak tradisional. Ini membantu orang untuk memperkirakan bagaimana lalu lintas ke situs web berubah setelah peluncuran kampanye iklan baru. Web analytics menyediakan data tentang jumlah pengunjung, tampilan halaman dll untuk mengukur popularitas situs yang akan membantu untuk melakukan riset pasar.
Ada dua kategori analisis Web; off-site dan on-site web analytics.
Off-site web analisis mengacu pada pengukuran dan analisis web tidak peduli apakah Anda sendiri atau mempertahankan sebuah website. Ini mencakup pengukuran potensi sebuah situs web penonton (kesempatan), berbagi suara (visibilitas), dan buzz (komentar) yang terjadi di Internet secara keseluruhan.
On-site web analytics mengukur perjalanan sekali pengunjung di website Anda. Ini termasuk yang driver dan konversi, misalnya halaman arahan yang mendorong orang untuk melakukan pembelian. On-site analisis Web mengukur kinerja situs dalam konteks komersial. Data ini biasanya dibandingkan terhadap indikator kinerja kunci kinerja, dan digunakan untuk meningkatkan situs web atau kampanye pemasaran respons penonton.
Secara historis, analisis Web telah disebut di-pengukuran pengunjung situs. Namun dalam beberapa tahun terakhir ini telah kabur, terutama karena vendor yang memproduksi alat-alat yang span kedua kategori.
On-site web analytics teknologi
Ada beberapa tools yang digunakan untuk mengukur website dari segi kecepatan akses dan performanya, serta mengukur banyaknya pengunjung suatu website. Dibawah ini akan dipaparkan beberapa tools tersebut:
1. Pingdom Tools

Merupakan sebuah alat ukur kecepatan website dapat di akses, nilai dari sebuah website, dan beberapa ukuran dari sebuah website tersebut.
Beberapa kelebihannya di kategorikan sebagai berikut :
Performance Grade : melihat nilai kecepatan performa halaman web, dari akses DNS, browser cache, combine external css dan lain-lain.
Waterfall : melihat detail kecepatan akses ketika membuka halaman web, dari gambar bahkan sampai seberapa cepat script tersebut dapat di akses.
Page Analysis : melihat detail analisa halaman web.
History : melihat detail akses dari beberapa hari lalu.
Kekurangan yang terdapat pada tools ini, sama seperti tools alat ukur akses web pada umumnya yaitu Membutuhkan akses internet yang stabil, karena tidak mungkin kita bisa mengukur kecepatan akses suatu website kalau akses internet kita terhadap website tersebut tidak stabil/berjalan dengan baik.
2. GTmetrix

GTmetrix merupakan sebuah situs dimana kita dapat mengetahui berbagai hal yang membuat blog/web kita lambat dan performa blog/web ketika akses, tersedia secara gratis dengan mengunakan yahoo Yslow dan Google page speed sebagai mesin penganalisa dan menampilkan hasil juga rekomendasi yang harus dilakukan.
Kelebihan dari GTmetrix :
- dapat membandingkan beberapa URL secara bersamaan.
- dapt menjadwalkan pengecekan web/blog secara otomatis dan dapat menyimpan laporan.
kekurangan dari GTmetrix :
Dalam penggunaan GTmetrix harus menggunakan koneksi internet yang cepat.
- Keynote Internet Testing Environment (KITE)
- Alat pengujian dan pengukur berbasis desktop yang digunakan untuk merekam atau mengedittransaksi web dan menganalis kinerja dari aplikasi web. KITE sangat mudah untuk digunakan dan sebagai salah satu alat yang sudah cukup terkenal didunia.
- CloudStatus
3. Alexa Rank

Alexa Internet, Inc. adalah perusahaan yang mengoperasikan situs yang menyediakan informasi mengenai banyaknya pengunjung suatu situs dan urutannya. Cara kerja Alexa rank Alexa memberikan peringkat ke sebuah situs berdasarkan jumlah pengunjung unik. Semakin rendah alexarank dari situs berarti situs memiliki sedikit pengunjung unik.Jadi jika Anda bisa mendapatkan lebih banyak traffic ke situs Anda, Anda akan mendapatkan lebih rendah alexa rank.
Selain tools-tools diatas, masih banyak tools serupa lainnya yang bisa dicari sendiri di Search Engine.
Crawlers

Crawlers adalah proses pengambilan sejumlah besar halaman web dengan cepat kedalam satu tempat penyimpanan lokal dan mengindexnya berdasarkan sejumlah kata kunci. yakni sebuah komponen utama dalam sebuah Search Engine (Mesin Pencari), sebagai Aplikasi Information Retrieval Modern
Cara kerja :
suatu data dikumpulkan oleh web crawler kemudian digunakan oleh mesin pencari untuk memberikan link situs yang relavan bagi pengguna ketika mereka melakukan pencarian. web crawler menangkap banyak hal yang berbeda ketika mereka memindai situs. Informasi diperoleh dari metatag, konten itu sendiri dan link. untuk mendapatkan ide yang baik dari apa situs adalah tentang. Crawler digunakan sebagai scan situs anda. jika ada bagian-bagian tertentu dari situs yang seharusnya tidak diindeks, mereka harus mencatat dalam file ini. setelah mendapat instruksi crawler dari file ini, akan mulai dengan merangkak halaman situs anda.
Ini kemudian akan melanjutkan ke indeks konten, dan kemudian akhirnya akan mengunjungi link di situs Anda. Jika crawler mengikuti link dan tidak menemukan halaman, maka akan dihapus dari indeks. Informasi yang dikumpulkan dari situs Anda kemudian disimpan dalam database, yang kemudian digunakan oleh mesin pencari.
Search Engine

adalah program komputer yang dirancang untuk melakukan pencarian atas berkas-berkas yang tersimpan dalam layanan www, ftp, publikasi milis, ataupun news group dalam sebuah ataupun sejumlah komputer peladen dalam suatu jaringan. Search engine merupakan perangkat pencari informasi dari dokumen-dokumen yang tersedia. Hasil pencarian umumnya ditampilkan dalam bentuk daftar yang seringkali diurutkan menurut tingkat akurasi ataupun rasio pengunjung atas suatu berkas yang disebut sebagai hits. Informasi yang menjadi target pencarian bisa terdapat dalam berbagai macam jenis berkas seperti halaman situs web, gambar, ataupun jenis-jenis berkas lainnya. Beberapa mesin pencari juga diketahui melakukan pengumpulan informasi atas data yang tersimpan dalam suatu basisdata ataupun direktori web.
Sebagian besar mesin pencari dijalankan oleh perusahaan swasta yang menggunakan algoritma kepemilikan dan basisdata tertutup, di antaranya yang paling populer adalah Google (MSN Search dan Yahoo!). Telah ada beberapa upaya menciptakan mesin pencari dengan sumber terbuka (open source), contohnya adalah Htdig, Nutch, Egothor dan OpenFTS
Archiving Web
Adalah proses pengumpulan bagian-bagian dari World Wide Web untuk memastikan informasi tersebut diawetkan dalam arsip bagi para peneliti di masa depan, sejarawan, dan masyarakat umum. Web Archivist biasanya menggunakan web crawler untuk menangkap otomatis karena ukuran besar dan jumlah informasi di Web. Organisasi terbesar web pengarsipan berdasarkan pendekatan bulk crawling adalah Internet Archive yang berusaha untuk mempertahankan sebuah arsip dari seluruh Web.
Web Archive adalah Sebuah file format terkompresi, didefinisikan oleh Java EE standar, untuk menyimpan semua sumber daya yang diperlukan untuk menginstal dan menjalankan aplikasi Web dalam satu file.
Teknik yang paling umum digunakan dalam pengarsipan Web adalah dengan menggunakan web crawler untuk mengotomatisasi proses pengumpulan halaman web. Web crawler biasanya mengakses halaman web dengan cara yang sama seperti yang user biasa lihat pada Web. Contoh pengarsipan web yang menggunakan web crawlers diantaranya adalah :
1. Heritrix

Heritrix adalah crawler web yang dirancang untuk keperluan Web Archiving. Heritrix ditulis oleh Internet Archive. Heritrix berlisensi free software dan ditulis dalam bahasa Java. Interface utama dapat diakses menggunakan Web Browser,, ada beberapa baris perintah yang opsional dapat digunakan untuk menginisiasi Crawler.
Heritrix dikembangkan bersama oleh Internet Archive dan perpustakaan nasional Nordic pada awal 2003. Rilis resmi pertama adalah pada bulan Januari 2004, dan telah terus ditingkatkan oleh karyawan dari Internet Archive dan pihak lain yang berkepentingan.
Heritrix bukan crawler utama yang digunakan untuk menjelajah konten untuk koleksi web Internet Archive selama bertahun-tahun. Penyumbang terbesar untuk koleksi adalah Alexa Internet. menjelajah web untuk keperluan sendiri, dengan menggunakan crawler bernama ia_archiver. Alexa kemudian menyumbangkan materi ke Internet Archive. Internet Archive sendiri melakukan crawlingnya sendiri menggunakan Heritrix, tetapi hanya pada skala yang lebih kecil.
Mulai tahun 2008, Internet Archive mulai peningkatan kinerja untuk melakukan Crawling skala luas sendiri, dan sekarang telah mengumpulkan sebagian besar isinya.
2. HTTrack

HTTrack merupakan Web Crawler yang gratis dan bersifat open source, dikembangkan oleh Xavier Roche dan berlisensi di bawah Lisensi GNU General Public License Versi 3. HTTrack memungkinkan pengguna untuk men-download situs World Wide Web dari Internet ke komputer lokal. HTTrack juga dapat mengupdate situs mirror yang ada dan melanjutkan download terputus. HTTrack dikonfigurasi dengan option dan oleh filter (include/exclude), dan memiliki sistem bantuan yang terintegrasi. Ada versi baris perintah dasar dan dua versi GUI (WinHTTrack dan WebHTTrack)
HTTrack menggunakan crawler Web untuk men-download website. Beberapa bagian dari situs web tidak dapat didownload secara default karena protokol exclusion robot dinonaktifkan selama program. HTTrack dapat mengikuti link yang dihasilkan dengan dasar JavaScript dan di dalam Applet atau Flash, tapi bukan kompleks link (dihasilkan dengan menggunakan fungsi atau ekspresi) atau peta gambar server-side.
3. Wget

GNU Wget, seringkali hanya disebut wget, adalah sebuah program komputer sederhana yang mengambil materi dari web server, dan merupakan bagian dari Proyek GNU. Namanya diturunkan dari World Wide Web dan get, konotatif dari fungsi primernya. Program ini mendukung pengunduhan melalui protokol HTTP, HTTPS, dan FTP, protokol berbasis TCP/IP yang paling luas digunakan untuk penjelajahan web.
Fitur-fiturnya meliputi pengunduhan rekursif, konversi pranala untuk peninjauan offline dari HTML lokal, mendukung proxy, dan lebih banyak lagi. Pertama kali muncul pada tahun 1996, dilatarbelakangi oleh ledakan penggunaan Web, menyebabkan penggunaan yang luas di antara para pengguna Unix dan distribusi Linuxterkemuka. Ditulis menggunakan bahasa C portabel, Wget dapat diinstal secara mudah pada sistem mirip-Unix apa saja dan telah diportasi ke beberapa lingkungan, termasuk Mac OS X, Microsoft Windows, OpenVMS danAmigaOS.
Wget digunakan sebagai basis program-program GUI semisal Gwget untuk desktop GNOME. Dirilis di bawah Lisensi Publik Umum GNU v3, Wget adalah perangkat lunak bebas.
Cara kerja Web Archiving
1. Menemukan Informasi Website lewat crawling web
Bagaimana cara kerja web crawling Google ? Google memiliki software khusus untuk proses perayapan website/blog yang bisa diakses secara umum. Secara sederhana cara kerja web crawler Google menggunakan aplikasi yang disebut Googlebot.
Crawler Googlebot akan merayapi setiap halaman website/blog seperti ketika sobat belajar online membuka link lewat browser, kemudian mengikuti link setiap halaman web dan membawa data dari website/blog tersebut ke server Google.
Proses crawling web oleh googlebot dimulai dari crawling alamat utama web (domain), kemudian ke sitemap (peta situs) yang dibuat oleh pemilik website.
adanya sitemap website akan memudahkan google bot google dalam proses crawling web/blog tersebut.
Pada akhirnya program google bot akan menentukan situs mana yang ramai pengunjung dan selalu diupdate, berapa banyak konten yang ada, untuk menentukan posisinya.
Google tidak menerima bayaran dalam memposisikan website. Website/blog yang menurut mesin pencari google bagus maka akan berada di posisi pertama hasil pencarian Google. Mengapa Google tidak mau menerima bayaran dalam merayapi dan mengindeks website ? Hal ini tentu saja berkaitan dengan manfaat untuk pengguna yang mencari informasi lewat mesin pencari google, karena itu merupakan bisnis utama mesin pencari Google.
2. Mengorganisasi informasi hasil proses crawling web
Setelah proses crawling web, maka mesin pencari google kemudian memasukkannya dalam daftar indeks Google. Gambaran internet itu ibarat perpustakaan dengan miliaran buku, namun sayangnya tidak mempunyai katalog khusus dan pengarsipan utama. Dari situ, maka google mengumpulkan alamat dan isi halaman-halaman web yang dicrawl oleh google bot kemudian membuat indeks. Dengan begitu mesin pencari google tahu persis bagaimana Google melihat halaman yang bersangkutan.
Gambaran bagaimana google membuat indeks dari miliaran web yang ada di dunia, coba sobat belajar online buka indeks buku yang ada di bagian belakang. Indeks Google juga berisi tentang informasi kata-kata dan lokasi kata tersebut.
Dengan perkembangan web generasi kedua, ditambah dengan html 5 yang memberikan kesempatan kepada developer web untuk membuat web dinamis semakin banyak jenis konten yang harus diindeks google, dari teks, gambar dan video. Google pun juga menyempurnakan pengindekan konten-konten yang ada di internet untuk memahami apa yang diinginkan oleh pencari informasi lewat mesin pencari Google.
3. Pengaturan crawling pada pemilik website/blog
Walaupun Google dapat merayapi setiap halaman web, namun mesin pencari juga memberikan kebebasan kepada pemilik situs yang tidak ingin websitenya dirambah dan diindeks mesin pen31cari Google.
Untuk memilih dan memberitahu google bot agar tidak merayapi dan mengindeks halaman sensitif yang berbahaya apabila diakses oleh umum, maka sobat dapat menggunakan file robot.txt. Sobat dapat mengakses Google Webmasters Tool untuk mendapatkan file robots.txtdan mengisi bagian mana yang tidak boleh dirayapi dan diindeks dari website/blog sobat oleh Google crawl
NAMA KELOMPOK :
1. Andre Bagas Kurniawan
2. Aji Pangestu Dwi Saputra
3. Syahrul Setiyawan