Minggu, 27 Maret 2011

BAB III - REKAYASA WEB


NAMA       : ANNISA PARASAYU
NPM          : 55409220
KELAS      : 2IA13
TUGAS SOFTSKILL (PENGANTAR WEB SCIENCE) BAB III


3.   Rekayasa Web

Tujuan dari web of science adalah pelacakan pengembangan web, yang menentukan inovasi baik dan yang buruk, dan memberikan kontribusi bagi perkembangan menguntungkan. Pada bagian ini kita akan meninjau beberapa petunjuk pembangun web.

3.1 Web Sematik
Web adalah arsitektur berprinsip standar, bahasa dan formalisms yang menyediakan platform untuk aplikasi yang heterogen (banyak). Beberapa tuntutan di web mengharuskan membuat suatu  model yang ekspresif. Sering terjadi bahwa trade off antara expressivity dan kegunaan merupakan akibat dari penyalahgunaan umum dari formalisms tersebut. Untuk contoh, kita akan membahas contoh ini secara lebih rinci. Desain web semantik terkait formalisms dimaksudkan untuk memperpanjang menutupi data terkait, tidak seperti yang di asumsikan untuk meningkatkan pencarian atau mendapatkan kekuatan yang lebih besar dari teks beranotasi. Ini mungkin ssebagai klaim bahwa model lokal dan muncul semantik merupakan bagian penting dari cara kita memahami web. Jika demikian, akan ada trade off yang serius dengan interoperabilitas yaitu manfaat dari pencarian terdistribusi terstruktur dan berbagi data besar namun memerlukan semantik interoperable. Meninggalkan semantikunderdetermined berarti memaksa pengguna (manusia) melakukan pembuatan rasa, seperti misalnya dengan sistem P2P, jika mereka memaksakan semantik cenderung hanya menggunakan yang sangat sederhana dan tingkatannya rendah.Dalam asumsi tertentu bahwa aparat dari eb semantik dirancang untuk memperpanjang teknologi yang tersedia untuk melihat dokumen yang menyebabkan kekhawatiran tentang trade off antara mudah semantik muncul atau sulit logika yang salah.

3.1.1 Web Semantik
Web memulainya dengan upaya membuat orang untuk mengubah perilaku dan hal penting dari seorang manusia. Banyak orang membuat dokumen namun web pra-asumsi dokumen tersebut adalah milik pribadi dari penciptanya dan keputusan untuk mempublikasikan adalah miliknya. Teknologi memungkinkan orang untuk menerbitkan dokumen dengan sangat mudah. Tujuan web adalah mengubah perilaku yang radikal dan menyediakan teknologi untuk melakukan membuat dokumen untuk orang lain dengan menambahkan link yang dapat di akses. Pesatnya pertumbuhan web adalah cara dimana perubahan ini cepat diadopsi di semua sektor masyarakat barat dan mungkin mengaburkan radikalisme dari langkah ini. Web Semantik merupakan upaya memperluas potensi web dengan ekstensi analog perilaku manusia. Jadi visi web semantik adalah perluasan dari prinsip-prinsip web dari dokumen untuk data. Data yang akan dibagi akan efektif dan lebih luas.
Kekuasaan web akan jauh lebih besar jika data dapat didefinisikan dan terkait sehingga mesin bisa melampaui tampilan dan bukannya mengintegrasikan alasan tentang data berbagai aplikasi. Saat ini web baik teks, musik, gambar, video, dan jasa bisa dengan mudah digunakan pada skala web. Tujuan dari web semantik adalah memfasilitasi menggunakan data serta penemuan mereka, melalui Google dalam hal ini. Dalam konteks ini adalah layak disebut perbedaan antara pengambilan informasi dan pengambilan data. Tujuan pertama adalah untuk menghasilkan dokumen yang relevan dan query. Data dalam arti nyata lebih fundamental dari sebuah dokumen. Secara tradisional, di AI misalnya basis pengetahuan atau sistem pakar atau bahkan database  digunakan untuk mewakili informasi yang handal, dapat dipercaya, mungkin konsisten dan didasarkan pada strategi akusisi terpusat dan representasi protokol. Di web tentu saja asumsi ini tidak selalu berlaku. Sebagai contoh, kita harus memastikan bahwa inkonsistensi tidak menggelincirkan semua kesimpulan dari sumber-sumber kelompok pengetahuan tertentu yang saling tidak konsisten. Banyak aplikasi untuk web semantik belum mulai beroperasi. Strategi web semantik untuk menyediakan kerangka kerja umum untuk pembebasan data berdasarkan Deskripsi Resource Framework (RDF), yang mengintegrasikan berbagai aplikasi menggunakan XML sebagai pertukaran sintaks. Web semantik ini tidak hanya masalah menandai dokumen HTML di web, ini berusaha membawa bersama data di seluruh web sehingga membuat luas database melampaui komponennya, yang membuat aplikasi mungkin yang menyimpulkan seluruh data heterogen dan memungkinkan browsing dan kesimpulan di berbagai sumber data kronik.
Model data web semantik sangat berhubungan dengan dunia relasional data. Sebuah database relasional adalah tabel yang terdiri dari catatan yang merupakan baris.  Semacam ini database adalah jenis sumber pengetahuan sebagai dasar web semantik. Jadi web semantik adalah perpanjangan WWW dalam al yang menjadi tahap berikutnya menghubungkan data tidak dokumen. Hal ini dimaksudkan untuk berfungsi dalam konteks model relasional data. Menghubungkan adalah kunci untuk web semantik tersebut. RDF dan OWL memungkinkan pertukaran data dalam konteks dunia nyata. Visi asli dari web semantik telah dirumuskan dalam bentuk diagram berlapis. Pengembangan proses web semantik bergerak ke atas, dengan perhubungan RDF OWL di tengah.

3.1.2 URI : Nama atau alamat ? atau keduanya ?
Sebuah refrensi URI digunakan sebagai node dalam sebuah grafik RDF mengidentifikasi hubungan antara hal-hal diidentifikasi oleh node terhubung. Secara umum menggunakan URI untuk mengidentifikasi sumber daya merupakan faktor penting dalam pengembangan web. URI memliki lingkup global dan diinterpretasikan secara konsisten di seluruh konteks. Hubungan diidentifikasi dengan URI, link sumber daya juga diidentifikasi oleh URI. Untuk mendapatkan mesin pembacaan yang dimaksudkan web semantik aman, maka mesin harus bisa mendapatkan hubungan dan harus dapat deference URI yang mengidentifikasi relasi dan mengambil sebuah reprentasi dari sumber daya diidentifikasi. Biasanya nama dan alamat berbeda. Nama merujuk langsung ke sesuatu. Alamat yang mengatakan dimana anda. Dalam komputer tradisional pengidentifikasian muncul dalam bahasa pemrograman. Alamat adalah lokasi di memori. Nama yang dipakukan ke objek, alamat ke tempat-tempat, dan karena itu objek harus memiliki satu nama selamanya, sementara alamatnya bisa berubah.
Ada asumsi bahwa identifier akan menjadi salah satu dari dua macam hal. URI bisa mengidentifikasi langsung atau melalui lokasi namun ini bukan konseptual dalam perbedaan. Perbedaan nama dan alamat adalah sebuah metafora spasial yang bekerja dengan baik dalam lingkungan komputasi standar. Jika sistem hirarki penamaan sudah diatur dan dikelola sebagai otoritas maka nama tersebut akan berfungsi hanya selama sebagai otoritas itu sendiri tetap ada. Lokasi literal adalah titik di ruang 3-D. Lokasi literal adalah titik di Ruang 3-D, dan dalam sistem komputer jaringan kita tidak harus mendapatkan juga tetap pada apa yang kita harus memanggil nama, atau alamat, atau fisik lokasi sel memori yang akan menyimpannya. Sebuah memori komputer alamat sering alamat dalam ruang memori virtual yang dialokasikan suatu benda, yang diterjemahkan digunakan oleh perangkat keras ke dalam fisik alamat memori. Alamat IP yang tidak terikat pada komputer tertentu, namun secara implisit berisi referensi informasi routing, sehingga komputer sesuai dengan alamat IP yang diberikan tidak dapat dipindahkan jauh di struktur routing. Nama domain bisa digunakan untuk merujuk ke komputer atau apa komputer menyajikan ketika kita ingin berhak untuk memindahkan hal yang berhubungan dengan identifikasi dari satu bagian dari Internet lain. Jadi Domain Name System (DNS), yang independen sistem routing, tidak membatasi alamat IP yang dapat diberikan ke komputer dari sebuah nama domain yang diberikan. DNS memang terlihat seperti sistem nama, sedangkan alamat IP lakukan tampaknya berfungsi seperti alamat.

3.1.3 Ontologi
Pada tradisional konsepsi, ontologi berisi spesifikasi dari konsep yang diperlukan untuk memahami sebuah domain, dan kosa kata yang diperlukan untuk masuk ke dalam wacana tentang hal itu, dan bagaimana konsep-konsep dan kosa kata saling berhubungan, bagaimana kelas dan contoh dan sifat mereka didefinisikan, dijelaskan dan disebut. Sebuah ontologi dapat formal atau informal. Keuntungan dari formalitas adalah bahwa hal itu membuat ontologi mesin-dibaca, dan karena itu memungkinkan mesin untuk melakukan lebih dalam penalaran atas sumber daya web. Kerugiannya adalah bahwa seperti formal konstruksi yang dianggap sulit untuk dibuat. Data dapat dipetakan ke sebuah ontologi, menggunakannya sebagai lingua francauntuk memfasilitasi berbagi. Ontologi karena itu dimaksudkan untuk menaruh semacam urutan ke informasi dalam format heterogen dan representasi, sehingga berkontribusi pada ideal melihat Web sebagai pengetahuan tunggal
sumber. Sejauh itu, ontologi adalah mirip dengan skema database, kecuali bahwa itu akan ditulis dengan relatif kaya dan ekspresif bahasa, informasi akan kurang terstruktur, dan menentukan teori domain, tidak hanya struktur sebuah wadah data. Jadi ontologi dipandang sebagai tambahan berarti yang penting untuk berbagi data,dan Tujuan utama memperlakukan Web sebagai satu-satunya sumber informasi, tetapi mereka juga memiliki penentangnya.
Sulit untuk menentukan formalisme yang akan menangkap semua pengetahuan, tipe sewenang-wenang, dalam sebuah domain tertentu. Ontologi, tentu saja, melayani tujuan yang berbeda, dan bisa lebih dalam (mengungkapkan ilmiah konsensus dalam disiplin, dan sejalan padat karya untuk membangun) atau lebih dangkal (dengan istilah yang relatif sedikit yang mengatur besar jumlah data). Memang, ada banyak jenis wacana melampaui ontologi tentu saja, dan banyak logika mengekspresikan mereka, untuk contoh sebab akibat, logika temporal dan probabilistik. Causal logika dikembangkan dari logika tindakan di AI, dan dimaksudkan untuk menangkap aspek penting dari pemahaman akal sehat mekanisme dan sistem fisik. Temporal logika formalises yang aturan untuk penalaran dengan proposisi diindeks untuk waktu tertentu, dalam konteks dari Web yang berkembang pesat, prevalensi waktu-stamping online dan risiko dari informasi yang digunakan yaitu dari tanggal menjamin relevansi itu. Tentu saja pendekatan logika temporal telah disarankan untuk manajemen versi ontologi. Logika Probabilistik adalah kalkuli yang memanipulasi konjungsi probabilitas peristiwa individu atau negara.

3.1.4 Folksonomi dan struktur sosial muncul
Penggunaan ontologi menambah struktur data. Namun, struktur dapat muncul secara organik dari manajemen individu mereka sendiri persyaratan informasi, selama ada orang cukup.  Ada semakin banyak aplikasi didorong oleh desentralisasi komunitas dari-bawah ke atas, yang pergi di bawah nama tidak jelas tapi populerperangkat lunak sosial. Sebagai contoh, wiki adalah sebuah situs web yang memungkinkan pengguna dan pembaca untuk menambah dan mengedit konten,yang memungkinkan komunikasi, argumen dan komentar, Wikipedia (http://en.wikipedia.org / wiki / Halaman Utama untuk versi bahasa Inggris), sebuah ensiklopedi online yang ditulis oleh komunitas pengguna, telah menjadi sangat handal meskipun kekhawatiran yang sedang berlangsung tentang kepercayaan entriyang
dan ketakutan dari vandalisme. Ontologi dapat dilengkapi dengan folksonomi, yang timbul ketika sejumlah besar orang yang tertarik dalam beberapa informasi, dan didorong untuk menggambarkan itu - atau tag itu(mereka mungkin tag egois, untuk mengatur pengambilan sendiri isi, atau altruistically untuk membantu navigasi orang lain '). Daripada bentuk terpusat klasifikasi, pengguna dapat menetapkan kata kunci untuk dokumen atau informasi lain sumber. Dan ketika tag tersebut dikumpulkan, hasilnya sangat menarik. Contoh aplikasi yang telah berhasil memanfaatkan dan mengeksploitasi penandaan adalah Flickr (http://www.flickr.com/ - fotografi publikasi dan situs berbagi) dan del.icio.us (http://del.icio.us/ - sebuah situs untuk penanda berbagi). 

3.1.5 Ontologi v folksonomi ?
Dikatakan - meskipun saat ini argumen yang hanya penyaringan perlahan ke dalam literatur akademik - yang folksonomi lebih disukai untuk penggunaan dikendalikan, ontologi terpusat. Annotating Web halaman menggunakan kosakata terkontrol akan meningkatkan kemungkinanseseorang balik halaman di pencarian Web yang 'benar', namun di sisi lain
basis pengguna besar heterogen dari Web tidak mungkin mengandung banyak orang (atau organisasi) bersedia untuk mengadopsi atau mempertahankankompleks ontologi. Menggunakan sebuah ontologi melibatkan membeli ke cara tertentu ukiran Facebook dunia, dan menciptakan suatu ontologi memerlukan investasi ke metodologi dan bahasa, sedangkan penandaan informal dan cepat. Tag seseorang mungkin tidak membantu atau tidak akurat, dan tidak diragukan lagi ada suatu seni untuk penandaan berhasil, tapi satu mendapatkan hasil (dan tanggapan) sebagai salah satu belajar; ontologi, di sisi lain, memerlukan sesuatu dari suatu investasi waktu dan sumber daya, dengan masukan yang datang lebih lambat.
Tagging tentu merupakan perkembangan yang menarik dan sebuah fenomena menarik,
tetapi kita harus waspada dengan mengasumsikan bahwa tag dan ontologi bersaing untuk ruang yang sama. Tagging memberikan potensi sumber metadata, dengan semua kekurangan informalitas dan semua keuntungan hambatan rendah untuk masuk dan basis pengguna yang tinggi. Tapi tag hanya bagian dari cerita tentang sumber daya Web. Ontologi dan folksonomi telah karikatur sebagai berlawanan. Dalam kenyataannya, mereka adalah dua hal yang terpisah, meskipun beberapa fungsionalitas ontologies uncontroversially dapat diambil alih oleh folksonomi dalam berbagai konteks. Ada dua terpisah (kelompok) poin untuk
membuat. Yang pertama harus dilakukan dengan seharusnya trade-off antara ontologi
dan folksonomi, yang kedua berkaitan dengan persepsi tentang ontologi. Ontologi dan folksonomi ada di sana untuk melakukan hal yang berbeda, dan menangani kasus-kasus yang berbeda. Folksonomi adalah varian pada keywordsearch yang tema, dan merupakan upaya yang muncul di informasi menarik pengambilan - bagaimana saya bisa mengambil dokumen (foto, katakanlah) yang relevan dengan konsep di mana saya tertarik? Ontologi merupakan upaya untuk mengatur bagian dari dunia data, dan untuk memungkinkan pemetaan dan interaksi antara data dalam format yang berbeda atau lokasi, atau yang telah dikumpulkan oleh organisasi yang berbeda dengan asumsi yang berbeda.
Ada yang berpendapat bahwa ontologi berguna bisa menggabungkan material dari jaringan sosial dan perangkat lunak, sebagai informasi yang sedang dimodelkan memiliki dimensi sosia. Hal ini mungkin menawarkan satu set baru kesempatan - untuk contoh adalah perangkat lunak blogging yang secara otomatis membuat metadata bisa menjadi cara untuk memanfaatkan bottom up software sosial pendekatan . Persepsi ontologies tergantung pada pemahaman akan perbedaan ini. Perhatikan, misalnya, biaya ontologi. Dalam pertama tempat, akan ada daerah di mana biaya, akan mereka pernah begitu besar, akan mudah untuk menutup. Di daerah baik terstruktur seperti aplikasi ilmiah, upaya untuk menciptakan spesifikasi kanonik kosakata akan sering senilai keuntungan, dan mungkin penting, memang, Semantic Web teknik yang mendapatkan tanah dalam konteks ilmiah dengan data yang kaya di mana terdapat kebutuhan untuk pengolahan data dan kemauan untuk mencapai
konsensus tentang istilah. Dalam aplikasi komersial tertentu, potensi keuntungan dari penggunaan spesifikasi baik terstruktur dan terkoordinasi kosakata akan lebih besar daripada biaya tenggelam untuk mengembangkan ataumenerapkan ontologi, dan biaya marjinal pemeliharaan. Misalnya, memfasilitasi pencocokan istilah dalam persediaan pengecer dengan orang-orang dari agen pembelian akan menguntungkan kedua belah pihak. Dan biaya ontologies berkembang mungkin berkurang pengguna dasar dari ontologi meningkat. Jika kita menganggap bahwa biaya pembangunan ontologi tersebar di komunitas pengguna, jumlah ontologi insinyur yang dibutuhkan meningkat seiring dengan log ukuran komunitas pengguna, dan jumlah waktu meningkat bangunan sebagai kuadrat dari jumlah insinyur - asumsi yang sederhana saja tapi yang wajar untuk dasar model - upaya yang terlibat per pengguna dalam ontologi bangunan besar masyarakat menjadi sangat kecil sangat cepat.
Kedua, ada persepsi ontologies sebagai top-down dan agak otoriter konstruksi, tidak terkait, atau hanya tenuously istimewa, untuk orang-orang yang sebenarnya praktek, dengan berbagai tugas potensial di domain, atau dengan operasi konteks . Dalam beberapa hal, ini persepsi mungkin berhubungan dengan gagasan pengembangan tunggal Ontologi konsisten Segalanya, seperti misalnya dengan CYC [183]. Tujuan dari SW harus dilihat dalam konteks rutin sifat jenis perjanjian. SW ini dimaksudkan untuk menciptakan dan mengelola standar untuk membuka dan membuat perjanjian ini rutin parsial dalam format data; standar tersebut harus memungkinkan untuk eksploitasi data relasional pada skala global, dengan bersamaan leverage bahwa skala yang membeli.

3.1.6 Metadata
Isu-isu yang berkaitan dengan semantik atau penafsiran Web melampaui Semantic Web. Sebagai contoh, metadata dapat digunakan untuk menggambarkan atau membubuhi keterangan sumber daya dalam rangka untukmembuatnya (lebih) dimengerti untuk pengguna. Pengguna ini mungkin menjadi manusia, dalam hal metadata dapat menjadi tidak terstruktur, atau mesin, dalam hal metadata harus mesin dibaca. Biasanya, metadata adalah deskriptif, termasuk misalnya elemen dasar sebagai nama penulis, judul atau abstrak dokumen, dan
administrasi informasi seperti jenis file, hak akses, menyatakan HKI, tanggal, nomor versi dan sebagainya. Item multimedia dapat dijelaskan dengan deskripsi tekstual konten, atau kata-kata kunci untuk membantu berbasis teks pencarian. Secara umum, metadata yang penting untuk pencarian yang efektif (mereka membiarkan sumber daya yang ditemukan oleh berbagai kriteria, dan sangat membantu dalam menambah struktur dicari sumber daya non-teks), pengorganisasian sumber daya (misalnya, memungkinkan portal untuk berkumpul komposit laman web secara otomatis dari sumber daya yang sesuai beranotasi beberapa), pengarsipan bimbingan, dan informasi mengidentifikasi (seperti nomor referensi yang unik, yang membantu memecahkan masalah satu ketika Sumber daya Web adalah 'sama' seperti yang lain). Mungkin penggunaan paling penting untuk metadata adalah untuk mempromosikan interoperabilitas, memungkinkankombinasi sumber daya heterogen di seluruh platform tanpa kehilangan konten. Skema Metadata memfasilitasi pembuatan metadata dalam standar format, untuk memaksimalkan interoperabilitas, dan ada sejumlah
seperti skema, termasuk Dublin Core (http://dublincore.org/) dan Teks Encoding Initiative (TEI - http://www.tei-c.org/). 
Kedua, bagaimana metadescription mempengaruhi inferensi? Apakah itu membuat lebih sulit? Apa yang dapat dilakukan tentang annotating isi warisan? Banyak yang telah
tertulis tentang semua pertanyaan ini, tetapi itu sangat berharga sebuah penyimpangan kecil untuk melihat beberapa pendekatan yang pertama. Sehubungan dengan metadata yang diperlukan, tentu saja banyak tergantung pada tujuan untuk sumber daya yang dijelaskan. Untuk berbagai tujuan - misalnya, foto digital berbagi - metadata bisa menjaga diri mereka sendiri, sebagai keberhasilan situs seperti pertunjukan Flickr. Lebih umum, menarik
kemungkinan untuk metadata termasuk waktu-stamping, asalnya, ketidakpastian dan perizinan pembatasan.
Faktor kunci dalam menilai kepercayaan dokumen adalah keandalan atau klaim disajikan di dalamnya; metadata tentang asalnya tidak diragukan lagi akan membantu dalam penilaian seperti ini, tetapi perlu belum tentu mengatasinya. Akhirnya, metadata yang berhubungan dengan pembatasan lisensi telah berkembang dengan gerakan untuk, 'creative commons' perlindungan fleksibel berdasarkan hak cipta yang lebih tepat untuk konteks Web dan weblike.

3.2 Referensi dan identitas
Semantic Web mengandalkan konvensi penamaan dengan URI, dan Tentu saja setiap bagian dari sistem pelabelan Web yang bergantung pada beberapa konvensi atau lainnya. Masalah dengan label di Web adalah bahwa sistem apapun dasarnya desentralisasi dan tidak diawasi, sesuai dengan Web yang mengatur prinsip-prinsip, tetapi ini tidak sentralisasi memungkinkan skema yang berbeda dan konvensi, dan memang kecerobohan, untuk berkembang, yang pada gilirannya membuka kemungkinan kegagalan referensi unik.

3.2.1 Referensi: Kapan dua benda yang sama?
Desentralisasi adalah masalah dari sudut pandang logis, meskipun besar keuntungan dari yang pencipta konten. Kegagalan referensi unik relatif sepele bagi pengguna manusia untuk menguraikan, tetapi tentu saja sangat sulit bagi mesin untuk bekerja keluar. Dan
jika kita berharap untuk mengekstrak informasi yang berguna dari repositori yang sangat besar informasi, dimana kerajinan tangan solusi dan referensi memeriksa oleh mata tidak layak, pengolahan mesin tidak bisa dihindari. Referensi masalah yang sangat mungkin terjadi ketika sumber-sumber informasi digabung, masalah di mana-mana tapi yang serius dalam konteks dari Web Semantic. Dan desentralisasi Web menghalangi membuat asumsi nama yang unik, dalam cara. Di sisi lain, URI menyediakan Web dengan sumber daya untuk menghindari setidaknya beberapa masalah grounding tradisional, ketika dapat diatasi bahwa dua istilah ini menunjuk ke URI yang sama.
Sebuah metode heuristik untuk menyelesaikan bentrokan tersebut, di dunia nyata, adalah untuk membuat penilaian cerdas berdasarkan informasi jaminan, dan ini telah menirukan online dengan perhitungan komunitas praktek nama, berdasarkan jaringan hubungan sekitarnya masing-masing instansi yang disengketakan. Secara umum, manajemen referensi, dan resolusi referensi masalah, akan selalu sulit mengingat bahwa theWeb mencakup sejumlah besar mengumpulkan informasi untuk sejumlah alasan yang berbeda dan untuk memecahkan berbagai tugas, makna dan interpretasi sering shift, dan ada mungkin pada kesempatan menjadi kesepakatan sedikit tentang referen istilah. Sebuah isu penting untuk Web Sains justru bagaimana memahami referensi dan representasi, dan menentukan sistem yang manajemen dan formalisms akan memungkinkan pemahaman yang lebih besar dan pelacakan dari apa yang Web ini dimaksudkan untuk mengatakan tentang yang objek.

3.2.2 Kapan dua halaman yang sama?
Alternatif mengambil masalah referensi adalah bahwa penentuan ketika dua halaman web adalah halaman yang sama. Hal ini tentu saja akan menjadi sepele dalam banyak kasus, tetapi sering kali "utama " teks yang disalin dari satu halaman ke lain, tetapi dikelilingi oleh iklan yang berbeda, logo, header dan footer. Banyak metrik yang tersedia yang dimaksudkan untuk menentukan kuantitatif tingkat hubungan antara dua halaman. Kesamaan penilaian bisa sembarangan dan pragmatis, tergantung pada konteks (misalnya memutuskan plagiat atau kasus pelanggaran hak cipta), tetapi teknik dari teori informasi yang ada untuk menghasilkan set nomor tujuan untuk memberi makan ke dalam proses penilaian - misalnya, Levenshtein edit jarak, dan varian algoritma, diberikan dengan jumlah minimum operasi dari beberapa basis yang diperlukan untuk bisa mengubah satu string menjadi lain.
Dasar untuk membuat penilaian kemiripan tidak perlu hanya menjadi konten pada halaman, tetapi juga bisa menjadi struktur hyperlink dalam halaman yang tertanam. Informasi yang mengharuskan pengguna tidak perlu berasal dari satu halaman, tapi malah bisa dipetik dari cluster dokumen seputar topik dasar, dan hubungan yang struktur ada bisa sangat penting. Dan lebih jauh kemungkinan cara kesamaan pemahaman antara pola penggunaan tertentu halaman - dua halaman yang sering diakses pada titik-titik serupa di Web sesi surfing? Konten berbasis kesamaan dapat didekati dengan mencocokkan kata-kata atau
subsequences dari dua halaman. Teknik yang relatif sederhana digunakan untuk menentukan kemiripan antara dua halaman (rasio antara ukuran persimpangan dari subsequences dan ukuran serikat mereka), dan penahanan satu dengan yang lain (rasio antara persimpangan dan ukuran dari himpunan yang terkandung) [48]. Linkbased metrik berasal dari bibliometrics dan analisis kutipan, dan fokus pada keluar link dan link dalam dua halaman memiliki kesamaan, relatif ke ruang umum link di cluster topik. Penggunaan berbasis metrik
memanfaatkan informasi yang dikumpulkan dari server log dan sumber-sumber lain tentang
ketika halaman yang dikunjungi, pada asumsi bahwa kunjungan dari yang sama pengguna dalam sesi yang sama di situs yang sama kemungkinan akan konseptual terkait, dan semakin besar kesamaan antara waktu akses pengguna untuk halaman web, semakin besar kemungkinan halaman tersebut yang entah bagaimana terkait secara konseptual.

3.3 Web rekayasa: arah Baru
Pembangunan Web adalah campuran dari standar-setting, tidak terstruktur, desentralisasi kegiatan dan inovasi, dan rekayasa yang disengaja. Pada bagian ini kita akan fokus pada yang terakhir, dan review menonjol teknik isu dan keharusan terbuka. Pertumbuhan Web jelas merupakan sesuatu yg diinginkan kunci. Penyimpanan jumlah semakin besar informasi, dalam konteks perhitungan pernah-cepat, akan sangat vital untuk
masa mendatang. Tanpa lebih cerdas pengambilan penyimpanan dan cepat untuk media memori-lapar seperti video, maka pada akhirnya akan tumbuh terlalu theWeb besar untuk teknologi sendiri. Sebagai contoh, PageRank membutuhkan merangkak dan caching dari bagian signifikan dari theWeb; keberhasilan Google tergantung pada kemampuan untuk menjaga cache penurut sementara juga ukuran yang signifikan. Greater permintaan untuk layanan personalisasi dan pencari juga akan memberikan tekanan pada sistem. Memperluas cakupan pencarian untuk mencakup item seperti multimedia, jasa atau komponen ontologi, juga akan memerlukan mengejar program penelitian akademik, interface efektif dan model bisnis yang masuk akal sebelum layanan komersial mulai beroperasi. Yang ada dan mengembangkan pendekatan untuk memanfaatkan Web harus diperluas ke lingkungan Web yang baru sebagaimana yang diciptakan (seperti P2P jaringan).

3.3.1 Web layanan
Layanan area utama di mana kami rekayasa model kebutuhan Web untuk terlibat dan jasa extended.Web didistribusikan potongan kode ditulis untuk memecahkan tugas-tugas tertentu, yang dapat berkomunikasi dengan layanan lain melalui pesan. Tugas yang berskala lebih luas dapat dianalisis dan secara rekursif dipecah menjadi sub-tugas yang dengan peta keberuntungan akan ke spesifik tugas-tugas yang dapat diatasi oleh layanan. Jika itu terjadi, dan jika layanan ditempatkan dalam konteks Web, yang berarti bahwa pengguna dapat memanggil layanan yang bersama-sama dan kooperatif memenuhi kebutuhan mereka. Software abstrak jauh dari hardware dan memungkinkan kita untuk menentukan komputasi mesin dalam hal fungsi logis, yang memfasilitasi spesifikasi masalah dan solusi dengan cara yang relatif intuitif. The evolusi dari Web untuk memasukkan penyediaan dan difusi layanan membuka prospek abstraksi baru: pertanyaan sekarang adalah bagaimana kita bisa melakukan abstraksi yang sama jauh dari perangkat lunak. Apa metode menggambarkan layanan akan memungkinkan kita untuk berhenti khawatir tentang bagaimana mereka akan dilakukan?
Sejumlah metode proses menentukan telah berkembang selama beberapa tahun terakhir dan diterapkan pada domain layanan Web. Misalnya, WS-Net adalah bahasa deskripsi arsitektural berdasarkan teori Petri jaring berwarna (yaitu perluasan dari teori Petri sederhana bersih dengan terhormat, token diidentifikasi), yang menggambarkan komponen layanan Web dalam hal jasa yang memberikan untuk komponen lain, layanan yang diperlukan untuk fungsi, dan operasi internal. Hasil akhirnya adalah model yang mencakup baik global dan aspek-aspek lokal dari sistem pelayanan, memfasilitasi integrasi layanan Web untuk mencapai tujuan-tujuan baru, sementara juga menyediakan sebuah formalisme untuk evaluasi integrasi. Proses aljabar (lihat Bagian 4.2.5) juga telah diterapkan untuk layanan. Sekali lagi, seperti dengan pendekatan Petri net, penggunaan formal aljabar memungkinkan baik desain dan evaluasi untuk mengambil tempat (atau memang salah satu atau yang lain, tergantung pada apa metode alternatif yang tersedia untuk menghasilkan atau survei kode). Sebagai contoh, [98] menggambarkan pemetaan antara aljabar proses ekspresif dan BPEL4WS (yang distandarisasi Berbasis XML notasi untuk menggambarkan proses bisnis executable), yang memungkinkan baik pembentukan jasa di BPEL4WS diikuti oleh mereka evaluasi dan verifikasi menggunakan aljabar proses, atau generasi kode BPEL4WS otomatis dari penggunaan aljabar untuk menentukan layanan yang diinginkan. Secara umum, spesifikasi aljabar pelayanan pada tingkat abstrak dan penalaran tentang mereka telah menjadi
utama bidang penelitian pada layanan.
BPEL4WS adalah versi panjang dari Eksekusi Proses Bisnis Bahasa BPEL, yang menjadi cara yang semakin penting untuk Sun Web layanan dengan proses bisnis. BPEL ada batasnya, tapi memungkinkan penciptaan layanan komposit dari layanan yang telah ada. The
Tahap selanjutnya adalah menyesuaikan pendekatan ini untuk lingkungan P2P, dan
kendaraan saat ini dalam pengembangan untuk itu adalah CDL, alias WS-CDL, alias
Koreografi (Web Services Choreography Description Language), sebuah bahasa berbasis XML untuk mendefinisikan umum dan saling melengkapi diamati perilaku dalam kolaborasi P2P. Tujuannya adalah agar interoperable P2P kolaborasi dapat disusun dengan menggunakan Koreografi tanpa memperhatikan spesifik seperti platform dasar yang digunakan; bukan fokus pada tujuan umum dari kolaborator. Sedangkan BPEL memungkinkan ada pelayanan yang akan digabungkan bersama-sama, Koreografi pergeseran fokus ke deskripsi global kolaborasi, informasi pertukaran, pemesanan tindakan dan sebagainya, untuk mencapai tujuan yang disepakati.

3.3.2 Distributed pendekatan: komputasi Pervasif, P2P dan grid
Ada banyak lingkungan hardware yang akan Web diharapkan untuk menembus, namun di mana teknik asumsi yang berlaku untuk skala besar, lebih-atau-kurang tetap mesin komputasi khusus tidak harus berlaku. Contoh nyata termasuk komputasi mobile, di mana-mana (atau meresap) komputasi mana interoperabilitas menjadi masalah, P2P sistem dan komputasi grid. Komputasi Mobile membuat segala macam tuntutan rekayasa, daya komputasi yang tersedia tidak luas dan pengguna harus diasumsikan terus-menerus bergerak dengan variabel bandwidth dan akses. Selain itu, menyajikan informasi kepada pengguna
memerlukan paradigma yang berbeda dari PC, misalnya untuk memungkinkan pengguna untuk menerima informasi yang cukup pada layar kecil untuk membuat browsing menarik. Akses mobile ke Web dapat menjadi mode dominan di banyak negara, terutama yang berkembang, terima kasih untuk harga yang relatif rendah dan keandalan koneksi nirkabel dan baterai kekuasaan. Penelitian di bidang ini penting untuk adil distribusi sumber daya web.
Mana-mana komputasi, P2P dan berbagi banyak komputasi grid serius penelitian masalah, terutama koordinasi perilaku dalam jumlah besar terdistribusi skala sistem. Mana-mana komputasi membayangkan kecil, relatif perangkat komputasi bertenaga rendah tertanam di lingkungan pervasively berinteraksi dengan orang. Ada berbagai kemungkinan imajinatif, seperti benang cerdas yang dapat ditenun menjadi pakaian. Tapi tanpa menebak-nebak kecenderungan jelaslah bahwa perangkat yang lebih kecil akan perlu koneksi nirkabel ke jaringan arsitektur yang memungkinkan otomatis ad hoc konfigurasi, dan ada sejumlah kesulitan rekayasa yang terkait dengan masalah. Sebagai contoh, penemuan layanan dalam paradigma meresap harus mengambil tempat tanpa manusia dalam loop. Layanan harus mampu mengiklankan diri untuk memfasilitasi penemuan. Standar layanan penerbitan
akan diperlukan untuk menjamin keamanan dan privasi, kepercayaan dari layanan keandalan, kompensasi untuk penyedia layanan, dan tepat bagaimana layanan akan terdiri dengan layanan dipanggil lain untuk mencapai beberapa tujuan atau memecahkan masalah yang dihadapi.

3.3.3 Personalisasi
Hal ini sering mengklaim bahwa personalisasi itu penting untuk meningkatkan
nilai dari suatu jaringan, dan meningkatkan konsumen lock-in. Mengizinkan pengguna untuk menyesuaikan alat-alat mereka dan berarti ruang kerja yang Web tetap lebih dari commoditised satu ukuran cocok untuk semua daerah dan  malah menjadi sebuah ruang di mana orang dapat mengukir sendiri niche. Selain itu, mereka juga harus dapat menerima layanan yang lebih baik, disesuaikan dengan keadaan khusus mereka sendiri dan preferensi,
untuk sama atau hanya sedikit lebih biaya.
sistem industri tersebut adalah  jelas aplikasi teknologi. Untuk mendapatkan personalisasi yang efektif, harus ada pemanfaatan yang terintegrasi dari  informasi dari sejumlah sumber, termasuk data tentang pengguna (clickstream data, download pola, profil online), sumber daya yang  dikirim (konten situs, struktur situs) dan pengetahuan domain, bersama-sama dengan data teknis pertambangan yang cukup untuk menciptakan pandangan holistik dari sumber daya yang meliputi sebanyak mungkin informasi yang dibutuhkan pengguna, dalam representasi yang akan masuk akal bagi mereka, sementara tidak termasuk informasi  mereka tidak akan mau, dan yang bisa memperhitungkan dinamika  sifat model pengguna. Semua itu, sambil tetap mempertahankan hubungan antara invariants dari pengalaman Web dan konteks tertentu penggunaan seseorang yang memberdayakan dia untuk klaim sudut dari dunia maya dan mulai menggunakannya sebagai perpanjangan dari ruang pribadi. Mengingat bahwa, di Web, informasi yang relevan mungkin sangat didistribusikan dan dinamis, personalisasi diharapkan dapat menjadi salah satu besar keuntungan dari Web Semantic, yang unggul struktur yang memungkinkan penalaran atas sumber data dan didistribusikan. Ada banyak program teknik berjalan menyelidiki heuristik untuk personalisasi dari informasi yang tersedia, termasuk
menggunakan mesin belajar, ontologi, jaringan P2P, dan menghasilkan representasi untuk memfasilitasi pengumpulan informasi pengguna, serta menyediakan lingkungan yang memfasilitasi personalisasi dan link asosiatif didasarkan pada user-bukan dari penulis-preferensi.
Lain benang penting dari personalisasi rekayasa adalah pengembangan alat untuk memungkinkan neophytes relatif untuk menciptakan atau meningkatkan pengetahuan teknik artefak kompleks, seperti ontologi atau pembungkus.

3.3.4 Multimedia
Web adalah lingkungan multimedia, yang membuat untuk kompleks semantik - ini tentu saja tidak masalah yang unik ke Web. Metareasoning dan epistemologi sering menganggap media tekstual, bahkan meskipun sebenarnya banyak penalaran dalam bentuk analog. Misalnya ahli sering menggunakan diagram untuk mengekspresikan pengetahuan mereka. Ada memiliki upaya telah menghasilkan taksonomi generatif 'bahasa-seperti'
representasi visual, tetapi ini tidak tampaknya telah menarik aplikasi.
Beberapa peneliti telah mencoba untuk menemukan prinsip-prinsip yang mungkin mendasari penalaran diagramatik. Ada juga telah aplikasi penting untuk decoding representasi visual untuk gangguan penglihatan dan koleksi gambar visualisasi terhadap ontologi domain. Pada akhirnya, integrasi multimodal representasi adegan yang sama atau badan adalah masalah yang sangat keras. Secara umum, tidak diketahui bagaimana mengambil semantik dari representasi non-tekstual andal; fenomena ini dikenal sebagai semantik kesenjangan. Namun demikian, generasi Web berikutnya tidak harus didasarkan pada palsu asumsi bahwa teks adalah pencarian dominan dan kata kunci berbasis akan mencukupi untuk semua tujuan yang wajar. Memang, isu-isu berkaitan dengan navigasi melalui repositori multimedia seperti video
arsip dan melalui theWeb tidak berhubungan: keduanya kebutuhan informasi link untuk mendukung browsing, dan keduanya perlu untuk mendukung mesin manual link traversal. Namun, pendekatan kata kunci mungkin goyah dalam multimedia konteks karena kekayaan yang lebih besar dari banyak non-tekstual Media.
Pendekatan gambar Google pencarian bergantung pada sekitarnya teks untuk gambar, misalnya, yang memungkinkan pencarian yang relatif cepat, dan sekali lagi pada umumnya pengguna seringkali mampu membuat pilihan final memilah-milah rekomendasi yang disampaikan (gambar kata kunci berbasis pencarian cenderung menghasilkan banyak hits lebih sedikit, yang mungkin berarti mereka banyak kemungkinan hilang masuk akal). Kehadiran manusia dalam loop sulit untuk menghindari saat ini: intervensi manusia dalam proses mengintegrasikan bahasa visi dengan modalitas lain yang biasanya diperlukan, meskipun ada sejumlah teknik yang menarik untuk menggunakan struktur yang dihasilkan dari teks yang terkait dengan koleksi gambar untuk bantuan pencarian dalam konteks terbatas.Tetapi selalu mungkin untuk mengeluarkan lebih banyak sumber daya pada analisis suatu gambar (katakanlah) untuk menghasilkan pertandingan yang lebih baik untuk pencarian kata kunci, jika kecepatan tidak merupakan faktor utama. Dalam analisis fitur tersebut, sebuah isu yang penting adalah kepentingan relatif dari fitur tingkat rendah seperti 'dominan warna', dan tingkat tinggi, fitur abstrak atau konsep, seperti sebagai 'Madonna' atau 'masih hidup'. Cari pada fitur-fitur tingkat rendah mungkin cepat dan lebih akurat, namun pengguna cenderung ingin pencarian cukup abstrak istilah.
Sebagai hybrid menarik telah disarankan bahwa kesenjangan semantik bisa diisi dengan ontologi dari visual yang mencakup istilah tingkat rendah dan memberikan semacam pemetaan konsep-konsep abstrak ke tingkat yang lebih tinggi disajikan dalam query dan metadata. Infrastruktur tersebut telah telah dibuat, dengan menggunakan (i) ontologi descriptor visual berdasarkan RDF representasi dari MPEG-7 deskripsi visual, (ii) struktur multimedia ontologi berdasarkan skema deskripsi-7 multimedia MPEG dan (iii) pemodelan ontologi inti primitif pada akar konsep hierarki yang dimaksudkan untuk bertindak sebagai jembatan antara ontologi, semua ditambah dengan ontologi domain [260]. A penting yang lebih jauh terbuka adalah isu interoperabilitas teknologi Semantic Web dengan non-RDF berbasis metadata seperti metadata EXIF di file JPEG atau tag gambar informal dibuat di Flickr. Pekerjaan lebih lanjut diperlukan pada hubungan antara kebutuhan manusia dan sistem temu kembali citra kemungkinan otomatisasi [156, 206], termasuk pemahaman yang lebih dalam dari kemampuan relatif folksonomi dan ontologi. Tentu saja, media di sini tergambar adalah foto dan video; terbuka pertanyaan penelitian tetap tidak hanya tentang seberapa jauh orang bisa masuk pencarian dengan pendekatan semacam, tetapi juga tentang berapa banyak media akan menyerah sedemikian pendekatan dengan cara yang terintegrasikan.

3.3.5 pemrosesan bahasa Alam
Akhirnya, ada masalah substansial yang berkaitan dengan pengolahan bahasa alami
(NLP), analisis komputasi data tidak terstruktur dalam teks-teks untuk menghasilkan pemahaman mesin (pada tingkat tertentu) dari teks yang. NLP berhubungan dengan Web dalam beberapa cara. Di tempat pertama, alam bahasa adalah domain yang sangat jarang, dalam kalimat yang paling diucapkan atau tertulis hanya terjadi sekali atau sangat jarang, dan skala raksasa Web menyediakan sebuah korpus menarik untuk penalaran NLP. Sebuah angka perkiraan baru-baru ini untuk ukuran dari Web adalah dua ribu miliar kata, yang 71% adalah bahasa Inggris, Jepang 6,8% dan 5,1% Jerman. Banyak yang relatif bahasa umum seperti Slovenia atau Melayu yang memegahkan diri kata 100m online, ukuran yang sama dengan Nasional Inggris digunakan secara luas dan dihormati Corpus. Ada argumen tentang bagaimana wakil Web adalah sebagai korpus, tapi gagasan tentang apa yang harus mewakili corpus harus itu termasuk pidato, menulis, bahasa latar belakang seperti bergumam atau
berbicara dalam tidur seseorang, atau kesalahan misalnya? - sulit untuk dijabarkan dengan
presisi setiap. Kedua, mengingat masalah skala Web, teknik NLP akan menjadi penting dalam tugas-tugas seperti summarisation (lihat, misalnya, Dokumen Memahami tahunan Konferensi - http://duc.nist.gov/dan [69]), yang dapat memberikan dukungan yang berguna untuk bagian-bagian manusiatugas pencarian.
Ketiga, NLP memiliki potensi besar untuk pembangunan jenis-jenis antarmuka intuitif bahwa heterogen dan belum tentu computerliterateWeb komunitas pengguna membutuhkan. Memang mungkin membantu menjembatani kesenjangan antara visi SW aWeb terdiri dari data dimanipulasi secara logis, dan visi yang lebih tradisional dari Web sebagai tempat yang berguna dokumen diambil. Sebagai contoh, dapat digunakan teknik NLP untuk menemukan dan mengekspresikan metadata [153]? Teks yang mengandung tidak terstruktur data sekarang dapat dipetakan ke sumber daya yang ada seperti ontologi untuk menyediakan markup dan penjelasan, setelah sesi pelatihan awal. Ontologi Computing seperti yang kita jumpai berbeda
dalam tujuan dan struktur dari thesaurus dan taksonomi dari NLP dunia, meskipun ada perdebatan tentang tingkat dan sifat dari perbedaan [125, 289]. WordNet, misalnya, bukanlah suatu ontologi ketat, misalnya yang mengandung unsur leksikal dengan pengertian yang berbeda di mana suatu ontologi mencoba untuk memastikan interpretasi yang unik untuk istilah yang digunakannya. Tapi sama WordNet memang mengandung hubungan ontologis seperti diatur inklusi dan keanggotaan di dalamnya. Sumber daya NLP juga memiliki sesuatu
yang sama dengan folksonomi dan sejenisnya, serta pentingnya perbedaan.
Dari sudut pandang Web Sains, pertanyaan terbuka yang penting ada untuk hubungan antara NLP dan Web, adalah statistik teknik yang digunakan dalam NLP atau sebaliknya melengkapi logis dan semantis berdasarkan teknik interogasi data yang digunakan oleh
SW masyarakat? Atau alternatif ada divisi optimal analitis tenaga kerja antara dua jenis pendekatan yang kita dapat memanfaatkan? Banyak tergantung pada bagaimana kita menafsirkan pengembangan Web. Untuk Misalnya, jika seseorang melihat tugas utama sebagai untuk membubuhi keterangan dan menyediakan konteks yang kaya untuk konten dan struktur ('menjinakkan Web', seperti yang dijelaskan, maka NLP akan memainkan peran penting dalam hal itu, termasuk pemetaan drift dalam arti dari waktu ke waktu. Jika kita memahami Semantic Web sebagai berfokus pada data dan model database relasional, maka logis syarat dan URI gigih menjadi pusat. NLP bekerja dengan baik statistik, SW, sebaliknya, membutuhkan logika dan belum menggunakan substansial statistik. Bahasa alami demokratis, seperti yang diungkapkan dalam slogan 'artinya adalah menggunakan'). Setara dalam SW kata-kata bahasa alami adalah istilah-istilah logis, yang URI yang menonjol. Demikian kita memiliki disanalogy langsung antara NLP dan SW, yang URI, tidak seperti kata-kata, mempunyai pemilik, dan sehingga dapat diatur. Yang bukan untuk mengatakan bahwa peraturan tersebut akan menjamin kekebalan dari makna drift bahwa linguis mendeteksi, tetapi juga dapat memberikan stabilitas yang cukup selama jangka pendek medium.

Tidak ada komentar:

Posting Komentar