Bir arama motoru , bir kullanıcının çevrimiçi bir arama (veya internet araması ) yapmasına, yani terimlerden oluşan bir sorgudan kaynak bulmasına izin veren bir web uygulamasıdır . Kaynaklar özellikle olabilir web sayfaları , ürün hakkındaki forumlar Usenet , resimler , videolar , dosyalar , kitaplar, eğitim siteleri, uygulamalar dışında, açık kaynak yazılım .
Prensip olarak, genellikle çalışırlar:
Bazı web siteleri , ana işlev olarak bir arama motoru sunar; sitenin kendisine daha sonra “arama motoru” denir. Bunlar araştırma araçları üzerindeki web ayıran insan müdahalesi olmadan, dizinleri . Bunlar, yeni adresleri ( URL'ler ) keşfetmek için düzenli aralıklarla sitelere otomatik olarak göz atan " botlar ", " örümcekler ", " tarayıcılar " veya "aracılar" olarak da adlandırılan " robotlar "ı temel alır . Sayfaları birbiri ardına birbirine bağlayan köprüleri takip ederler . Tanımlanan her sayfa daha sonra bir veritabanında indekslenir ve daha sonra İnternet kullanıcıları tarafından anahtar kelimeler kullanılarak erişilebilir .
Web sitesi dizinleri sunan "arama motorları" web siteleri olarak da adlandırdığımız dilin kötüye kullanılmasıdır: bu durumda, web tarayıcıları değil, ilgi çekici web sitelerini listeleyen ve sınıflandıran kişiler tarafından geliştirilen araştırma araçlarıdır.
Arama motorları sadece İnternet için geçerli değildir: bazı arama motorları kişisel bir bilgisayara yüklenen yazılımlardır . Bunlar , PC'de depolanan dosyalar arasında arama ve web siteleri arasında arama yapmayı birleştiren "masaüstü" motorlardır - örneğin, Copernic Masaüstü Araması, Windex Sunucusu, vb.
Ayrıca meta arama motorları, yani aynı aramanın birkaç arama motorunda aynı anda başlatıldığı, sonuçların bir araya getirilerek İnternet kullanıcısına sunulduğu web siteleri de vardır .
İnternet arama motorları, 1990 sonlarında Web'in başlangıcından önce gelir:
Arama motorları , IBM'deki STAIRS yazılımı gibi 1970'lerden beri anabilgisayarlarda kullanılan belgesel erişim araçlarından ( ters çevrilmiş dosya tabanlı , diğer adıyla dizin dosyaları ) esinlenmiştir . Ancak ağ odaklı olduğu için veritabanlarını doldurma yöntemi farklıdır . Ek olarak, biçimlendirilmiş veriler (“alanlar”) ile serbest metin arasındaki ayrım artık yoktur, ancak 2010'dan beri anlamsal web aracılığıyla kendini yeniden tanıtmaya başlamıştır .
Tarihsel motorları olmuştur Lycos (1994), Altavista (1995, ilk 64-bit motoru) ve Backrub atası arasında, (1997) Google'da .
Herhangi bir araştırma aracı gibi bir arama motorunun işleyişi üç ana sürece ayrılabilir:
Tamamlayıcı modüller genellikle arama motorunun üç temel yapı taşıyla birlikte kullanılır. En ünlüleri şunlardır:
Yazım denetleyicisi: | lemmatizer: | sözlük karşıtı: |
---|---|---|
Tanıtılan hataları düzeltmeye izin verir
isteğin sözleriyle, emin olmak için ilgilerini dikkate alarak kanonik form. |
Azaltma imkanı verir
Onların kelimeleri arama lemmasının için böylece araştırma kapsamını genişletirler.
|
Hepsini kaldırmak için kullanılır
"boş" kelimeler ("of", "the", "the" gibi) ayrımcı olmayan ve toplumu rahatsız eden gürültü tanıtarak arama puanı . Silme işlemi dizinde ve istekler. |
Arama motorlarını optimize etmek için web yöneticileri , web sayfalarına HTML başlığına (head) meta öğeler (meta etiketler) ekler . Bu bilgi , web sitelerinde bilgi aramalarını optimize etmeyi mümkün kılar .
Öncelikli olarak araştırmaya hizmet eden siteler, teknoloji ve reklam satışı ile finanse edilmektedir.
Reklam finansmanı, ziyaretçinin aradığı kelimelere karşılık gelen reklamların sunulmasından oluşur. Reklamveren anahtar kelimeler satın alır: örneğin bir seyahat acentesi "tatil", "otel" ve "plaj" veya bu bölgede uzmanlaşmışsa "Cannes", "Antibes" ve "Nice" gibi anahtar kelimeler satın alabilir. Bu satın alma, "doğal referans" olarak adlandırılan referanstan ayırt edilmek üzere "ücretli referans" adı verilen bir referans almayı mümkün kılar.
Arama motoru, reklamı iki şekilde görüntüleyebilir: ayrı bir ek olarak veya arama sonuçlarının bir parçası olarak. Ziyaretçi için ayrı ek, klasik bir reklam gibi görünüyor. Öte yandan, sonuçlara entegrasyon, sonuçların alaka düzeyine zarar verir ve motorun algılanan kalitesi üzerinde olumsuz etkileri olabilir. Bu nedenle, tüm motorlar sonuçlara yatırım satmaz.
Arama motorları ekonomik bir konudur. Ana arama motoru Google'ın sahibi olduğu Alphabet holding şirketinin borsa değeri Nisan 2020'de 831 milyar dolardı.
Ekonomik risklerin önemi, arama motorlarının "doğal" referanslama, spamdexing (Fransızca'da kötü niyetli referanslama) elde etmek için sahtekâr saptırma tekniklerine yol açtı .
En popüler spam indeksleme teknikleri şunlardır:
Kötüye kullanım amaçlı referans verme teknikleri , geçici veya kesin kara listeler oluşturan arama motorlarının yayıncıları tarafından avlanır.
Spam indekslemeyi , dürüst olmayan saptırmayı "SEO", Arama Motoru Optimizasyonundan ( Fransızca arama motorları için optimizasyon) ayırıyoruz . SEO teknikleri uzman şirketler tarafından pazarlanmaktadır.
Büyük kuruluşlar (şirketler, yönetimler) genellikle büyük bir intranette çok sayıda BT kaynağına sahiptir . Kaynaklarına İnternet'ten erişilemediği için web arama motorları tarafından kapsanmazlar. Bu nedenle, kaynaklarını aramak istiyorlarsa kendi motorlarını kurmaları gerekir. Bu nedenle arama motoru geliştiricileri için bir pazar oluştururlar. Bu, bir iş arama motoru olarak adlandırılır (aşağıya bakın).
Ayrıca, halka açık web sitelerinin tekliflerini genişletmek için bir arama motorunun hizmetlerini kullandığı da olur . Buna “Site Araması” denir. Bu yazılım, bir veya daha fazla site grubunda içerik aramaya izin verir. Bu teknolojiler özellikle içerik sitelerinde ve çevrimiçi satış sitelerinde kullanılmaktadır. Bu araçların özelliği, genellikle uygulamanın karmaşıklığı ve mevcut gerekli teknik kaynaklardır.
Büyük portallar da arama motoru teknolojisinden yararlanabilir. Yani Yahoo! Bir web dizini uzmanı , kullanılan Google teknolojisi arama için birkaç yıldır , 2004 yılında kendi arama motoru Yahoo Search Teknolojisi başlattı kadar, vakıflar olan Altavista, Inktomi ve Overture, arama motorlarının şirketleri kurucuları geldi ve Yahoo! tarafından satın .
Semantik web üzerindeki W3C tavsiyelerini takip eden daha fazla içerik üreticisi, arama motorlarının semantik analizlere uyum sağlamasına izin vermek için veritabanlarını meta veriler veya taksonomiler ( ontolojiler ) ile indeksliyor .
Bilgisayar tarafından bilgi külliyatının bu araştırma ve analiz biçimleri hala yalnızca potansiyeldir.
Tam metin aramalarıyla karşılaştırıldığında semantik web'de yapılan aramalar daha kullanıcı dostu olmalıdır:
Açıkçası, doğal dilde bir soruyu anlamayı ve bulunan sonuçlara göre bir cevabı uyarlamayı mümkün kılan semantik bir arama motoru henüz yok .
Bununla birlikte, bilgi arayışında bu anlam sorunsalına bir ara yanıt bulmaya yönelik bazı girişimler vardır:
Basılı dizinlerin kademeli olarak terk edilmesi, kullanıcıların aynı aramaları İnternet "meslek + yerellik" üzerinde yapmalarına yol açmaktadır. Bu nedenle Google , istekler yerelleştirilmiş bir etkinliğe karşılık geldiğinde web ve dizin verilerinin bir karışımını gerçekleştirmek için 2010 yılında bir şirket dosyası (Fransa ve belirli sayıda ülke için) aldı . Bu yeni eğilim, ana arama motorları tarafından onaylanmakta ve yeni "karma araçlar" ortaya çıkmaktadır. Yandex ve Baidu henüz bu karıştırma modelini benimsemedi.
McKinsey & Co tarafından yürütülen bir araştırmaya göre, 2013 yılında Fransız KOBİ'lerinin sadece %65'inin İnternet varlığı vardı. Başka bir araştırmaya göre , bu oran serbest meslekler (avukatlar, diş hekimleri, doktorlar, noterler, icra memurları, hemşireler vb.) için %72'ye ulaşmaktadır.
Tanımı gereği yalnızca İnternet'ten veri toplayan arama motorları, bu nedenle, İnternet kullanıcılarının adres aramasını karşılamanın yanı sıra bu dizin adreslerini almak ve sunmak zorunda kaldı. Google, bu adresleri “Google Adresleri” olarak vaftiz etti, ardından otomatik olarak şu anda “ Google My Business ” olan “Google +”ya geçti . Bing ve Google arama motorları , Yahoo! Pages Jaunes ile ortaktır .
Fransa | Almanya | Kanada | Amerika Birleşik Devletleri | Meksika | Brezilya | Fas | |
---|---|---|---|---|---|---|---|
%94.21 | %94,54 | %92.38 | %84.8 | %94,9 | %97.35 | %97.31 | |
Bing | %2.95 | %2.89 | %4.31 | %5,59 | %3.36 | %1,32 | %1,79 |
yahoo | %1,53 | %0.84 | %2,33 | %8.35 | %1,51 | %1,18 | %0.71 |
Qwant | %0.7 | ||||||
ÖrdekÖrdekGit | %0.25 | %0.67 | %0.73 | %1,01 | %0.09 | %0.01 | %0,08 |
msn | %0.1 | %0,08 | %0.1 | %0.02 | |||
yandex | %0.03 |
Meta arama motorları kullanıcıya bu sorgu birden fazla arama motorları aynı anda ve görüntüleme alakalı bir sentez arama araçlarıdır.
Örnekler: Startpage'in , Searx , arar ve LILO , Framabee .
“ Çoklu motor (en) ” (veya daha nadiren, “süper motor”) terimi , birkaç motorun sorgulanmasını mümkün kılan bir veya daha fazla form sunan bir web sayfasını ifade eder . Ayrıca (ancak daha nadiren) bir yazılım, bir işlev veya bir web tarayıcı eklentisi veya bir araç çubuğu olabilir ...
Motorlardan birinin seçimi buton , radyo butonu , sekme , açılır liste veya başka bir şekilde yapılabilir.
Bu türün ilk sayfaları, birkaç motorun form kodunu kopyaladı. JavaScript'in ortaya çıkışıyla birlikte sadece bir forma sahip olmak mümkün oldu.
Örneğin, Creative Commons Search , Ecosia , Disconnect , Maxthon'un arama motoru , HooSeek (2012'de kapatıldı) sayılabilir .
"Dayanışma arama motoru" terimi, gelirinin bir kısmını ekolojik, sosyal veya insani amaçlara bağışlayan bir motoru belirtmek için kullanılır. Bu motorlar, arama motorlarında reklam vererek elde edilen yıllık gelirlerin oldukça önemli olduğu ( Google için kullanıcı başına yaklaşık 45 ABD doları) gözleminden doğmuştur . Dayanışma arama motorları özellikle elde edilen geliri dağıtma şekliyle öne çıkıyor. Ecosia gibi bazı motorlar daha sonra gelirin bir kısmını tek bir amaca bağışlarken, Lilo gibi motorlar İnternet kullanıcılarının hangi projeleri finanse edeceklerini seçmelerine izin veriyor.
Dayanışma arama motorlarının listesine bakın.
"Dikey motorlar" terimi, profesyonel bir alanda uzmanlaşmış araştırma sunan veya özellikle hedeflenen bir web sayfasını veya multimedya hizmetini ifade eder. Bu araştırma aracı, telekomünikasyon, hukuk, biyoteknoloji, finans (sigorta) ve hatta gayrimenkul gibi belirli bir sektörde uzmanlaşmıştır. Genel işleyişi, hedeflenen faaliyetin tüm uzmanlaşmış sitelerinin veri tabanlarından oluşan bir veri tabanına dayanmaktadır.
Bu motor türü, profesyoneller tarafından kullanılır ve tüketiciyi hedef alır ve çoğunlukla coğrafi konum belirlemeden kaynaklanan ekonomik bir amaç için kullanılır.
Bu nedenle, genel halk için dizinler ve karşılaştırıcılar vardır. Artık tüm faaliyetler için kullanılabilirler: emlak, turizm, iş arama, işe alım, otomobil, eğlence, oyunlar.
Şirketlerde bulunan çeşitli formatlardaki (veriler, yapılandırılmamış bilgiler, resimler, videolar vb.) içerik sayısındaki patlama, onları kendilerini dahili bir arama motoruyla donatmaya itiyor.
MARKESS International tarafından yapılan bir araştırmaya göre Şubat 2008, kuruluşların %49'u halihazırda kurumsal bir arama motoru kullanıyor ve %18'i 2010 yılına kadar bunu kullanmayı planlıyor. Bu arama motorları çoğunlukla iş istasyonlarına veya elektronik belge yönetim araçlarına entegre edilmiştir , ancak hem dahili ve harici şirket içeriği veya içerik yönetimi araçlarına veya iş zekası çözümlerine entegre edilmiştir.
Kurumsal arama motorları sunan oyuncular arasında Google , Exalead , PolySpot veya OpenSearchServer bulunmaktadır .
Lemmatization, adlandırılmış varlık çıkarma, sınıflandırma ve kümeleme gibi dil analizi teknolojileri, arama motorlarının işleyişini büyük ölçüde iyileştirebilir. Bu teknolojiler, hem sonuçların uygunluğunu iyileştirmeyi hem de çok yönlü aramada olduğu gibi İnternet kullanıcısını daha verimli bir arama sürecine dahil etmeyi mümkün kılar .
ADEME'de yayınlanan "İnternet, e-postalar, etkilerin azaltılması" çalışmasına göreŞubat 2014Doğrudan bir sitenin adresine gidin veya adresini tarayıcıya yazarak, ya "favori" olarak kaydettirerek (siteyi bir arama motoru aracılığıyla aramak yerine) sera gazı emisyonlarının 4'e bölünmesiyle gidin .