אינדקס של מנועי חיפוש

אינדקס עסקים

מנוע חיפוש אינדקס אוספת, מנתח, ומאחסן נתונים כדי לאפשר אחזור מידע מהיר ומדויק . עיצוב אינדקס משלב מושגים בין-תחומיים מבלשנות, פסיכולוגיה קוגניטיבית, מתמטיקה, אינפורמטיקה ומדעי המחשב. שם חלופי לתהליך בהקשר של מנועי חיפוש שנועדו למצוא דפי אינטרנט באינטרנט הוא אינדקס אינטרנט .

מנועי פופולרי להתמקד אינדקס טקסט מלא של מסמכים מקוונים, שפה טבעית. ניתן גם לחפש סוגי מדיה כגון וידאו ושמע וגרפיקה.

מטא מנועי החיפוש עושים שימוש חוזר במדדים של שירותים אחרים ואינם מאחסנים אינדקס מקומי, ואילו מנועי חיפוש מבוססי מטמון שומרים לצמיתות את המדד יחד עם הקורפוס . שלא כמו מדדי טקסט מלאים, שירותי טקסט חלקיים מגבילים את עומק הצמוד להורדת המדד. שירותים גדולים יותר בדרך כלל לבצע אינדקס במרווח זמן קבוע מראש בשל הזמן הנדרש עלויות העיבוד, ואילו מנועי החיפוש מבוססי סוכן מנועי בזמן אמת .

יצירת אינדקס בעלי עסקים
מטרת אחסון אינדקס היא לייעל את המהירות והביצועים במציאת מסמכים רלוונטיים לשאילתת חיפוש. ללא אינדקס, מנוע החיפוש היה לסרוק כל מסמך בקורפוס , אשר ידרוש זמן רב כוח המחשוב. לדוגמה, בעוד אינדקס של 10,000 מסמכים ניתן queried בתוך אלפיות השנייה, סריקה רציפה של כל מילה ב -10,000 מסמכים גדולים יכול לקחת שעות. אחסון האחסון הנוסף הנדרש לאחסון המדד, וכן העליה הניכרת בזמן הנדרש לעדכון, נסחרים למשך הזמן שנשמר בעת אחזור המידע.

גורמי עיצוב אינדקס
הגורמים העיקריים בעיצוב ארכיטקטורה של מנוע החיפוש כוללים:

מיזוג גורמים
כיצד הנתונים נכנסים למדד, או כיצד מילים או תכונות נושא מתווספות לאינדקס במהלך מעבר טקסט, ואם מדדים מרובים יכולים לעבוד באופן אסינכרוני. על האינדקס לבדוק תחילה אם הוא מעדכן תוכן ישן או מוסיף תוכן חדש. Traversal בדרך כלל בקורלציה למדיניות איסוף הנתונים . אינדקס אינדקס מנוע החיפוש דומה במושג לפקודה של מיזוג SQL ואלגוריתמים אחרים של מיזוג.
טכניקות אחסון
כיצד לאחסן את נתוני המדד , כלומר, האם המידע צריך להיות דחוס או מסונן.
גודל אינדקס
כמה אחסון המחשב נדרש כדי לתמוך במדד.
בדיקת מהירות
כמה מהר מילה ניתן למצוא במדד הפוך . המהירות של מציאת רשומה במבנה נתונים, בהשוואה למהירות שבה ניתן לעדכן או להסיר, היא מוקד מרכזי במדעי המחשב.
תחזוקה
איך המדד נשמר לאורך זמן.
עמידות בפני תקלות
כמה חשוב עבור השירות להיות אמין. הסוגיות כוללות טיפול בשחיתות במדד, קביעת האם ניתן לטפל בבדיקות רעות בבידוד, בהתמודדות עם חומרה גרועה, חלוקה למחיצות ומזימות כגון מחיצות מבוססות חשיש או מרוכבות, כמו גם שכפול .
מבנים נתוני אינדקס
ארכיטקטורות של מנועי חיפוש משתנות באופן יצירת האינדקס ובשיטות של אחסון אינדקס כדי לענות על גורמי התכנון השונים.

עץ סיומות
מובנה באופן מאורגן כמו עץ, תומך זמן בדיקה לינארית. נבנה על ידי אחסון סיומות של מילים. עץ הסיומת הוא סוג של טרי . מנסה לתמוך hashing להאריך , וזה חשוב עבור מנוע החיפוש לאינדקס. משמש לחיפוש דפוסי רצף DNA ו אשכולות. החיסרון העיקרי הוא כי אחסון מילה בעץ עשוי לדרוש שטח מעבר הנדרש כדי לאחסן את המילה עצמה. ייצוג חלופי הוא מערך סיומות , הנחשב לדרוש פחות זיכרון וירטואלי ותומך דחיסת נתונים כגון אלגוריתם BWT .
אינדקס הפוך
מאחסן רשימה של מופעים של כל קריטריון חיפוש אטומי, בדרך כלל בצורת טבלה או עץ בינארי .
אינדקס ציטוט
חנויות ציטוטים או היפר בין מסמכים כדי לתמוך ניתוח הציטוט, נושא bibliometrics .
מדד NGRG
חנויות רצפים של אורך הנתונים כדי לתמוך סוגים אחרים של אחזור או כריית טקסט .
מילון מונחים
משמש ניתוח סמנטית סמויה, מאחסן את המופעים של מילים במסמכים מטריקס דו מימדי דליל .
אתגרים מקבילים
האתגר העיקרי בתכנון מנועי החיפוש הוא ניהול תהליכי המחשוב הטוריים. ישנן הזדמנויות רבות עבור התנאים גזע תקלות קוהרנטית. לדוגמה, מסמך חדש מתווסף לקורפוס ויש לעדכן את האינדקס, אך האינדקס צריך במקביל להגיב לשאילתות חיפוש. זוהי התנגשות בין שתי משימות מתחרות. שקול כי מחברים הם המפיקים של מידע, ו אינטרנט הסורק הוא הצרכן של מידע זה, תופס את הטקסט ואת זה אחסון במטמון (או קורפוס ). המדד הקדמי הוא הצרכן של המידע המיוצר על ידי הקורפוס, והמדד ההפוך הוא צרכן המידע המופק על ידי המדד הקדמי. זה נפוץ המכונהמודל הצרכן המפיק . המדד הוא המפיק של מידע לחיפוש והמשתמשים הם הצרכנים שצריכים לחפש. האתגר מוגדל כאשר עובדים עם אחסון מבוזר ועיבוד מבוזר. במאמץ לגדול עם כמויות גדולות יותר של מידע צמוד, הארכיטקטורה של מנוע החיפוש עשויה להיות כרוכה במחשוב מבוזר , שבו מנוע החיפוש מורכב ממספר מכונות הפועלות יחד. זה מגדיל את האפשרויות של חוסר עקביות ומקשה על שמירה על ארכיטקטורה מקבילה ומופצת באופן מלא


Facebook
Twitter
LinkedIn

השאירו תגובה

תוכן עניינים

חיפוש
Generic selectors
Exact matches only
Search in title
Search in content
Post Type Selectors

אודות האתר

אינדקס אתרים ישראלי הכולל אלפי קישורים לאתרים נבחרים בנושאים שונים.

כל הפרסומים המופיעים באתר אינדקס אתרים הינם בגדר המלצה בלבד ואין בהם כדי לחייב את מנהלי האתר.

פוסטים חדשים

עקוב אחרינו

הירשם לניוזלטר שלנו

אינדקס עסקים ישראלי

דילוג לתוכן