نماذج استرجاع المعلومات

موضوع: نماذج استرجاع المعلومات 13/2/2011, 01:43

يوجد العديد من نماذج نظم استرجاع المعلومات، التي تختلف فيما بينها بطريقة تمثيل الوثائق والاستعلامات، وتابعي المطابقة والترتيب. يمكن تصنيف هذه النماذج وفقاً لبعدين:

الأساس الرياضي
خصائص النموذج
البعد الأول : الأساس الرياضي

نماذج نظرية المعلومات: تمثّل هذه النماذج الوثائق كمجموعات. عادةً يُستمدّ التشابه من تطبيق عمليات المجموعات على هذه الوثائق. من النماذج الشائعة فيها:
النموذج البولياني (Standard Boolean Model)
النموذج البولياني الممدد (Extended Boolean Model)
(fuzzy retrieval)
النماذج الجبرية: تمثل هذه النماذج الوثائق والاستعلامات كأشعةأو مصفوفات أو حدوديات. يتم تحويل هذه الأشعة أو المصفوفات أو الحدوديات باستخدام عدد محدود من العمليات الجبرية إلى قياس تشابه وحيد البعد. ومن النماذج الشائعة فيها:
نموذج الفضاء الشعاعي (Vector Space Model)
نموذج الفضاء الشعاعي المعمم (Generalized Vector Space Model)
نموذج تحليل الدلالة الكامنة(Latent Semantic Analysis)
النماذج الاحتمالية: تعامل هذه النماذج عملية استرجاع الوثائق كتجربة عشوائية متعددة المراحل. ويتم تمثيل التشابه باحتمالات. عادة تستخدم النظريات الاحتمالية كنظرية Bayes في هذه النماذج.
النموذج الاحتمالي (Probabilistic Relevance Model)
(Uncertain Inference)
(Language Model)
النماذج المنطقية : تستخدم المنطق بنوعية الكلاسيكي و غير الكلاسيكي
البعد الثاني: خصائص النموذج

تعامل بعض النماذج الكلمات المفتاحية كما لو أنها مستقلة فيما بينها من الناحية الدلالية، بينما تنظر نماذج أخرى إلى الترابط الدلالي بين هذه الكلمات، وتقوم بتمثيله بطريقة ما. ومن هذا المنظور تصنف نظم استرجاع المعلومات إلى:

نماذج تعتمد استقلالية الكلمات المفتاحية (Models without term-interdependencies). تمثل استقلالية الكلمات المفتاحية في نماذج الفضاء الشعاعي بافتراض التعامد بين أشعة الكلمات المفتاحية (أي الاستقلال الخطي)، أما في النماذج الاحتمالية فتمثل بافتراض استقلالية متحولات الكلمات المفتاحية.
نماذج تعتمد ترابط الكلمات المفتاحية في جوهرها (Models with immanent term-interdependencies). تسمح هذه النماذج بتمثيل الترابط بين الكلمات المفتاحية. ويقوم النموذج بتعريف درجة الترابط بين كلمتين مفتاحيتين. فهي تستند عادةً بشكل مباشر أو على نحو غير مباشر إلى الورود المشترك لهاتين الكلمتين المفتاحيتين ضمن مجموعة الوثائق كاملةً.
نماذج تعتمد ترابط الكلمات المفتاحية على نحو مترفع (Models with transcendent term-interdependencies). تسمح هذه النماذج بتمثيل الترابط بين الكلمات المفتاحية، لكنها لا تفرض كيفية تعريف الترابط بين كلمتين مفتاحيتين. فهي تستخدم مصدراً خارجياً لقياس درجة الترابط بين كلمتين (مثلاً شخص خبير أو خوارزميات معقدة).

موضوع: رد: نماذج استرجاع المعلومات 13/2/2011, 01:58

موضوع متكامل اشكرك

موضوع: رد: نماذج استرجاع المعلومات 13/2/2011, 01:59

العفو اخي
شكرا لمرورك

موضوع: رد: نماذج استرجاع المعلومات 28/4/2011, 03:31

نماذج استرجاع المعلومات

موضوع: رد: نماذج استرجاع المعلومات 21/7/2011, 22:11

طرق تستخدم لاسترجاع المعلومات ... ولكن من أين تأتي هذه المعلومات؟

الطريقة الأسهل والغير مجدية هي عمل Scan لجميع الDocuments والبحث فيها جميعها في كل مرة تريد البحث عن query ما..

الطرق الأفضل والتي تستخدمها محركات البحث، وهي تخزين هذه المعلومات في data structure معينة .. وعندما تريد البحث عن query او keywords معينة فسوف يتم البحث في تلك الdata structure وسوف تقلص زمن البحث بنسبة كبيرة جداً جداً..

كيف تبنى هذه الData structure؟

أسهل طريقة ممكنة هي عمل مصفوفة من بعدين .. الاعمدة تمثل جميع الTerms (الكلمات) التي توجد في جميع الملفات Documents ، أما الأسطر فهي تمثل الملفات Documents ID.. وسيتم وضع 1 في حال كان الملف يحتوي على الكلمة التي في العمود ، والا سيتم وضع 0 في تلك الخانة.. هذا بالنسبة للConstruction . بالنسبة للبحث في هذه الData Structure (الاسم الصحيح لها هو Document-Term Incident Matrix) فيكون من خلال boolean model وهي تطبيق العلامات المنطقية AND OR NOT في الاستعلام.. هذه الMatrix بالرغم من سهولة تطبيقها الا انها غير مجدية بتاتاً نظراً لوجود عدد ضخم جداً من الخانات سوف تكون فارغه (0) وتدعي هذه المسئلة ب Sparse Matrix.. وسوف تأكل جميع الStorage لديك بلا فائدة تذكر.. لذلك تهمل هذه الdata structure في التطبيق العملي..

الطريقة الأفضل والتي يستخدمها جميع محركات البحث وهي بناء Inverted Index .. وهي عبارة عن عمود يحتوي على جميع الكلمات الموجودة في ملفاتك وكل من هذه الأعمدة يحتوي على مؤشر لLinked List (أو Variable Array) تحتوي على جميع الملفات التي تحتوي على هذه الكلمة.. الصورة التالية توضح ذلك:

[ندعوك للتسجيل في المنتدى أو التعريف بنفسك لمعاينة هذه الصورة]

لاحظ أن الكلمة قيصر تكررت في الملفات 1 و 2 و 4 ... و الكلمة برتس تكررت في 1 و2 و 4 و5 والخ..

هذا بالنسبة لبناء الInverted Index .. أما لكي تبحث فيه من خلال الboolean model فمثلا لو أردنا أن نبحث عن الملفات التي تحتوي على الكلمتين قيصر و برتس ، سوف يكون شكل الاستعلام هو:

Brutus AND Caesar

والتانج هي الملفات 1 و 2 و4 ( بعد تطبيق عملية تقاطع Intersection ) بين هذه الLinked Lists.

بالنسبة لل Extended Boolean Model فهي اضافات على الطريقة الأولي والتي تفتصر على ANT NOT OR فقط وتخرج النتيجة فقط اذا كان الملف يطبق الشرط الذي قمت بكتابته في الquery.. الاضافات هي مثلا الكلمة NEAR أو LIKE والخ (تسمى proximity operator ).

أما بالنسبة للVector Space Model فهو تقريباً السائد حالياً حيث يدعم استعلام بدون تحديد جمل معينة Free Form Query اضافة الى ان الناتج يكون أفضل النتيجة best result وليس كما في الboolean/extended models فهي تخرج بدون مراعاة للSocring.

موضوع: رد: نماذج استرجاع المعلومات 21/7/2011, 22:32

نظام استرجاع المعلومات
نظم استرجاع المعلومات هي النظم التي تسمح بتخزين مجموعة من الوثائق وإدارتها ومعالجتها، وذلك بطريقة تسمح للمستخدم باسترجاع تلك الوثائق التي يتوافق محتواها مع حاجته من المعلومات. تستخدم نظم استرجاع المعلومات لتخفيض حمل المعلومات الزائد، حيث يستخدم العديد من الجامعات والمكتبات العامة هذه النظم لتأمين الوصول إلى الكتب والمجلات والوثائق الأخرى.

الإطار العام لنظم استرجاع المعلومات

الإطار العام لنظم استرجاع المعلومات يتألف من ثلاث مراحل:

استخلاص محتوى الوثائق وتوليد تمثيل لها.
استخلاص محتوى الاستعلام وتوليد تمثيل له (معالجة الاستعلام).
مقارنة تمثيل الوثائق مع تمثيل الاستعلام للحصول على الوثائق التي تطابق الاستعلام جزئياً، ثم ترتيبها وفقاً لدرجة موائمتها لحاجة المستخدم من المعلومات (عملية المطابقة والترتيب).
يتم إنجاز المرحلة الأولى عادةً قبل قيام المستخدم بطرح استعلامه (offline) بينما يتم إنجاز المرحلتين التاليتين بعد طرح الاستعلام (online).

نماذج استرجاع المعلومات

يوجد العديد من نماذج نظم استرجاع المعلومات، التي تختلف فيما بينها بطريقة تمثيل الوثائق والاستعلامات، وتابعي المطابقة والترتيب. يمكن تصنيف هذه النماذج وفقاً لبعدين:

الأساس الرياضي
خصائص النموذج
البعد الأول : الأساس الرياضي

نماذج نظرية المعلومات: تمثّل هذه النماذج الوثائق كمجموعات. عادةً يُستمدّ التشابه من تطبيق عمليات المجموعات على هذه الوثائق. من النماذج الشائعة فيها:
النموذج البولياني (Standard Boolean Model)
النموذج البولياني الممدد (Extended Boolean Model)
(fuzzy retrieval)
النماذج الجبرية: تمثل هذه النماذج الوثائق والاستعلامات كأشعةأو مصفوفات أو حدوديات. يتم تحويل هذه الأشعة أو المصفوفات أو الحدوديات باستخدام عدد محدود من العمليات الجبرية إلى قياس تشابه وحيد البعد. ومن النماذج الشائعة فيها:
نموذج الفضاء الشعاعي (Vector Space Model)
نموذج الفضاء الشعاعي المعمم (Generalized Vector Space Model)
نموذج تحليل الدلالة الكامنة(Latent Semantic Analysis)
النماذج الاحتمالية: تعامل هذه النماذج عملية استرجاع الوثائق كتجربة عشوائية متعددة المراحل. ويتم تمثيل التشابه باحتمالات. عادة تستخدم النظريات الاحتمالية كنظرية Bayes في هذه النماذج.
النموذج الاحتمالي (Probabilistic Relevance Model)
(Uncertain Inference)
(Language Model)
النماذج المنطقية : تستخدم المنطق بنوعية الكلاسيكي و غير الكلاسيكي
البعد الثاني: خصائص النموذج

تعامل بعض النماذج الكلمات المفتاحية كما لو أنها مستقلة فيما بينها من الناحية الدلالية، بينما تنظر نماذج أخرى إلى الترابط الدلالي بين هذه الكلمات، وتقوم بتمثيله بطريقة ما. ومن هذا المنظور تصنف نظم استرجاع المعلومات إلى:

نماذج تعتمد استقلالية الكلمات المفتاحية (Models without term-interdependencies). تمثل استقلالية الكلمات المفتاحية في نماذج الفضاء الشعاعي بافتراض التعامد بين أشعة الكلمات المفتاحية (أي الاستقلال الخطي)، أما في النماذج الاحتمالية فتمثل بافتراض استقلالية متحولات الكلمات المفتاحية.
نماذج تعتمد ترابط الكلمات المفتاحية في جوهرها (Models with immanent term-interdependencies). تسمح هذه النماذج بتمثيل الترابط بين الكلمات المفتاحية. ويقوم النموذج بتعريف درجة الترابط بين كلمتين مفتاحيتين. فهي تستند عادةً بشكل مباشر أو على نحو غير مباشر إلى الورود المشترك لهاتين الكلمتين المفتاحيتين ضمن مجموعة الوثائق كاملةً.
نماذج تعتمد ترابط الكلمات المفتاحية على نحو مترفع (Models with transcendent term-interdependencies). تسمح هذه النماذج بتمثيل الترابط بين الكلمات المفتاحية، لكنها لا تفرض كيفية تعريف الترابط بين كلمتين مفتاحيتين. فهي تستخدم مصدراً خارجياً لقياس درجة الترابط بين كلمتين (مثلاً شخص خبير أو خوارزميات معقدة).

مقاييس تقييم الأداء

عملية التقييم من منظور نظم استرجاع المعلومات هي العمليّة التي تهدف إلى إعطاء قياس عددي يعبّر عن مدى قدرة النظام على تلبية حاجات المستخدمين بفعالية. وهنا لدينا ما يعرف بموائمة النظام (System Relevance)؛ بعبارة أخرى، هو قدرة النظام على استرجاع الوثائق الموائمة لحاجة المستخدم من المعلومات، وبنفس الوقت تجنب استرجاع الوثائق غير الموائمة. ويستخدم لذلك قياسات عديدة لقياس أداء نظم استرجاع المعلومات. بالنسبة للقياسات التي سنذكرها فإنها تفترض الموائمة الثنائية: أي إما أن تكون الوثيقة ملائمة أو غير موائمة على الإطلاق. من هذه القياسات:

الدقة (Precision)
الاستذكار (Recall)
الدقة

يعبر هذا المقياس عن دقة النظام، وهو عبارة عن نسبة الوثائق الموائمة المسترجعة إلى إجمالي الوثائق المسترجعة (أي نسبة الوثائق الموائمة من الوثائق المسترجعة).

الاستذكار

هي نسبة الوثائق الموائمة المسترجعة إلى إجمالي الوثائق الموائمة (أي نسبة الوثائق المسترجعة من الوثائق الموائمة). الاستذكار وحده غير كافٍ، إنما نحتاج لقياس عدد الوثائق غير الموائمة أيضاً، لذلك نستخدمه مع الدقة

» استرجاع المعلومات
» نظم استرجاع المعلومات
» الجوع يقوي الذاكرة و ويساعد على استرجاع المعلومات
» كيفية استرجاع كلمة السر في تويتر , شرح استرجاع اسم عضويتك في تويتر , شرح استرجاع اسمك وعضويتك في التويتر
» فيديو يوتيوب برنامج الثامنة حلقة نماذج لمعاقين مبدعين الاحد 2-6-2013 , مشاهدة فيديو حلقة برنامج الثامنة مع نماذج لمعاقين مبدعين , صور محمد الشريف , أكرم العلي , زياد الزايد , عبدالعزيز الذياب نماذج لمعاقين مبدعين فى برنامج الثامنة 23-7-1434