نسخة تجريبية — قد تحتوي على أخطاء. نرحب بـملاحظاتك
غ غوتنبرغ أرشيف المجلات العربية القديمة
EN دخول
حساب جديد
وثيقة منهجية

منهجية الفهرسة والتصنيف
في مشروع غوتنبرغ الرقمي

نظام فهرسة أكاديمي متكامل لأرشفة الصحافة الثقافية العربية بين عامَي 1876 و1953

193,314صفحة مرقمنة
~37,900مقالة مقدرة
4مجلات
3مستويات فهرسة

مقدمة

يقوم هذا المشروع على منهجية فهرسة أكاديمية دقيقة تتجاوز الأرشفة التقليدية نحو بناء طبقة معرفية منظمة وقابلة للبحث والتحليل.

تندرج المجلات الأربع الكبرى — الرسالة، والثقافة، والهلال، والمقتطف — ضمن أكثر الدوريات الثقافية العربية تأثيراً في القرن العشرين. تعتمد هذه المنهجية على ثلاثة مستويات متكاملة من الفهرسة، مدعومة بأدوات الذكاء الاصطناعي، وتخضع للمراجعة البشرية المتخصصة في كل مرحلة.

مستويات الفهرسة الثلاثة

المستوى الأول

الفهرسة الأساسية

البيانات الببليوغرافية الجوهرية لكل مقالة.

العنوان المؤلف المعياري الباب نوع المقالة التاريخ والصفحات الكلمات المفتاحية
المستوى الثاني

الفهرسة التحليلية

طبقة تحليلية لفهم السياق الفكري.

ملخص تحليلي الأعلام والأماكن الأعمال المقتبس منها الموقف الفكري
المستوى الثالث

الفهرسة المعرفية

أعمق المستويات: ربط بالتيارات الفكرية الكبرى.

التيار الفكري الشبكة المعرفية العلاقات بين المقالات التطور عبر الزمن
تُطبَّق الفهرسة الأساسية على جميع المقالات. أما المستويان الثاني والثالث فيُطبَّقان تدريجياً وفق أولويات البحث.

الأنطولوجيا — قاموس التصنيف

الأبواب الثابتة (13 باباً)

حوادث وأحاديث
في الأدب العربي
في الأدب الغربي
في الأدب الشرقي
العلوم
العالم النسائي
القصص
من طرائف الشعر
المسرح والسينما
الكتب
من بريد الرسالة
شروح وحواشي
تراجم

أنواع المقالات (5 أنواع)

مقالة (essay) شعر (poetry) قصة قصيرة (short_story) نقد أدبي (literary_criticism) افتتاحية (editorial)

المعجم الموحد للكتّاب

قاموس مركزي للأسماء المعيارية يزيل التباين. تُحذف الألقاب (الأستاذ، الدكتور، بك، باشا) ويُحتفظ بالاسم الجوهري فقط.

مراحل المعالجة
📷
الرقمنة والتصوير
تصوير ضوئي عالي الدقة لأعداد المجلات الأصلية
🔍
التعرف الضوئي على النص (OCR)
استخراج النصوص العربية بنماذج AI متخصصة في الخط العربي القديم
📄
تحديد حدود المقالات
الفصل الآلي بين المقالات وتعيين بداية كل مقالة ونهايتها
🏷️
الفهرسة بالذكاء الاصطناعي
نماذج اللغة الكبيرة لاستخراج البيانات الببليوغرافية والموضوعية
✏️
المراجعة والتدقيق البشري
مراجعة أكاديمية متخصصة وتصحيح الأخطاء
🌐
النشر الرقمي
إتاحة البيانات عبر الأرشيف الرقمي وواجهة البرمجة

مبادئ الفهرسة

01

الأمانة في النقل

تُنقل النصوص كما وردت بما فيها من أخطاء مطبعية وتهجئة تاريخية.

02

القوائم المغلقة

لا تُقبل قيم خارج القوائم المعتمدة في حقول الباب ونوع المقالة.

03

درجة الثقة

كل بيانات مستخرجة آلياً تحمل درجة ثقة. ما دون الحد يخضع لمراجعة بشرية.

04

النسب الدقيق

تُنسب المقالات المترجمة إلى مترجميها العرب مع الإشارة إلى الأصل.

05

الشفافية في النواقص

ما لا يمكن تحديده يُصنَّف صراحة كـ"يحتاج مراجعة".

06

التكامل بين المجلات

قاموس موحد واحد على جميع المجلات يتيح البحث المقارن.

مؤشرات الجودة

نتائج المعالجة الأولية لعام 1935 من مجلة الرسالة:

تحديد الباب
93%
استخراج المؤلف
88%
كشف السلاسل المتتابعة
82%
الكلمات المفتاحية
76%

النسبة المتبقية في كل حقل تخضع للمراجعة البشرية قبل الإتاحة النهائية.

نطاق المشروع (المرحلة الأولى)

المجلة السنوات عدد الصفحات تقدير المقالات
الرسالة1933 – 195334,096~15,000
الثقافة1939 – 195323,643~8,400
الهلال1892 – 195359,064~7,500
المقتطف1876 – 195276,511~7,000
المجموع193,314~37,900

الإتاحة المفتوحة

تصفح مجاني واجهة برمجة مفتوحة (API) تصدير JSONL/CSV بيانات Dublin Core شراكات أكاديمية

يسعى المشروع إلى الاندماج في الشبكات الأكاديمية العالمية من خلال معايير Dublin Core وOAI-PMH.

للباحثين والمؤسسات: نرحب بطلبات الوصول إلى بيانات الفهرسة التفصيلية. تواصل معنا.