Gutenberg Digital Publishing

Google for Startups Cloud • Application
AI Deep Tech Infrastructure

المعرفة العربية… مُهيكلة للذكاء الاصطناعي على نطاق واسع.

Gutenberg Digital Publishing تبني طبقة بنية تحتية “AI-native” لتحويل منشورات التراث العربي واسعة النطاق إلى مجموعات بيانات قابلة للقراءة آليًا وفهارس دلالية ورسوم/شبكات معرفة لخدمة البحث العلمي وأنظمة الذكاء الاصطناعي الحديثة.

2,000,000+
صفحة مُصوَّرة
بيانات خام من مجلات تراثية عربية (1887–1975).
8,000+
Indexed articles
بيانات وصفية + مؤلفون + موضوعات + روابط وعلاقات.
99%
OCR accuracy
تم التحقق من الجودة على بيانات المجموعة الحالية.
450,000+
صفحة — المرحلة الأولى
هدف الهيكلة حتى 1953 إلى بيانات منظمة قابلة للبحث والتحليل.

المشكلة → فرصة البنية التحتية

لماذا يهم هذا على مستوى Cloud-scale AI

المشكلة

تراث الفكر العربي محبوس في ملفات PDF ممسوحة ضوئيًا: متفرق، غير قابل للبحث بشكل فعّال، وغير صالح للاستخدام في مسارات عمل الذكاء الاصطناعي الحديثة. بدون هيكلة بيانات وربط كيانات وفهرسة دلالية، لن يمكن استخدامه على نطاق واسع في البحث أو الذكاء الاصطناعي.

1
مسوحات غير منظمةمحتوى ممتاز لكنه غير قابل للقراءة آليًا.
2
غياب الطبقة الدلاليةنقص كيانات/موضوعات/خط زمني/روابط.
3
اختلال بيانات الذكاء الاصطناعيالعربية أقل تمثيلًا في corpora عالية الجودة.

الحل

بنينا خط معالجة يحول المنشورات التاريخية إلى بيانات منظمة قابلة للاستعلام: بيانات وصفية + كيانات + نمذجة موضوعات + استرجاع دلالي + مخرجات Knowledge Graph.

A
OCR بالذكاء الاصطناعي + التحققاستخراج عالي الدقة مع فحوص جودة.
B
هيكلة البيانات + استخراج الكياناتمؤلفون/أشخاص/موضوعات/زمن/سياق.
C
فهرسة دلالية + Knowledge Graphربط عبر المقالات وتجهيز مخرجات Graph.

نظرة معمارية

مخطط مبسط وصديق للمراجعة
INGESTION → OCR → STRUCTURE → ENRICH → INDEX → GRAPH/API Ingestion Scans → Storage AI OCR Extract text + QC Structuring Metadata schema Enrichment Entities + topics Indexing Search + vectors KG API Output: Machine-readable corpus • Semantic search • Knowledge graph • Research/AI-ready datasets

ما معنى “Deep Tech” هنا؟

الابتكار الأساسي هو قابلية التوسع لتحويل مسوحات التراث العربي إلى معرفة منظمة قابلة للاستهلاك آليًا. هذه بنية تحتية، وليست مجرد نشر محتوى.

OCR + QA Entity linking Semantic retrieval Scale bottleneck

مخرجات البحث والبيانات

ما ننتجه (ليس مجرد صفحات)

المخرجات هي أصول جاهزة للذكاء الاصطناعي

الـ MVP الحي يعرض طبقة القراءة والتصفح، لكن القيمة الأساسية هي طبقة البيانات المنظمة التي يمكن استهلاكها بواسطة نظم البحث والباحثين ومسارات الذكاء الاصطناعي.

DS
تصدير Corpus منظم JSON على مستوى المقال: عنوان، مؤلف، تاريخ، صفحات، ملخصات، موضوعات، كيانات، روابط…
KG
لقطات Knowledge Graph شبكات المؤلفين، روابط الكيانات، العلاقات عبر المقالات، حواف الخط الزمني.
VX
فهرس دلالي (جاهز للـ Vector) سجلات قابلة للتضمين Embeddings للاسترجاع الدلالي والمساعدين البحثيين.
EN
طبقة تدويل ترجمة البيانات الوصفية للإنجليزية لدعم الباحثين غير الناطقين بالعربية والاكتشاف العالمي.
{ "article_id": "RISALA_1937_05_10_001", "title_ar": "عنوان المقال", "title_en": "Translated title", "author_ar": "اسم الكاتب", "date": "1937-05-10", "pages": [17,18,19], "topics": ["literature","criticism"], "entities": [{"type":"person","value":"طه حسين"}], "links": {"related_articles": ["..."], "issue_url": "..."} }

اتجاه الـ API

الخطوة القادمة: Endpoints مستقرة للباحثين والمطورين للاستعلام عن corpus المنظم ورسوم المعرفة والبحث الدلالي.

/a
/articlesفلترة حسب السنة/المؤلف/الموضوع/الكيان.
/g
/graphحواف بين مؤلفين وموضوعات وكيانات.
/s
/searchبحث نصّي + استرجاع دلالي.

خطة التوسع (حسابات غير مالية)

أهداف الإنتاجية + أثر السحابة

الوضع الحالي

نحن بالفعل نعالج الصفحات على دفعات. التوسع يعتمد أساسًا على قدرة الاستدلال السحابي، التخزين، وموثوقية الأتمتة.

T0
اليوممعالجة دفعية بميزانية Compute محدودة.
QC
بوابة جودةفحوص آلية + مراجعة بشرية للصفحات المُعلّمة.
IO
بيانات الإدخال/الإخراجصور عالية الدقة + مخرجات مُؤرشفة/مُنسخة بالإصدارات.

الأهداف بعد Credits

الهدف هو ثبات معدل الإنتاج وتسريع الإثراء (كيانات/موضوعات/ترجمة)، وليس OCR فقط.

P/D
صفحات/يومرفع الإنتاجية عبر Vertex AI + orchestration.
E2E
End-to-End لكل دفعةOCR → هيكلة → إثراء → فهرسة.
API
تسليماتSnapshots منتظمة + مخرجات KG/API.

حسابات توسع مبسطة (توضيحية)

تقدير “صديق للمراجعة” يوضح كيف تتحول الحوسبة إلى إنتاجية. عدّل الأرقام لتطابق معدلاتك المقاسة.

السيناريو صفحات/يوم صفحات/شهر المدة المتوقعة لـ 400,000 صفحة ملاحظات
محدود 500 15,000 ~27 شهر قيود على الاستدلال + إثراء أبطأ
مع Credits 2,000 60,000 ~7 شهور OCR + إثراء (كيانات/موضوعات/ترجمة) بالتوازي
محسّن 4,000 120,000 ~3.5 شهور توازي أعلى + caching + routing ذكي للجودة

شكل النجاح

خط إنتاج ثابت يخرج شهريًا snapshots (Corpus + Index + KG) ويحافظ على سرعة واجهة العرض عبر بيانات مُحضّرة ومجزأة.

Monthly snapshots Stable schema KG growth Latency down

نموذج الدخل والاستدامة

تصورات الدخل بعد اكتمال المنصة

من أين يأتي الدخل؟ (B2B أولًا)

نحن نستهدف نموذج أعمال مؤسسي قابل للتوسع. المنتج الأساسي هو طبقة البيانات المنظمة + البحث الدلالي + واجهات API. الدخل يأتي من خدمات ومنتجات مبنية على هذه الطبقة، مع الحفاظ على واجهة عامة مجانية كـ “عرض قيمة” ومرجع قابل للاستشهاد.

API
API Access (SaaS) خطط شهرية/سنوية حسب الاستهلاك (Limits + Seats) للوصول البرمجي إلى /articles و/search و/graph وعمليات التصدير المنظمة.
UNI
اشتراكات جامعات ومراكز بحث لوحات تحليلات متقدمة، أدوات تصنيف وفهرسة، تنزيل snapshots منظمة، وإتاحة داخلية للمؤسسات (SSO/Access control).
LIC
ترخيص مجموعات البيانات المنظمة ترخيص corpus منظم ولقطات Knowledge Graph لاستخدامات بحثية أو تجارية وفق اتفاقيات واضحة ونطاق استخدام محدد.
ENT
حلول Enterprise وخدمات تنفيذ تشغيل نفس خط المعالجة لجهات تمتلك أرشيفات مغلقة (رقمنة + OCR + هيكلة + إثراء) مع تسليم بيانات منظمة وواجهات بحث داخلية.

لماذا هذا مناسب لـ Google Cloud Credits؟

الـ Credits تُحوِّل مباشرةً إلى إنتاجية (صفحات/يوم) وإثراء أعمق (كيانات/موضوعات/ترجمة) ثم إلى منتج قابل للبيع: API مدفوع + اشتراكات مؤسسية + تراخيص بيانات.

API Revenue Institutional Subscriptions Dataset Licensing Enterprise Services

لماذا Google Cloud

Credits → إنتاجية قابلة للقياس

ترجمة احتياجاتنا إلى خدمات Google Cloud

نطلب Credits لتوسيع المعالجة الدُفعية والفهرسة دون انفجار في التكلفة. Google Cloud توفر تخزينًا موثوقًا، استدلالًا قابلًا للتوسع، وتحليلات على بيانات corpus المتنامية.

الاحتياج Google Cloud النتيجة
إثراء دفعي + توليد metadata Vertex AI تحسين OCR + تسريع الكيانات/الموضوعات/الترجمة
تخزين أرشيفي للصور Cloud Storage تخزين دائم + versioning + وصول قابل للتوسع
تحليلات على بيانات منظمة BigQuery تحليل corpus + اتجاهات الموضوعات + شبكات الكيانات
أتمتة خطوط العمل Cloud Run / Functions تنسيق ingestion والمعالجة
وصول عالمي سريع CDN + Hosting تقليل زمن التحميل للـ MVP والعروض

عنق الزجاجة الحالي

لا يمكن التوسع إلى مئات الآلاف من الصفحات بكفاءة بدون معالجة دفعية على السحابة وبنية بيانات مناسبة. الـ Credits تتحول مباشرة إلى: صفحات/يوم أكثر + إثراء أعمق لكل صفحة.

ComputeBatch inference لـ OCR والإثراء.
🧠
QualityValidation loops + اتساق هيكلي.
📦
Storageأصول عالية الدقة + مخرجات بإصدارات.

إثبات المنتج (MVP حي)

متاح للعامة

العرض الحي

الـ MVP متاح للعامة ويعرض التصفح المنظم، صفحات المقالات، التصنيفات، ولوحات معلومات مستخرجة من corpus الحالي.

الحالة

الـ MVP/Beta حي. المرحلة التالية: توسيع خط الإنتاج لمعالجة بقية الصفحات وإصدار مخرجات datasets وKnowledge Graph وواجهات API.

المرحلةMVP / Beta
المحطة القادمةScale processing + API outputs
الأصل الأساسيStructured Arabic corpus

التواصل

تواصل معنا

لأي استفسار متعلق بطلب Google for Startups Cloud، تواصل معنا:

الفريق والمستشارون

أسماء وأدوار وخبرات مختصرة (مع روابط LinkedIn للأعضاء المتاحين).
EN

القيادة

أحمد الوكيل

المؤسس والمدير العام
خبرة +25 عامًا في نظم المحتوى الرقمي وأرشفة المعرفة العربية. مؤسس الشركة العربية للأبحاث ونظم المعلومات؛ يقود تحويل الأرشيفات التراثية إلى معرفة منظمة قابلة للبحث والتحليل.

المستشارون

أحمد الدخاخني

استشاري هندسي · مستشار تقني
مهندس برمجيات أول ومعماري تقني (9+ سنوات). خبرة في الأنظمة الموزعة وتحسين الأداء؛ شارك في توسيع منتجات مالية إلى +500 ألف مستخدم نشط شهريًا.

د. عبد الرازق عيسى

مستشار بحثي · التاريخ الحديث
يدعم التحقق العلمي والسياق التاريخي والإرشاد الأكاديمي لمخرجات الأرشيف.

غريب قاسم

مستشار لغويات · باحث دكتوراه في اللغة العربية
يدعم التحليل اللغوي، ضبط المصطلحات، وجودة الكيانات والربط الدلالي ضمن خط المعالجة.

أ. عادل نجار

المشرف العام على المشروع · مسؤول التزويد بالمصادر
يشرف على التزويد بالمصادر وتنظيم سلاسل الإمداد، ويدعم إدارة التنفيذ والتنسيق العام للمشروع.

فريق التشغيل

قسم التصوير
آلاء محمودهاجر مرشدنورا القباني
قسم المراجعة
رشيد الخشابعلي الهلالي
قسم الفهرسة
محمد بدرانعبد الرحمن شريف
مراقبة الجودة
خديجة تميميوسف الوكيل