AI Deep Tech Infrastructure

المعرفة العربية… مُهيكلة للذكاء الاصطناعي على نطاق واسع.

Gutenberg Digital Publishing تبني طبقة بنية تحتية “AI-native” لتحويل منشورات التراث العربي واسعة النطاق إلى مجموعات بيانات قابلة للقراءة آليًا وفهارس دلالية ورسوم/شبكات معرفة لخدمة البحث العلمي وأنظمة الذكاء الاصطناعي الحديثة.

View Live MVP ↗ See Architecture → Contact ✦

2,000,000+

صفحة مُصوَّرة

بيانات خام من مجلات تراثية عربية (1887–1975).

8,000+

Indexed articles

بيانات وصفية + مؤلفون + موضوعات + روابط وعلاقات.

99%

OCR accuracy

تم التحقق من الجودة على بيانات المجموعة الحالية.

450,000+

صفحة — المرحلة الأولى

هدف الهيكلة حتى 1953 إلى بيانات منظمة قابلة للبحث والتحليل.

المشكلة → فرصة البنية التحتية

لماذا يهم هذا على مستوى Cloud-scale AI

المشكلة

تراث الفكر العربي محبوس في ملفات PDF ممسوحة ضوئيًا: متفرق، غير قابل للبحث بشكل فعّال، وغير صالح للاستخدام في مسارات عمل الذكاء الاصطناعي الحديثة. بدون هيكلة بيانات وربط كيانات وفهرسة دلالية، لن يمكن استخدامه على نطاق واسع في البحث أو الذكاء الاصطناعي.

مسوحات غير منظمةمحتوى ممتاز لكنه غير قابل للقراءة آليًا.

غياب الطبقة الدلاليةنقص كيانات/موضوعات/خط زمني/روابط.

اختلال بيانات الذكاء الاصطناعيالعربية أقل تمثيلًا في corpora عالية الجودة.

الحل

بنينا خط معالجة يحول المنشورات التاريخية إلى بيانات منظمة قابلة للاستعلام: بيانات وصفية + كيانات + نمذجة موضوعات + استرجاع دلالي + مخرجات Knowledge Graph.

OCR بالذكاء الاصطناعي + التحققاستخراج عالي الدقة مع فحوص جودة.

هيكلة البيانات + استخراج الكياناتمؤلفون/أشخاص/موضوعات/زمن/سياق.

فهرسة دلالية + Knowledge Graphربط عبر المقالات وتجهيز مخرجات Graph.

نظرة معمارية

مخطط مبسط وصديق للمراجعة

ما معنى “Deep Tech” هنا؟

الابتكار الأساسي هو قابلية التوسع لتحويل مسوحات التراث العربي إلى معرفة منظمة قابلة للاستهلاك آليًا. هذه بنية تحتية، وليست مجرد نشر محتوى.

OCR + QA Entity linking Semantic retrieval Scale bottleneck

مخرجات البحث والبيانات

ما ننتجه (ليس مجرد صفحات)

المخرجات هي أصول جاهزة للذكاء الاصطناعي

الـ MVP الحي يعرض طبقة القراءة والتصفح، لكن القيمة الأساسية هي طبقة البيانات المنظمة التي يمكن استهلاكها بواسطة نظم البحث والباحثين ومسارات الذكاء الاصطناعي.

تصدير Corpus منظم JSON على مستوى المقال: عنوان، مؤلف، تاريخ، صفحات، ملخصات، موضوعات، كيانات، روابط…

لقطات Knowledge Graph شبكات المؤلفين، روابط الكيانات، العلاقات عبر المقالات، حواف الخط الزمني.

فهرس دلالي (جاهز للـ Vector) سجلات قابلة للتضمين Embeddings للاسترجاع الدلالي والمساعدين البحثيين.

طبقة تدويل ترجمة البيانات الوصفية للإنجليزية لدعم الباحثين غير الناطقين بالعربية والاكتشاف العالمي.

{ "article_id": "RISALA_1937_05_10_001", "title_ar": "عنوان المقال", "title_en": "Translated title", "author_ar": "اسم الكاتب", "date": "1937-05-10", "pages": [17,18,19], "topics": ["literature","criticism"], "entities": [{"type":"person","value":"طه حسين"}], "links": {"related_articles": ["..."], "issue_url": "..."} }

اتجاه الـ API

الخطوة القادمة: Endpoints مستقرة للباحثين والمطورين للاستعلام عن corpus المنظم ورسوم المعرفة والبحث الدلالي.

/articlesفلترة حسب السنة/المؤلف/الموضوع/الكيان.

/graphحواف بين مؤلفين وموضوعات وكيانات.

/searchبحث نصّي + استرجاع دلالي.

خطة التوسع (حسابات غير مالية)

أهداف الإنتاجية + أثر السحابة

الوضع الحالي

نحن بالفعل نعالج الصفحات على دفعات. التوسع يعتمد أساسًا على قدرة الاستدلال السحابي، التخزين، وموثوقية الأتمتة.

اليوممعالجة دفعية بميزانية Compute محدودة.

بوابة جودةفحوص آلية + مراجعة بشرية للصفحات المُعلّمة.

بيانات الإدخال/الإخراجصور عالية الدقة + مخرجات مُؤرشفة/مُنسخة بالإصدارات.

الأهداف بعد Credits

الهدف هو ثبات معدل الإنتاج وتسريع الإثراء (كيانات/موضوعات/ترجمة)، وليس OCR فقط.

P/D

صفحات/يومرفع الإنتاجية عبر Vertex AI + orchestration.

E2E

End-to-End لكل دفعةOCR → هيكلة → إثراء → فهرسة.

API

تسليماتSnapshots منتظمة + مخرجات KG/API.

حسابات توسع مبسطة (توضيحية)

تقدير “صديق للمراجعة” يوضح كيف تتحول الحوسبة إلى إنتاجية. عدّل الأرقام لتطابق معدلاتك المقاسة.

السيناريو	صفحات/يوم	صفحات/شهر	المدة المتوقعة لـ 400,000 صفحة	ملاحظات
محدود	500	15,000	~27 شهر	قيود على الاستدلال + إثراء أبطأ
مع Credits	2,000	60,000	~7 شهور	OCR + إثراء (كيانات/موضوعات/ترجمة) بالتوازي
محسّن	4,000	120,000	~3.5 شهور	توازي أعلى + caching + routing ذكي للجودة

شكل النجاح

خط إنتاج ثابت يخرج شهريًا snapshots (Corpus + Index + KG) ويحافظ على سرعة واجهة العرض عبر بيانات مُحضّرة ومجزأة.

Monthly snapshots Stable schema KG growth Latency down

نموذج الدخل والاستدامة

تصورات الدخل بعد اكتمال المنصة

من أين يأتي الدخل؟ (B2B أولًا)

نحن نستهدف نموذج أعمال مؤسسي قابل للتوسع. المنتج الأساسي هو طبقة البيانات المنظمة + البحث الدلالي + واجهات API. الدخل يأتي من خدمات ومنتجات مبنية على هذه الطبقة، مع الحفاظ على واجهة عامة مجانية كـ “عرض قيمة” ومرجع قابل للاستشهاد.

API

API Access (SaaS) خطط شهرية/سنوية حسب الاستهلاك (Limits + Seats) للوصول البرمجي إلى /articles و/search و/graph وعمليات التصدير المنظمة.

UNI

اشتراكات جامعات ومراكز بحث لوحات تحليلات متقدمة، أدوات تصنيف وفهرسة، تنزيل snapshots منظمة، وإتاحة داخلية للمؤسسات (SSO/Access control).

LIC

ترخيص مجموعات البيانات المنظمة ترخيص corpus منظم ولقطات Knowledge Graph لاستخدامات بحثية أو تجارية وفق اتفاقيات واضحة ونطاق استخدام محدد.

ENT

حلول Enterprise وخدمات تنفيذ تشغيل نفس خط المعالجة لجهات تمتلك أرشيفات مغلقة (رقمنة + OCR + هيكلة + إثراء) مع تسليم بيانات منظمة وواجهات بحث داخلية.

لماذا هذا مناسب لـ Google Cloud Credits؟

الـ Credits تُحوِّل مباشرةً إلى إنتاجية (صفحات/يوم) وإثراء أعمق (كيانات/موضوعات/ترجمة) ثم إلى منتج قابل للبيع: API مدفوع + اشتراكات مؤسسية + تراخيص بيانات.

API Revenue Institutional Subscriptions Dataset Licensing Enterprise Services

لماذا Google Cloud

Credits → إنتاجية قابلة للقياس

ترجمة احتياجاتنا إلى خدمات Google Cloud

نطلب Credits لتوسيع المعالجة الدُفعية والفهرسة دون انفجار في التكلفة. Google Cloud توفر تخزينًا موثوقًا، استدلالًا قابلًا للتوسع، وتحليلات على بيانات corpus المتنامية.

الاحتياج	Google Cloud	النتيجة
إثراء دفعي + توليد metadata	Vertex AI	تحسين OCR + تسريع الكيانات/الموضوعات/الترجمة
تخزين أرشيفي للصور	Cloud Storage	تخزين دائم + versioning + وصول قابل للتوسع
تحليلات على بيانات منظمة	BigQuery	تحليل corpus + اتجاهات الموضوعات + شبكات الكيانات
أتمتة خطوط العمل	Cloud Run / Functions	تنسيق ingestion والمعالجة
وصول عالمي سريع	CDN + Hosting	تقليل زمن التحميل للـ MVP والعروض

عنق الزجاجة الحالي

لا يمكن التوسع إلى مئات الآلاف من الصفحات بكفاءة بدون معالجة دفعية على السحابة وبنية بيانات مناسبة. الـ Credits تتحول مباشرة إلى: صفحات/يوم أكثر + إثراء أعمق لكل صفحة.

⚙

ComputeBatch inference لـ OCR والإثراء.

🧠

QualityValidation loops + اتساق هيكلي.

📦

Storageأصول عالية الدقة + مخرجات بإصدارات.

إثبات المنتج (MVP حي)

متاح للعامة

العرض الحي

الـ MVP متاح للعامة ويعرض التصفح المنظم، صفحات المقالات، التصنيفات، ولوحات معلومات مستخرجة من corpus الحالي.

Open Live MVP ↗ Main Website ↗

الحالة

الـ MVP/Beta حي. المرحلة التالية: توسيع خط الإنتاج لمعالجة بقية الصفحات وإصدار مخرجات datasets وKnowledge Graph وواجهات API.

المرحلةMVP / Beta

المحطة القادمةScale processing + API outputs

الأصل الأساسيStructured Arabic corpus

التواصل

تواصل معنا

لأي استفسار متعلق بطلب Google for Startups Cloud، تواصل معنا:

Email: editor@gutenbergdigital.net ✉ Draft re-evaluation email ↗

Gutenberg Digital Publishing

المعرفة العربية… مُهيكلة للذكاء الاصطناعي على نطاق واسع.

المشكلة → فرصة البنية التحتية

المشكلة

الحل

نظرة معمارية

ما معنى “Deep Tech” هنا؟

مخرجات البحث والبيانات

المخرجات هي أصول جاهزة للذكاء الاصطناعي

اتجاه الـ API

خطة التوسع (حسابات غير مالية)

الوضع الحالي

الأهداف بعد Credits

حسابات توسع مبسطة (توضيحية)

شكل النجاح

نموذج الدخل والاستدامة

من أين يأتي الدخل؟ (B2B أولًا)

لماذا هذا مناسب لـ Google Cloud Credits؟

لماذا Google Cloud

ترجمة احتياجاتنا إلى خدمات Google Cloud

عنق الزجاجة الحالي

إثبات المنتج (MVP حي)

العرض الحي

الحالة

التواصل

الفريق والمستشارون

القيادة

أحمد الوكيل

المستشارون

أحمد الدخاخني

د. عبد الرازق عيسى

غريب قاسم

أ. عادل نجار

فريق التشغيل

قسم التصوير

قسم المراجعة

قسم الفهرسة

مراقبة الجودة